3,106 research outputs found

    Segmentation and classification of tumor cells in breast cancer histological images: analysis of multicenter variability

    Get PDF
    Als hospitals Vall d'Hebron i Bellvitge s'utilitzen dues marques diferents de tinció de cèl·lules HER2 per diagnosticar pacients amb càncer de mama HER2 positiu, que presenten variacions de color. Disposem d'un conjunt de dades etiquetades de Vall d'Hebron que ha permès a l'equip de recerca entrenar un model de segmentació múltiple per fer prediccions, i un conjunt de dades d'imatges de Bellvitge amb només un subconjunt d'etiquetes. Aquest projecte pretén transferir el coneixement que la xarxa ha après amb imatges de Vall d'Hebron per poder obtenir prediccions d'alta qualitat amb imatges de Bellvitge mitjançant fine-tuning del model. A través de diferents experiments, s'estudien tres variables: el nombre mínim d'imatges etiquetades necessàries del nou centre, l'impacte que té la distribució de les classes del conjunt de dades d'entrenament a la fase de fine-tuning i la possibilitat d'obtenir un model capaç de predir imatges d'ambdós centres barrejant les seves dades en la fase de fine-tuning. Addicionalment, s'han explorat algunes tècniques per superar les conseqüències que comporta tenir un conjunt de dades desequilibrat a l'hora d'entrenar el model.In Vall d'Hebron and Bellvitge hospitals, two different HER2 cell staining brands are used to diagnose HER2-positive breast cancer patients, which present color variations. We dispose of a labeled dataset from Vall d'Hebron that allowed the research team to train a multi-segmentation model to make predictions, and a dataset of Bellvitge's images with only a subset of ground truth labels. This project aims to infer the knowledge that the network has gained training with Vall d'Hebron images to make it able to obtain high-quality predictions with Bellvitge images using transfer learning by fine-tuning the model. Three variables are studied through different experiments: the minimum number of labeled images needed from the new center, the impact that the distribution of the classes of the fine-tuning training dataset has, and the possibility of obtaining a model able to predict images from both centers by mixing their data in the fine-tuning phase. Additionally, a few techniques have been explored to overcome the consequences that having an unbalanced dataset entails when training the model

    Identificació no-supervisada de persones en programes de televisió

    Get PDF
    En els darrers anys la quantitat de dades de vídeos i imatges ha anat augmentant, això ha provocat diversos problemes d’anotació i classificació del conjunt de dades. Un d’aquests grans problemes és la identificació de persones en vídeos, és per això que la recerca en aquest àmbit ha incrementat en els últims anys. L’objectiu d’aquest projecte és trobar un nou algoritme per poder millorar la identificació no supervisada de persones en seqüències de vídeo per programes de televisió. Per poder dur a terme aquesta millora es crearà un nou classificador des de cero per poder identificar si una persona en una seqüència de vídeo està parlant o no. Aquest classificador serà creat a partir de l’extracció de les cares de persones en diferents vídeos, i classificant-les manualment respecte si estan parlant o no. A partir d’aquest conjunt de dades, es detectaran les boques i es mesurarà la distància entre els llavis, per tal de poder crear un vector de distàncies per cada cara detectada. A més a més, s’aplicarà un detector facial millorat i es compararan els resultats amb un altre detector més antic. Finalment s’exposaran els resultats un cop aplicat el nou classificado

    Classificació automàtica de fruites utilitzant tècniques d'aprenentatge profund

    Get PDF
    The productivity of the agri-food sector experiences continuous and growing challenges that make the use of innovative technologies to maintain and even improve their competitiveness a priority. One way to achieve this goal is the development of flexible and portable systems capable of obtaining 2D/3D measurements and classifying objects based on color and depth images taken from multiple sensors. In this project, deep learning methods for fruit detection and classification will be explored.És crucial disposar de sistemes de detecció d'objectes precisos i fiables per a desenvolupar feines d'alt nivell en agricultura com serien fer un mapatge del camp o robotitzar les collites. Aquest document utilitza una Faster-RCNN -que consisteix xarxa de detecció d'objectes de l'estat de l'art- orientada a la detecció de fruites que en aquest treball només seran pomes. La xarxa serà introduïda i explicada. Es fa un anàlisis d'obtenció dels paràmetres d'entrenament i diversos experiments orientats a maximitzar la finesa (accuracy en anglès) del model que es vol obtenir. La xarxa neuronal estarà consistirà en una part preentrenada una part completament per entrenar. Aquest estudi no ha aconseguit equiparar els resultats de treballs anteriors (F1 score > 0.9) però tampoc es pot dir que hagi obtingut mals resultats, com seria un F1-score de 0.85

    La informació física no específica: el best-seller de la quimiometria

    Get PDF
    En aquesta conferència, homenatge al Prof. Enric Casassas, el Prof. Forina exposa de manera molt didàctica, tres idees importants a tenir presents per tots els que treballen en Quimiometria o utilitzen tècniques quimiomètriques. L'objectiu sempre ha de ser resoldre una situació química real, procurant emprar eines de qualitat coneguda i no cal tenir recança en aplicar-les a situacions com ara la informació física no específica.This lecture, a tribute to Prof. Enric Casassas, Prof. Forina presents in a very didactic way, three important ideas to take into account for all those who are working in chemometrics or use chemometric techniques. The main goal should always be to resolve a real chemistry situation, trying to use tools of known quality and we should not afraid to apply Chemometrics to situations such as non-specific physical information

    Protecció de la privadesa de microdades mitjançant MDAV

    Get PDF
    Aquest treball presenta una implementació de l'algorisme MDAV per tal de protegir un conjunt de dades de tal manera que no es perdin les seves característiques generals, i puguin protegir la privacitat dels individus i, alhora, donar prou informació per ser rellevants en estudis estadístics. La metodologia utilitzada ha estat la implementació de l'algorisme i la seva avaluació amb diferents conjunts de dades. Finalment, s'avaluen els inconvenients i limitacions del k-anonimat i es compara amb altres criteris que tenen millor comportament contra determinats tipus d'atacs.This work presents an implementation of the MDAV algorithm in order to protect a dataset so that its general characteristics are not lost, and can protect the privacy of individuals, and at the same time provide enough information to be relevant in statistical studies. The methodology used has been the implementation of the algorithm and its evaluation with different datasets. Finally, the drawbacks and limitations of k-anonymity are evaluated and compared with other criteria that have better behavior against certain types of attacks.Este trabajo presenta una implementación del algoritmo MDAV para proteger un conjunto de datos de tal manera que no se pierdan sus características generales, y puedan proteger la privacidad de los individuos y, a la vez, dar suficiente información para ser relevantes en estudios estadísticos. La metodología utilizada ha sido la implementación del algoritmo y su evaluación con diferentes conjuntos de datos. Finalmente, se evalúan los inconvenientes y limitaciones del k-anonimato y se compara con otros criterios que tienen mejor comportamiento contra determinados tipo de ataques

    Anàlisi visual de dades: conceptes bàsics i eines

    Get PDF
    Vivimos en un mundo físico que se proyecta sobre otro mundo, completamente digital, que consume datos como combustible principal, extrae y genera conocimiento. Actualmente, con estos datos se toman decisiones en todos los ámbitos, desde el personal hasta el de las grandes corporaciones multinacionales, así como el de la administracióny el académico. El uso de herramientas de inteligencia de negocio es cada vez más habitual para apoyar la toma de decisiones, pero en muchos casos estas herramientas funcionan de forma opaca, no permiten interpretar y entender una decisión basada en los datos. Es habitual, sin embargo, que estas herramientas proporcionen visualizaciones de los datos y los procesos subyacentes, un aspecto que puede permitir entender mejor la línea de razonamiento que se sigue en el momento de tomar decisiones. En este artículo se presentan los fundamentos del análisis visual de datos y algunos antecedentes históricos destacables, y se describen distintas herramientas para llevar a cabo estos análisis, con el objetivo de aprovechar las capacidades del sistema visual humano para detectar tendencias, patrones y anomalías, hacer comparaciones y establecer relaciones.We live in a physical world overlaid on another totally digital world, whose basic fuel is data, from which we extract and generate knowledge. These data are now used to take decisions at all levels, ranging from the purely personal through to major multinationals, as well as in the administration and academia. The use of business intelligence tools in providing decision-making support is becoming increasingly more common, although in many cases these tools operate “under the hood”, leaving no room for interpreting and understanding the decisions taken on the basis of such data. Nevertheless, these tools usually visualize the underlying data and processes, thus helping to give us a better understanding of the rationale applied to the decision-making process. This article addresses the basics of visual data analysis, offering important historical background, while also describing the tools involved, with the ultimate aim of leveraging thehuman visual system’s capacity to detect trends, patterns or anomalies, draw comparisons and establish relationships.Vivim en un món físic que es projecta sobre un altre món, completament digital, que consumeix dades com a combustible principal, n’extreu coneixement i en genera. Actualment, amb aquestes dades es prenen decisions en tots els àmbits, des del personal fins al de les grans corporacions multinacionals, així com el de l’administració i l’acadèmic.L’ús d’eines d’intel·ligència de negoci és cada cop més habitual per a donar suport a la presa de decisions, però en molts casos aquestes eines funcionen de manera opaca, no permeten interpretar i entendre una decisió basada en les dades. És habitual, però, que aquestes eines proporcionin visualitzacions de les dades i dels processos subjacents, un aspecte que pot permetre entendre millor la línia de raonament que se segueix a l’hora de prendre decisions. En aquest article es presenten els fonaments de l’anàlisi visual de dades i alguns antecedents històrics destacables, i es descriuen diferents eines per a fer aquestes anàlisis, amb l’objectiu d’aprofitar les capacitats del sistema visual humà per a detectar tendències, patrons i anomalies, fer comparacions i establir relacions

    La Ribera de la Seu vista pels enginyers de mines del segle XIX

    Get PDF
    En aquesta comunicació s'analitzarà un territori concret, la Ribera de la Seu d'Urgell, a partir d'una font que dificilment tenim en compte: els informes i projectes d'explotacions mineres. En un moment d'industrialització del país, la recerca exhaustiva de recursos minerals va portar durant el segle XIX a elaborar un seguit de reconeixements i estudis al llarg de tot el territori. Tot i que aquests textos, eminentment tècnics, ens aporten poc des del punt de vista propiament humà del territori, ens forneixen un conjunt de dades excepcionals per entendre un dels grans problemes de l'àrea durant aquelles dècades: la manca de comunicacion

    Estudi d'optimització per a regression wavelet analysis a través de models de regressió combinats

    Get PDF
    Basant-nos en el treball realitzat a l'article "Regression wavelet analysis for lossless coding of remote-sensing data", es presenta un aprofundiment en la matèria intentant trobar punts de millora pel que fa a rendiment de compressió o el cost computacional de la transformació. RWA utilitza implementacions de la transformada wavelet discreta, concretament en aquest projecte només la implementada amb el filtre Haar, per dividir les dades en components d'aproximació i components de detall. Les components de detall, mitjançant diferents models de regressió, són posteriorment estimades a partir de les d'aproximació, evitant així la necessitat d'emmagatzemar el cent per cent de les primeres. La nova aproximació busca combinar els esmentats models i observar el seu comportament conjunt per investigar si es podrien incrementar encara més els beneficis de l'anàlisi de regressió a les transformades wavelet.Based on the work of "Regression wavelet analysis for lossless coding of remote-sensing data", a new approach is presented trying to introduce an improvement in matter on compress performance or computational cost. RWA uses implementations of the discrete wavelet transform, in particular an implementation with the Haar filter, in order to divide data between approximation components and details components. Details components, through different regression models, are later estimated using the approximation components, avoiding that way, the necessity of storing all the data from the first ones. The new approach seeks to combine, all mentioned models and observe their integrated behavior trying to investigate if it is possible to increase even more the benefits of the regression wavelet analysis.Basándonos en el trabajo realizado en el artículo "Regression wavelet analysis for lossless coding of remote-sensing data", se presenta una profundización en la materia intentando encontrar puntos de mejora en cuanto al rendimiento de compresión o el coste computacional de la transformación. RWA utiliza implementaciones de la transformada wavelet discreta, concretamente en este proyecto solo la implementada con el filtro Haar, para dividir los datos en componentes de aproximación y componentes de detalle. Las componentes de detalle, utilizando diferentes modelos de regresión, son posteriormente estimadas a partir de les de aproximación, evitando así la necesidad de almacenar el cien por cien de las primeras. La nueva aproximación busca combinar dichos modelos y observar su comportamiento conjunto para investigar si sería viable incrementar incluso en mayor medida los beneficios del análisis de regresión en les transformadas wavelet

    Big Data : Mineria de dades amb el framework Apache Spark

    Get PDF
    El tractament i la manipulació de dades és una part inherent de la societat moderna, una disciplina que es posa en pràctica en molts àmbits quotidians. En l'actualitat, però, el volum i la tipologia de les dades (l'anomenat "Big Data") sol desbordar els mètodes de tractament i manipulació tradicionals. Cada cop més freqüentment resulta necessària la utilització d'eines de còmput distribuït i noves tècniques per afrontar l'allau de dades que origina una societat actual al segle XXI. Aquest projecte pretén estudiar la utilització d'un dels frameworks de còmput més utilitzats dins l'àmbit de Big Data, Apache Spark, en un cas d'ús real, com pot ser l'anàlisi del funcionament d'una xarxa de transport en una gran ciutat; en concret, el metro de Londres.Data processing and manipulation is an inherent part of modern society, a field with many everyday applications. In recent times, however, the volume and variety of data (the so-called "Big Data") is becoming a problem that traditional processing methodology is unable to cope with. The use of distributed computing and new data manipulation techniques are becoming increasingly necessary to deal with the information deluge created by 21st Century societies. This project aims to study the use of one of the better known distributed computing networks in the Big Data landscape, Apache Spark, in a real-world use case: the analysis of operation of a large, metropolitan transport network, such as the London Underground.El tratamiento y la manipulación de datos es una parte inherente de la sociedad moderna, una disciplina que se pone en práctica en muchos ámbitos cotidianos. En la actualidad, sin embargo, el volumen y la tipología de los datos (el llamado "Big Data") suele desbordar los métodos de tratamiento y manipulación tradicionales. Cada vez más frecuentemente resulta necesaria la utilización de herramientas de cómputo distribuido y nuevas técnicas para afrontar la avalancha de datos que origina una sociedad actual en el siglo XXI. Este proyecto pretende estudiar la utilización de uno de los frameworks de cómputo más utilizados en el ámbito de Big Data, Apache Spark, en un caso de uso real, como puede ser el análisis del funcionamiento de una red de transporte en una gran ciudad; en concreto, el metro de Londres

    Estudi de la privacitat de dades

    Get PDF
    A causa de la imminent digitalització de la informació personal que s'acumula en els fitxers dels estats, empreses i xarxes socials, la preservació de la privacitat està sent un dels trencaclosques més difícils d'afrontar i mitigar en aquests últims anys, tant pels responsables de la seguretat de les dades així com pels mateixos usuaris d'Internet. En aquest paper es presenta l'estat de l'art actual d'alguns dels algoritmes que busquen protegir la privacitat de les dades, analitzant les possibles amenaces i riscos implicats. Així com una descripció de les dues línies de treball més estudiades actualment, com són el Graph-Modification i el Differential Privacy, on es realitzarà una explicació de cadascuna de les tècniques emprades, fent especial referencia a la modificació en les arestes i els vèrtexs, random perturbation i k-anonimitat. Finalment i emprant un dataset d'una xarxa d'interconnexions com un graf, es mostrarà la comparativa d'un conjunt d'indicadors que avaluen la pèrdua d'informació que es produeix a l'hora d'anonimitzar les dades segons l'algoritme d'anonimització escollit, a partir d'un conjunt de proves empíriques realitzades sobre el dataset original.Due to the impending digitalization of personal information stored in states and companies files and social networks, the preservation of privacy is being one of the most difficult puzzles to mitigate and cope with in recent years, by those who are responsible for the security of such data security as well as Internet users themselves. This paper presents the current state of art of some of the algorithms which target is to protect the privacy of the data, by analyzing the potential threats and risks involved. Also a description of the two lines of work studied nowadays, such as Graph-Modification and Differential Privacy, where there will be an explanation of each of the techniques used, with a particular reference to the modifications in the edges and vertices, random perturbation and k-anonymity. Finally, from a set of empirical tests performed on the dataset of a network of interconnections used as a graph, will be shown the comparison of a set of indicators that evaluate the information loss produced as a result of the anonymization process chosen.Debido a la inminente digitalización de la información personal que se acumula en los ficheros de los estados, empresas y redes sociales, la preservación de la privacidad está siendo uno de los rompecabezas más difíciles de afrontar y mitigar en estos últimos años, ya sea tanto por los responsables de la seguridad de los datos así como por los usuarios de Internet. En este papel se presenta el estado del arte actual de algunos de los algoritmos que tienen como objetivo proteger la privacidad de los datos, analizando las posibles amenazas y riesgos implicados. Así como una descripción de las dos principales líneas de trabajo que hay actualmente, como son Graph-Modification y Differential Privacy, donde se realizará una explicación de cada una de las técnicas empleadas, haciendo especial referencia a la modificación en las aristas y los vértices, random perturbation y k-anonimitat. Finalmente y empleando un dataset de una red de interconexiones como un grafo, se mostrará la comparativa de un conjunto de indicadores que evalúan la pérdida de información que se produce a la hora de anonimitzar los datos según el algoritmo de anonimización escogido, a partir de un conjunto de pruebas empíricas realizadas sobre el dataset original
    corecore