127 research outputs found

    Bayesian nonparametrics for crowdsourcing

    Get PDF
    Supervised machine learning relies on a labeled training set, whose size is closely related to the achievable performance of any learning algorithm. Thanks to the progresses in ubiquitous computing, networks, and data acquisition and storage technologies, the availability of data is no longer a problem. Nowadays, we can easily gather massive unlabeled datasets in a short period of time. Traditionally, the labeling was performed by a small set of experts so as to control the quality and the consistency of the annotations. When dealing with large datasets this approach is no longer feasible and the labeling process becomes the bottleneck. Crowdsourcing has been proven to be an effective and efficient tool to annotate large datasets. By distributing the labeling process across a potentially unlimited pool of annotators, it allows building large labeled datasets in a short period of time at a low cost. However, this comes at the expenses of a variable quality of the annotations, i.e. we need to deal with a large set of annotators of possibly unknown and variable expertise. In this new setting, methods to combine the annotations to produce reliable estimates of the ground truth are necessary. In this thesis, we tackle the problem of aggregating the information coming from a set of different annotators in a multi-class classification setting. We assume that no information about the expertise of the annotators or the ground truth of the instances is available. In particular, we focus on the potential advantages of using Bayesian Nonparametric models to build interpretable solutions for crowdsourcing applications. Bayesian Nonparametric models are Bayesian models which set a prior probability on an infinite-dimensional parameter space. After seeing a finite training sample, the posterior probability ends up using a finite number of parameters. Therefore, the complexity of the model depends on the training set and we can infer it from the data, avoiding the use of expensive model selection algorithms. We focus our efforts on two specific problems. Firstly, we claim that considering the existence of clusters of annotators in this aggregation step can improve the overall performance of the system. This is especially important in early stages of crowdsourcing implementations, when the number of annotations is low. At this stage there is not enough information to accurately estimate the bias introduced by each annotator separately, so we have to resort to models that consider the statistical links among them. In addition, finding these clusters is interesting in itself, as knowing the behavior of the pool of annotators allows implementing efficient active learning strategies. Based on this, we propose in two new fully unsupervised models based on a Chinese Restaurant Process prior and a hierarchical structure that allows inferring these groups jointly with the ground truth and the properties of the annotators. The second problem is modeling inconsistent annotators. The performance of the annotators can be in-homogeneous across the instance space due to several factors like his past experience with similar cases. To capture this behavior, we proposed an algorithm that uses a Dirichlet Process Mixture model to divide the instance space in different areas across which the annotators are consistent. The algorithm allows us to infer the characteristics of each annotator in each of the identified areas, the ground truth of the training set, as well as building a classifier for test examples. In addition, it offers an interpretable solution allowing to better understanding the decision process undertaken by the annotators, and implement schemes to improve the overall performance of the system. We propose efficient approximate inference algorithms based on Markov Chain Monte Carlo sampling and variational inference, using auxiliary variables to deal with non-conjugacies when needed. Finally, we perform experiments, both on synthetic and real databases, to show the advantages of our models over state-of-the-art algorithms.Todo aprendizaje máquina supervisado descansa sobre un conjunto de entrenamiento etiquetado cuyo tamaño muestral está directamente relacionado con el rendimiento final del algoritmo. Gracias a los avances en computación ubicua, redes y tecnologías de adquisición y almacenamiento de datos, la disponibilidad de datos con que entrenar estos algoritmos ha dejado de ser un problema. Actualmente, podemos fácilmente reunir enormes conjuntos de datos no etiquetados en cortos periodos de tiempo. Tradicionalmente, el etiquetado de estos datos, era realizado por un pequeño conjunto de expertos a fin de controlar la calidad final y la consistencia de las anotaciones. Cuando nos enfrentamos a grandes conjuntos de datos, esta forma de proceder deja de ser factible, convirtiéndose el etiquetado en un cuello de botella. Crowdsourcing ha probado ser una herramienta efectiva y eficiente para anotar grandes conjuntos de datos en aprendizaje máquina. Mediante la distribución del proceso de etiquetado a un, potencialmente ilimitado, conjunto de anotadores, permite construir grandes conjuntos de datos etiquetados en un corto periodo de tiempo y a un bajo coste. Sin embargo, todo esto tiene como precio una pérdida sobre el control de la calidad de las anotaciones. Nos enfrentamos ahora a un gran conjunto de anotadores cuya experiencia es variable y desconocida. En este nuevo escenario, métodos de combinación de las anotaciones para dar lugar a estimaciones fiables de la etiqueta verdadera son necesarios. En esta tesis, abordamos el problema de agregar la información procedente de diferentes anotadores en un problema de clasificación multi-clase. Asumimos que no existe información disponible acerca de la experiencia de los anotadores o la etiqueta verdadera de las muestras. En concreto, nos centramos en las ventajas potenciales de usar modelos bayesianos no paramétricos para construir soluciones interpretables para aplicaciones de crowdsourcing. Los modelos bayesianos no paramétricos son modelos Bayesianos que definen una probabilidad a priori sobre un espacio de parámetros con infinitas dimensiones. Tras observar una muestra de entrenamiento finita, la probabilidad a posteriori termina usando un número finito de parámetros. Por tanto, la complejidad del modelo depende del conjunto de entrenamiento usado que es inferida a partir de los datos, evitando el uso de costosos algoritmos para selección de modelos. Nos centramos en dos problemas específicos. En primer lugar, defendemos que tener en cuenta la existencia de grupos de anotadores en la etapa de agregación, puede mejorar el rendimiento global del sistema. Esto es especialmente importante en fases tempranas de la implementación del sistema de crowdsourcing, cuando el número de anotaciones en bajo. En esta fase no hay suficiente información para estimar con precisión el sesgo introducido por cada anotador por separado, por lo que tenemos que recurrir a modelos que tengan en cuenta las dependencias estadísticas entre los distintos anotadores. Además, encontrar estos grupos de anotadores es un problema interesante por sí mismo, pues el conocer el comportamiento de nuestros anotadores nos permite implementar estrategias eficientes de aprendizaje activo. Basándonos en esta hipótesis, proponemos dos nuevos modelos no supervisados haciendo uso de un prior Chinese Restaurant Process y una estructura jerárquica que nos permite inferir los grupos de anotadores así como sus propiedades y las etiquetas verdaderas. El segundo problema es el modelado de anotadores inconsistentes. El rendimiento de los anotadores puede ser no homogéneo en el espacio muestral debido a diferentes factores tales como sus experiencias pasadas con casos similares. Para capturar este comportamiento, proponemos un algoritmo que usa un modelo Dirichlet Process Mixture con el objetivo de dividir el espacio muestral en diferentes áreas en las cuales los anotadores son consistentes. El algoritmo nos permite inferir las características de cada anotador en cada una de las áreas identificadas, las etiquetas verdaderas de nuestras muestras de entrenamiento, así como construir un clasificador para futuras muestras. Además, ofrece una solución interpretable permitiendo una mejor comprensión del proceso de decisión adoptado por los anotadores, así como implementar estrategias para mejorar el rendimiento global del sistema. Proponemos algoritmos de inferencia aproximada eficientes basados en muestreo Markov Chain Monte Carlo e inferencia variacional, usando variables auxiliares para lidiar con modelos de observación no conjugados cuando así se requiera. Finalmente, realizamos experimentos con bases de datos sintéticas y reales a fin de mostrar las ventajas de nuestros modelos con respecto al estado del arte.This work was partially supported by the "Formación de Profesorado Universitario" fellowship from the Spanish Ministry of Education (FPU AP2009-1513).Programa Oficial de Doctorado en Multimedia y ComunicacionesPresidente: Joaquín Míguez Arenas.- Secretario: Alberto Suárez González.- Vocal: Finale Doshi-Vele

    A supervised learning framework in the context of multiple annotators

    Get PDF
    The increasing popularity of crowdsourcing platforms, i.e., Amazon Mechanical Turk, is changing how datasets for supervised learning are built. In these cases, instead of having datasets labeled by one source (which is supposed to be an expert who provided the absolute gold standard), we have datasets labeled by multiple annotators with different and unknown expertise. Hence, we face a multi-labeler scenario, which typical supervised learning models cannot tackle. For such a reason, much attention has recently been given to the approaches that capture multiple annotators’ wisdom. However, such methods residing on two key assumptions: the labeler’s performance does not depend on the input space and independence among the annotators, which are hardly feasible in real-world settings..

    Development of a methodology for the diagnosis of internal combustion engines using non-invasive measurements based on the use of interpretable neural networks applicable to databases with multiple annotators

    Get PDF
    Pressure is one of the essential variables that give information for engine condition and monitoring. Direct recording of this signal is complex and invasive, while the angular velocity can be measured easily. Nonetheless, the challenge is to predict the cylinder pressure using the shaft kinematics accurately. On the other hand, the increasing popularity of crowdsourcing platforms, i.e., Amazon Mechanical Turk, changes how datasets for supervised learning are built. In these cases, instead of having datasets labeled by one source (which is supposed to be an expert who provided the absolute gold standard), databases holding multiple annotators are provided. However, most state-of-the-art methods devoted to learning from multiple experts assume that the labeler's behavior is homogeneous across the input feature space. Besides, independence constraints are imposed on annotators' outputs. This document presents a Regularized Chained Deep Neural Network to deal with classification tasks from multiple annotators. In this thesis, we develop 2 strategies aiming to avoid intrusive techniques that are commonly used to diagnose Internal Combustion Engines (ICE). The first consist of a time-delay neural network (TDNN), interpreted as a finite pulse response (FIR) filter to estimate the in-cylinder pressure of a single-cylinder ICE from fluctuations in shaft angular velocity. The experiments are conducted over data obtained from an ICE operating in 12 different states by changing the angular velocity and load. The TDNN's delay is adjusted to get the highest possible correlation-based score. Our methodology can predict pressure with an R2>0.9, avoiding complicated pre-processing steps. The second technique, termed RCDNN, jointly predicts the ground truth label and the annotators' performance from input space samples. In turn, RCDNN codes interdependencies among the experts by analyzing the layers' weights and includes l1, l2, and Monte-Carlo Dropout-based regularizers to deal with the overfitting issue in deep learning models. Obtained results (using both simulated and real-world annotators) demonstrate that RCDNN can deal with multi-labelers scenarios for classification tasks, defeating state-of-the-art techniques.La presión es una de las variables esenciales que dan información para el estado del motor y su monitorización. El registro directo de esta señal es complejo e invasivo, mientras que la velocidad angular puede medirse fácilmente. No obstante, el reto consiste en predecir la presión del cilindro utilizando la cinemática del eje con precisión. Por otro lado, la creciente popularidad de las plataformas de crowdsourcing, por ejemplo, Amazon Mechanical Turk, cambia la forma de construir conjuntos de datos para el aprendizaje supervisado. En estos casos, en lugar de tener conjuntos de datos etiquetados por una sola fuente (que se supone que es un experto que proporcionó el estándar de oro absoluto), se proporcionan bases de datos con múltiples anotadores. Sin embargo, la mayoría de los métodos de vanguardia dedicados al aprendizaje a partir de múltiples expertos suponen que el comportamiento del etiquetador es homogéneo en todo el espacio de características de entrada. Además, se imponen restricciones de independencia a los resultados de los anotadores. Este documento presenta una Red Neuronal Profunda Encadenada Regularizada para abordar tareas de clasificación a partir de múltiples anotadores. En esta tesis, desarrollamos dos estrategias con el objetivo de evitar las técnicas intrusivas que se utilizan habitualmente para diagnosticar motores de combustión interna (ICE). La primera consiste en una red neuronal de retardo temporal (TDNN), interpretada como un filtro de respuesta de pulso finito (FIR) para estimar la presión en el cilindro de un ICE de un solo cilindro a partir de las fluctuaciones de la velocidad angular del eje. Los experimentos se realizan sobre datos obtenidos de un ICE que opera en 12 estados diferentes cambiando la velocidad angular y la carga. El retardo de la TDNN se ajusta para obtener la mayor puntuación posible basada en la correlación. Nuestra metodología puede predecir la presión con un R2>0,9, evitando complicados pasos de preprocesamiento.MaestríaMagíster en Ingeniería EléctricaContent 1 Introduction 10 1.1 Problem statement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.2 Justification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.3 Objectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.3.1 General objective . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.3.2 Specific objectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2 TDNN-based Engine In-cylinder Pressure Estimation from Shaft Velocity Spectral Representation 18 2.1 Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2 Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2.1 Time Delay Neural Network fundamentals . . . . . . . . . . . . . . . 19 2.2.2 Harmonic prediction performance based on Magnitude-Squared Coherence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.3 Experimental Setup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.3.1 Engine Measurements, Data Acquisition, and Preprocessing . . . . . 22 2.3.2 Pressure signal estimation . . . . . . . . . . . . . . . . . . . . . . . . 26 2.4 Results and discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.5 Conclusions and future work . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3 Master Thesis: Content 3 Regularized Chained Deep Neural Network Classifier for Multiple Annotators 37 3.1 Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.2 Materials and Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.2.1 Related work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.2.2 Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.3 Experimental set-up . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.3.1 Tested datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.3.2 RCDNN detailed architecture and training . . . . . . . . . . . . . . . 46 3.3.3 Results and discussion . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.3.4 Introducing spammers and malicious annotators . . . . . . . . . . . . 55 3.3.5 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4 Final Remarks 58 4.1 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 4.1.1 TDNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 4.1.2 RCDNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 4.2 Future Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.2.1 TDNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.2.2 RCDNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.3 Publications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    Bayesian Nonparametric Crowdsourcing

    Get PDF
    Crowdsourcing has been proven to be an effective and efficient tool to annotate large data-sets. User annotations are often noisy, so methods to combine the annotations to produce reliable estimates of the ground truth are necessary. We claim that considering the existence of clusters of users in this combination step can improve the performance. This is especially important in early stages of crowdsourcing implementations, where the number of annotations is low. At this stage there is not enough information to accurately estimate the bias introduced by each annotator separately, so we have to resort to models that consider the statistical links among them. In addition, finding these clusters is interesting in itself as knowing the behavior of the pool of annotators allows implementing efficient active learning strategies. Based on this, we propose in this paper two new fully unsupervised models based on a Chinese restaurant process (CRP) prior and a hierarchical structure that allows inferring these groups jointly with the ground truth and the properties of the users. Efficient inference algorithms based on Gibbs sampling with auxiliary variables are proposed. Finally, we perform experiments, both on synthetic and real databases, to show the advantages of our models over state-of-the-art algorithms.Pablo G. Moreno is supported by an FPU fellowship from the Spanish Ministry of Education (AP2009-1513). This work has been partly supported by Ministerio de Economía of Spain (’COMONSENS’, id. CSD2008-00010, ’ALCIT’, id. TEC2012-38800-C03-01, ’COMPREHENSION’, id. TEC2012-38883-C02-01) and Comunidad de Madrid (project ’CASI-CAM-CM’, id. S2013/ICE-2845). This work was also supported by the European Union 7th Framework Programme through the Marie Curie Initial Training Network ”Machine Learning for Personalized Medicine” MLPM2012, Grant No. 316861. Yee Why Teh’s research leading to these results has received funding from the European Research Council under the European Union’s Seventh Framework Programme (FP7/2007-2013) ERC grant agreement no. 617411

    Visual Concepts and Compositional Voting

    Get PDF
    It is very attractive to formulate vision in terms of pattern theory \cite{Mumford2010pattern}, where patterns are defined hierarchically by compositions of elementary building blocks. But applying pattern theory to real world images is currently less successful than discriminative methods such as deep networks. Deep networks, however, are black-boxes which are hard to interpret and can easily be fooled by adding occluding objects. It is natural to wonder whether by better understanding deep networks we can extract building blocks which can be used to develop pattern theoretic models. This motivates us to study the internal representations of a deep network using vehicle images from the PASCAL3D+ dataset. We use clustering algorithms to study the population activities of the features and extract a set of visual concepts which we show are visually tight and correspond to semantic parts of vehicles. To analyze this we annotate these vehicles by their semantic parts to create a new dataset, VehicleSemanticParts, and evaluate visual concepts as unsupervised part detectors. We show that visual concepts perform fairly well but are outperformed by supervised discriminative methods such as Support Vector Machines (SVM). We next give a more detailed analysis of visual concepts and how they relate to semantic parts. Following this, we use the visual concepts as building blocks for a simple pattern theoretical model, which we call compositional voting. In this model several visual concepts combine to detect semantic parts. We show that this approach is significantly better than discriminative methods like SVM and deep networks trained specifically for semantic part detection. Finally, we return to studying occlusion by creating an annotated dataset with occlusion, called VehicleOcclusion, and show that compositional voting outperforms even deep networks when the amount of occlusion becomes large.Comment: It is accepted by Annals of Mathematical Sciences and Application

    Contributions to learning Bayesian network models from weakly supervised data: Application to Assisted Reproductive Technologies and Software Defect Classification

    Get PDF
    162 p.Las técnicas de análisis de datos permitenextraer información de un conjunto de datos. Hoy en día, con la explosión delas nuevas tecnologías, el enorme volumen de datos que una amplia variedadde dispositivos recogen y almacenan no puede ser procesado por medio de lastécnicas clásicas de análisis de datos. Para afrontar esta tarea, la minería dedatos y el aprendizaje automático son dos campos dentro de la inteligenciaartificial que desarrollan métodos computacionales de análisis de datos queaprovechan la capacidad de procesamiento de los ordenadores modernos.Las técnicas de clasificación supervisada se enmarcan dentro del campodel aprendizaje automático. En un problema de clasificación, existe un conjuntode posibles categorías a una de las cuales se asigna cada uno de los casosdel problema. En este contexto, se entiende por aprendizaje el proceso de inferirel mapeo de casos y categorías que se observa en el problema original apartir de un conjunto de casos de ejemplo. Estas técnicas de clasificación sedicen ¿supervisadas¿ porque dicho conjunto de ejemplos lo forman casos delproblema que han sido previamente asignados, uno a uno, a sus respectivascategorías. De esta manera, las técnicas de clasificación supervisada infierenel mapeo a partir de un conjunto de ejemplos completamente categorizado(o etiquetado) y construyen un clasificador que, dado un nuevo caso del problemaaún sin categorizar, es capaz de predecir su pertenencia a una de lasposibles categorías.En esta tesis se explora el problema de la clasificación supervisada cuandolos ejemplos que se aportan no están completamente categorizados. Elconjunto de trabajos que estudian la posibilidad de aprender un clasificadoren este tipo de escenarios son globalmente conocidos como clasificacióndébilmente supervisada o parcialmente etiquetada. El problema clásico declasificación semi-supervisada, donde sólo un subconjunto de los ejemplos estácategorizado, es uno de los primeros ejemplos de este tipo de problemas.Recientemente, el intento de resolver cada vez problemas de clasificaciónpor medio de técnicas de clasificación supervisada ha hecho patente que laobtención de un conjunto de datos completamente supervisado es con frecuenciaimposible o extremadamente difícil. Ante esta situación, diferentesinvestigadores han propuesto técnicas de clasificación débilmente supervisadaespecíficas que les permiten aprovechar toda la información de supervisiónque han podido recoger para su conjunto de ejemplos. La amplia variedadde restricciones que han impedido a los diferentes investigadores recoger unconjunto de ejemplos totalmente categorizado ha multiplicado el número deproblemas de clasificación débilmente supervisada presentados recientementeen la literatura junto con las soluciones propuestas para resolverlos.Nuestra primera propuesta en esta tesis es precisamente una ordenaciónnovedosa del espectro de problemas de clasificación débilmente supervisada.Se trata de una taxonomía con tres ejes donde cada uno de los cuales representauna característica fundamental a la hora de describir un problema declasificación débilmente supervisada. Todos los problemas se pueden identificarpor el tipo de información parcial de supervisión con que se categorizanlos ejemplos con que se aprende el clasificador. Además, en un segundo eje sediscute y visualiza la existencia de problemas de clasificación que permitenal clasificador, una vez aprendido, aprovechar cierta información parcial desupervisión de los ejemplos que debe predecir. El tercer eje de la taxonomíasepara los diferentes problemas según lo que se entiende en cada casoconcreto por ejemplo y categoría. Esta organización del estado del arte permitedescubrir las similitudes y diferencias entre los diferentes problemas declasificación. Alternativamente, el uso de esta taxonomía permite detectar ycaracterizar áreas por explorar, las cuales podrían representar nuevos problemasque todavía no han sido estudiados en la literatura relacionada.La taxonomía propuesta establece un marco general que cubre los diferentesproblemas estudiados en esta tesis. Hasta cuatro problemas diferentes declasificación débilmente supervisada han sido considerados. Todas nuestraspropuestas para abordarlos se basan en el aprendizaje de modelos de clasificaciónprobabilista, en concreto los clasificadores basados en redes Bayesianas(BNCs, por sus siglas en inglés). Esta familia de clasificadores está basadaen la sólida teoría matemática de las redes Bayesianas y los modelos gráficosprobabilísticos. Nuestras técnicas para aprender este tipo de clasificadoresusando un conjunto de datos débilmente supervisado se basan en una estrategiaiterativa conocida como EM (del inglés, expectation-maximization).Una adaptación de esta estrategia clásica para lidiar con la información parcialde supervisión disponible en cada problema estudiado está en la base delas propuestas metodológicas.Aparte de la taxonomía, esta tesis contiene otros cuatro trabajos de investigaciónnovedosos. Dos de ellos son contribuciones metolodógicas que resuelvensendos problemas de clasificación débilmente supervisada: el aprendizajea partir de proporciones de etiquetas (LLP, por sus siglas en inglés) y elaprendizaje con ejemplos etiquetados por múltiples anotadores (CrL).El problema LLP se caracteriza por un conjunto de ejemplos, el cual noha podido ser categorizado, que se divide en subconjuntos. Para cada subconjunto,la información de supervisión de la que se dispone consiste en laproporción de ejemplos que pertenece a cada una de las categorías (etiquetas)posibles. En nuestro trabajo, se considera el coste del aprendizaje en losdiferentes escenarios de este problema de clasificación. Hasta cuatro versionesde un método basado en la estrategia EM, los cuales tratan la incertidumbreen el etiquetado del problema de diversas maneras, son propuestos. Laestrategia EM permite, iterativamente, aprender un modelo a la vez que sedescubre la imputación idónea para las etiquetas de los ejemplos provistos.La primera versión propuesta imputa la etiqueta más probable (de acuerdocon el modelo actual) para cada ejemplo. Una segunda versión, probabilista,asigna cada ejemplo a cada una de las posibles etiquetas con la probabilidadque el modelo devuelve para esa combinación de ejemplo y categoría. La terceraversión está diseñada para lidiar con los escenarios del problema máscostosos, realizando una imputación probabilista aproximada mediante unproceso MCMC (del inglés Markov Chain Monte Carlo). La última versión,la cual se ha demostrado que es la más eficiente y sin diferencias significativascon respecto a la versión probabilista exacta (2), es una combinación de lasversiones 2 y 3 que sólo lleva a cabo la aproximación MCMC en caso de que elcoste de la imputación exacta supere cierto umbral. Este trabajo incluye unestudio experimental de la estabilidad del método ante escenarios del problemacada vez más costosos, así como una comparativa con dos propuestas delestado del arte, ante las cuales nuestro método muestra un comportamientocompetitivo.En la segunda contribución metodológica estudiamos el problema CrL. Eneste caso, la etiqueta real de cada ejemplo es desconocida, pero se disponede las diferentes categorías propuestas por múltiples anotadores de credi-bilidad cuestionable (los anotadores no siempre anotan la etiqueta real delejemplo en cuestión). En este trabajo, estudiamos la robustez de dos estrategiasbásicas que ofrecen resultados competitivos en escenarios del problemabien informados (los anotadores, abundantes en número, son suficientementecompetentes). Centrado en escenarios poco informados, hemos propuestoun método que aprende clasificadores multidimensionales (a cada ejemplo lecorresponde una categoría simultáneamente en diferentes clasificaciones). Unconjunto de pesos codifica la fiabilidad de cada anotador en cada dimensión oglobalmente. Este conjunto de pesos es actualizado iterativamente usando laestrategia EM mediante una de estas dos posibles configuraciones: de acuerdoa la tasa de acierto del anotador considerando las etiquetas predichas porel modelo recientemente aprendido como las reales, o bien, usando la mediade las probabilidades asignadas por el modelo a cada par caso-categoríasetiquetado por el anotador. Mediante una completa experimentación, la configuracióndel método que obtiene mejores resultados ha sido identificada.Además, se ha testado la capacidad del método propuesto para recuperar lafiabilidad real de cada anotador en entornos simulados y se ha comparado endiferentes escenarios con las estrategias básicas estudiadas.La última parte de la tesis consiste en dos trabajos de investigación aplicados,los cuales nos han permitido testar nuestras propuestas metodológicasen entornos reales. El primero de ellos, un estudio de la aplicación de técnicasde clasificación débilmente supervisada para mejorar la tasa de éxito entratamientos de reproducción asistida, ha sido llevado a cabo en colaboracióncon la Unidad de Reproducción Asistida del Hospital Donostia (Gipuzkoa).En el segundo caso, un problema de clasificación de defectos de software extraídosde la plataforma oficial de seguimiento de errores/fallos del softwareCompendium ha sido abordado desde el punto de vista de un problema CrL.El problema de las tecnologías de reproducción asistida (ARTs, por susiglas en inglés) se trata de un ejemplo claro de clasificación débilmente supervisadadebido a la imposibilidad de monitorizar el proceso completo de lareproducción asistida; concretamente, entre la transferencia del óvulo fecundadohasta su implantación e inicio del proceso de gestación. En realidad, latarea es doble. Por un lado, se afronta la tarea de identificar el tratamientoindividualizado para cada mujer (pareja) que maximiza la probabilidad deembarazo. Asimismo, también se aborda la selección de los embriones másprometedores (obtenidos tras extraer y fecundar los óvulos, y cultivarlos hastala formación de embriones). Ambas tareas adquieren un matiz diferente sise consideran antes o después de la transferencia de los embriones al úterode la paciente ¿es entonces cuando se pierde la capacidad de monitorizarel proceso¿ pues la información de supervisión disponible es diferente. Así,cuatro aproximaciones diferentes han sido usadas para resolver parcialmentediferentes aristas de este problema. La primera, predecir la probabilidad deque un tratamiento acabe en embarazo, se ha modelado mediante un problemade clasificación supervisada clásico. Así, técnicas estándar de aprendizajede BNCs han podido ser utilizadas. La segunda aproximación, predecir la posibilidadde que un embrión se implante (e induzca un embarazo), se modelamediante el problema LLP. La metodología presentada en esta misma tesisha sido usada para abordar este problema. Las dos siguientes aproximacionesson equivalentes a las dos anteriores, pero evitan el proceso de implantaciónmodelando un evento del proceso ART previo a la transferencia. Así, la tercerapredice si un tratamiento se ha configurado de una manera idónea paragestar un embarazo y se modela mediante un problema de aprendizaje conejemplos positivos y no-etiquetados (PU, por sus siglas en inglés). Una metodologíadesarrollada previamente en nuestro grupo de investigación paralidiar con este tipo de problemas ha sido aplicada. Finalmente, la cuartaaproximación, que anticipa si un embrión se desarrollará correctamente, hasido modelada mediante otro problema de clasificación débilmente supervisada:el aprendizaje con proporciones de ejemplos positivos y no-etiquetados(PUP), un problema que combina características de los problemas LLP yPU. Algunos resultados clínicamente relevantes se han derivado del análisisde un conjunto de datos recogido por la citada Unidad durante un períodode 18 meses. El rendimiento de los clasificadores aprendidos para predecirla viabilidad de un ciclo (tratamiento de ARTs) es prometedora. Se ha podidoconstatar experimentalmente que los datos referentes a la estimulacióny otros factores del tratamiento son relevantes a la hora de predecir la implantaciónde un embrión. Sin embargo, el proceso de implantación está lejosde ser completamente entendido. En consonancia, de los resultados obtenidostambién se desprende que los datos recogidos para elegir los embriones atransferir determinan más efectivamente el correcto desarrollo de los embrionesque su implantación en caso de ser transferido. De todas formas, el buendesarrollo del embrión es indiscutiblemente un requisito para que un embrióntransferido al útero de una mujer se implante. Por ello, una ordenación másprecisa de los embriones de acuerdo a su probabilidad de desarrollarse espresentada en este trabajo. Este ordenamiento podría ser asimismo usado enun nuevo criterio de selección de embriones a transferir.Del campo de la ingeniería del software nos llega la segunda aplicaciónpráctica, el estudio de la cual constituye la quinta y última contribución deesta tesis. Un conjunto de ejemplos de defectos del software Compendiumregistrados por los usuarios en su sistema de seguimiento de errores ha sidoobtenido y etiquetado por un grupo de anotadores. El etiquetado de este tipode problemas de ingeniería del software es típicamente una tarea subjetivaque implica numerosas y habituales contradicciones entre diferentes anotadores.Por lo tanto, esta aplicación ha sido modelada como un problema CrL conmúltiples clases (categorías) desbalanceadas (no todas aparecen con la mismafrecuencia) y abordado mediante una adaptación de la metodología propuestaen esta misma tesis para el problema CrL. Ésta es una aproximación alproblema de clasificación de defectos novedosa en la literatura relacionada.Además, la metodología de aprendizaje propuesta anteriormente se ha combinadocon dos técnicas ampliamente utilizadas por la comunidad que intentanlidiar con dos dificultades añadidas que caracterizan a esta aplicación real:por un lado, una estrategia que descompone en subproblemas binarios el problemaoriginal con múltiples clases (conocida como weighted OvO) y, por elotro, una técnica de muestreo que intenta mitigar los efectos del desbalanceode las clases (conocida como SMOTEBoost). Estas técnicas han sido exitosamenteadaptadas al entorno CrL. Las diferentes estrategias consideradas hansido testadas en un completo conjunto de experimentos. Para poder valorarel rendimiento de los modelos aprendidos se implementa una de las estrategiasbásicas más robustas, el voto mayoritario (MV, por sus siglas en inglés).Esta estrategia asigna a cada ejemplo la clase mayoritariamente etiquetadapor el conjunto de anotadores, convirtiendo el problema CrL en un problemaclásico de clasificación supervisada para el cual se pueden usar metodologíasestándar de aprendizaje. En general, se aprecia que las metodologías propuestasson competitivas ante la estrategia MV. Cada estrategia cumple sufunción y, de esta manera, se puede observar que el SMOTEBoost adaptadosacrifica en parte el rendimiento global (menor tasa de acierto) para mejorarel rendimiento al predecir las clases minoritarias. La metodología propuestapara el problema CrL es competitiva también para problemas con múltiplesclases, como puede apreciarse en el hecho de que los resultados del weightedOvO rara vez mejoran los de nuestra metodología por sí sola

    Spam elimination and bias correction : ensuring label quality in crowdsourced tasks.

    Get PDF
    Crowdsourcing is proposed as a powerful mechanism for accomplishing large scale tasks via anonymous workers online. It has been demonstrated as an effective and important approach for collecting labeled data in application domains which require human intelligence, such as image labeling, video annotation, natural language processing, etc. Despite the promises, one big challenge still exists in crowdsourcing systems: the difficulty of controlling the quality of crowds. The workers usually have diverse education levels, personal preferences, and motivations, leading to unknown work performance while completing a crowdsourced task. Among them, some are reliable, and some might provide noisy feedback. It is intrinsic to apply worker filtering approach to crowdsourcing applications, which recognizes and tackles noisy workers, in order to obtain high-quality labels. The presented work in this dissertation provides discussions in this area of research, and proposes efficient probabilistic based worker filtering models to distinguish varied types of poor quality workers. Most of the existing work in literature in the field of worker filtering either only concentrates on binary labeling tasks, or fails to separate the low quality workers whose label errors can be corrected from the other spam workers (with label errors which cannot be corrected). As such, we first propose a Spam Removing and De-biasing Framework (SRDF), to deal with the worker filtering procedure in labeling tasks with numerical label scales. The developed framework can detect spam workers and biased workers separately. The biased workers are defined as those who show tendencies of providing higher (or lower) labels than truths, and their errors are able to be corrected. To tackle the biasing problem, an iterative bias detection approach is introduced to recognize the biased workers. The spam filtering algorithm proposes to eliminate three types of spam workers, including random spammers who provide random labels, uniform spammers who give same labels for most of the items, and sloppy workers who offer low accuracy labels. Integrating the spam filtering and bias detection approaches into aggregating algorithms, which infer truths from labels obtained from crowds, can lead to high quality consensus results. The common characteristic of random spammers and uniform spammers is that they provide useless feedback without making efforts for a labeling task. Thus, it is not necessary to distinguish them separately. In addition, the removal of sloppy workers has great impact on the detection of biased workers, with the SRDF framework. To combat these problems, a different way of worker classification is presented in this dissertation. In particular, the biased workers are classified as a subcategory of sloppy workers. Finally, an ITerative Self Correcting - Truth Discovery (ITSC-TD) framework is then proposed, which can reliably recognize biased workers in ordinal labeling tasks, based on a probabilistic based bias detection model. ITSC-TD estimates true labels through applying an optimization based truth discovery method, which minimizes overall label errors by assigning different weights to workers. The typical tasks posted on popular crowdsourcing platforms, such as MTurk, are simple tasks, which are low in complexity, independent, and require little time to complete. Complex tasks, however, in many cases require the crowd workers to possess specialized skills in task domains. As a result, this type of task is more inclined to have the problem of poor quality of feedback from crowds, compared to simple tasks. As such, we propose a multiple views approach, for the purpose of obtaining high quality consensus labels in complex labeling tasks. In this approach, each view is defined as a labeling critique or rubric, which aims to guide the workers to become aware of the desirable work characteristics or goals. Combining the view labels results in the overall estimated labels for each item. The multiple views approach is developed under the hypothesis that workers\u27 performance might differ from one view to another. Varied weights are then assigned to different views for each worker. Additionally, the ITSC-TD framework is integrated into the multiple views model to achieve high quality estimated truths for each view. Next, we propose a Semi-supervised Worker Filtering (SWF) model to eliminate spam workers, who assign random labels for each item. The SWF approach conducts worker filtering with a limited set of gold truths available as priori. Each worker is associated with a spammer score, which is estimated via the developed semi-supervised model, and low quality workers are efficiently detected by comparing the spammer score with a predefined threshold value. The efficiency of all the developed frameworks and models are demonstrated on simulated and real-world data sets. By comparing the proposed frameworks to a set of state-of-art methodologies, such as expectation maximization based aggregating algorithm, GLAD and optimization based truth discovery approach, in the domain of crowdsourcing, up to 28.0% improvement can be obtained for the accuracy of true label estimation

    Proceedings of the 2020 Joint Workshop of Fraunhofer IOSB and Institute for Anthropomatics, Vision and Fusion Laboratory

    Get PDF
    In 2020 fand der jährliche Workshop des Faunhofer IOSB und the Lehrstuhls für interaktive Echtzeitsysteme statt. Vom 27. bis zum 31. Juli trugen die Doktorranden der beiden Institute über den Stand ihrer Forschung vor in Themen wie KI, maschinellen Lernen, computer vision, usage control, Metrologie vor. Die Ergebnisse dieser Vorträge sind in diesem Band als technische Berichte gesammelt
    corecore