928 research outputs found

    Sparse Labeling Augmentation for Dense Models Training

    Get PDF
    This work proposes and validates a simple but effective approach to train dense semantic segmentation models from sparsely labeled data. Data and labeling collection is most costly task of semantic segmentation. Our approach needs only a few pixels per image reducing the human interaction required.    This work proposes and validates a simple but effective approach to train dense semantic segmentation models from sparsely labeled data. Data and labeling collection is most costly task of semantic segmentation. Our approach needs only a few pixels per image reducing the human interaction required.   &nbsp

    Deep learning based semantic segmentation on hyperspectral data.

    Get PDF
    Nowadays, many applications are taking advantage of the recent advances on artificial intelligence to improve their performance, being Deep Learning one of the newest and most powerful tools. Hyperspectral Imaging (HSI) is an analytical technique based on spectroscopy, where some of the main purposes are identifying materials, detecting objects or following processes. Deep Learning has shown promising results on many computer vision related tasks, including processing of HSI data. This project evaluates the state-of-the-art Deep Learning methods and benchmarks for semantic segmentation on available HSI datasets, with the purpose of replicating the state-of-the-art and finding new strategies that can improve the performance of existing models. Most existing works are based on per-patch classification, and have shown great results for the task, but they were evaluated by their authors in relatively artificial scenarios, where training and testing data were extremely similar. We have performed extensive experimentation to replicate their results and to evaluate on additional existing benchmarks, obtaining similarly good results. In this master thesis we have designed new benchmarks to evaluate the performance of each model in more realistic scenarios. In particular, new benchmarks based on existing data have been built with disjoint training and testing data and to test across different datasets. This is a tedious task and not straight forward, since existing datasets usually cover a single (large) scene, and consist of a single (very large) hyperspectral image. An exhaustive verification of these per-patch models in the proposed benchmarks has shown how the performance does not really achieve such perfect scores, and shows an evaluation closer to how the model would perform in a real life situation. Besides, this thesis evaluates and adapts a new type of architecture for the task of segmenting HSI. In particular, a general purpose semantic segmentation model. This model has shown high performance on RGB semantic segmentation, has been adapted and evaluated on the available datasets and proposed HSI benchmarks. This general purpose semantic segmentation network MiniNet-v2, based on an encoder-decoder architecture, has required to be adapted to work with hyperspectral data in two aspects: not only the model itself needed to be adjusted, but a new pre-processing of the data was needed. Numerous variations have been explored and evaluated thoroughly to find the best pre-processing of the data for this kind of network. As this kind of model learns from image contextual information, the input patches to the network need to be as big as possible, always keeping in mind each HSI dataset is limited to a single scene. The choice of MiniNet as alternative model was partially guided by its properties, specially that it is built towards efficiency. In our adaptation it has exhibited higher performance than per-patch models, and much higher efficiency in terms of inference time since the prediction is done as a whole instead of predicting each small patch. As Deep Learning shows good performance and efficiency on hyperspectral data, this technology could exhibit great advances in the near future in fields like recycling, medicine or disaster prediction, where HSI technology has a lot of potential interest.<br /

    Semantic Segmentation from Sparse Labeling Using Multi-Level Superpixels

    Get PDF
    Semantic segmentation is a challenging problemthat can benefit numerous robotics applications, since it pro-vides information about the content at every image pixel.Solutions to this problem have recently witnessed a boost onperformance and results thanks to deep learning approaches.Unfortunately, common deep learning models for semanticsegmentation present several challenges which hinder real lifeapplicability in many domains. A significant challenge is theneed of pixel level labeling on large amounts of trainingimages to be able to train those models, which implies avery high cost. This work proposes and validates a simplebut effective approach to train dense semantic segmentationmodels from sparsely labeled data. Labeling only a few pixelsper image reduces the human interaction required. We findmany available datasets, e.g., environment monitoring data, thatprovide this kind of sparse labeling. Our approach is basedon augmenting the sparse annotation to a dense one with theproposed adaptive superpixel segmentation propagation. Weshow that this label augmentation enables effective learning ofstate-of-the-art segmentation models, getting similar results tothose models trained with dense ground-truth

    Producción de bacterias fijadoras de nitrógeno (Azotobacter, Bacillus y Pseudomonas); en medio líquido a base de melaza, para su aplicación en el cultivo de caña de azúcar (Saccharum spp.) en Azucarera El Viejo, Guanacaste, Costa Rica

    Get PDF
    Proyecto de Graduación (Bachillerato en Ingeniería en Biotecnología). Instituto Tecnológico de Costa Rica, Escuela de Biología, 2009.La caña de azúcar (Saccharum spp), uno de los cultivos agrícolas más importantes de Costa Rica, requiere de un programa de fertilización continua; siendo el nitrógeno uno de los minerales esenciales. La bio-fertilización empleando microorganismos diazótrofos podría sustituir en un porcentaje, sino por completo, el uso de fertilizantes sintéticos, reforzando los pasos hacia una agricultura sostenible. Por esto, el objetivo de la presente investigación fue ejecutar un protocolo para la producción de bacterias fijadoras de nitrógeno de los géneros Azotobacter, Bacillus y Pseudomonas; en medio líquido a base de melaza, para su aplicación en el cultivo. Mediante el uso de medios semisólidos se logró aislar bacterias de los géneros Bacillus y Azotobacter. Se observó que los microorganismos crecían a altas concentraciones en lapsos cortos de tiempo en las fermentaciones aeróbicas tipo batch ejecutadas. La mayor concentración registrada fue de 5,1x108 células/mL en melaza al 10% p/v para Bacillus y de 6,0x108 células/mL al 5% p/v para Azotobacter; ambos a las 32h. Es conclusión, el medio logró propiciar el crecimiento bacteriano hasta obtenerse concentraciones comparables con las empleadas en productos comerciales

    Sistema interactivo de identificación de usuarios mediante reconocimiento facial

    Get PDF
    El reconocimiento e identificación de una cara es una parte importante de la capacidad del sistema de percepción humano y una tarea rutinaria para las personas. Sin embargo, la construcción de un sistema informático capaz de realizar este trabajo continúa siendo un área de investigación muy activa, aunque también se trata de una de las que más avances han logrado. Por ello y por la gran cantidad de aplicaciones que tiene esta tarea se trata de uno de los campos más conocidos de la visión por computador. Como punto de partida se ha realizado un estudio y evaluación de las técnicas de reconocimiento facial existentes seleccionando aquella más apropiada para el sistema interactivo que se propone. Se han diseñado e implementado las etapas correspondientes al sistema con el objetivo de comparar aquellos aspectos relevantes con la precisión de la predicción y la capacidad de hacerlo un sistema realista.Como existen muchísimas técnicas de reconocimiento facial, en este trabajo se centra la atención en las técnicas que ofrecen las librerías del entorno escogido de OpenCV / C++. Su rendimiento fue evaluado con diversas bases de datos de libre acceso a la comunidad científica. Posteriormente se elaboró una base de datos propia la cual fue empleada para la adaptación del diseño e implementación para su funcionamiento en el sistema real. En la parte experimental se han llevado a cabo ensayos diferenciados que permiten valorar cada etapa de la que el sistema consta de modo que se puedan evaluar de forma detallada las ventajas y desventajas. Los experimentos constan de un proceso de varias etapas: la detección del rostro en una imagen, la extracción de las características y la identificación/verificación de la cara mediante la clasificación de las características. El objetivo de la evaluación se centra en la extracción de las características y el reconocimiento de personas para lo que se han evaluado los tiempos de procesamiento y las tasas de error respectivamente. Los resultados obtenidos basados en metodología tradicional ofrecieron buenos resultados dentro de las propias limitaciones que presentan. Con el objetivo de estudiar y evaluar metodologías más actuales basadas en algoritmos más robustos se tomó la determinación de usar alguna de las técnicas más novedosas y actuales basadas en redes neuronales de convolución El sistema interactivo es el resultado de estos estudios en el que se propone un sistema. El sistema interactivo diseñado utiliza el método Local Binary Patterns, que es el que mejores características presentaba para esta aplicación

    Segmentación semántica con modelos de deep learning y etiquetados no densos

    Get PDF
    La segmentación semántica es un problema muy estudiado dentro del campo de la visión por computador que consiste en la clasificación de imágenes a nivel de píxel. Es decir, asignar una etiqueta o valor a cada uno de los píxeles de la imagen. Tiene aplicaciones muy variadas, que van desde interpretar el contenido de escenas urbanas para tareas de conducción automática hasta aplicaciones médicas que ayuden al médico a analizar la información del paciente para realizar un diagnóstico o operaciones. Como en muchos otros problemas y tareas relacionados con la visión por computador, en los últimos años se han propuesto y demostrado grandes avances en los métodos para segmentación semántica gracias, en gran parte, al reciente auge de los métodos basados en aprendizaje profundo o deep learning.\\ A pesar de que en los últimos años se están realizando mejoras constantes, los modelos de \textit{deep learning} para segmentación semántica %así como otras áreas, tienen un problema presentan un reto que dificulta su aplicabilidad a problemas de la vida real: necesitan grandes cantidades de anotaciones para entrenar los modelos. Esto es muy costoso, sobre todo porque en este caso hay que realizarlo a nivel de píxel. Muchos conjuntos de datos reales, por ejemplo datos adquiridos para tareas de monitorización del medio ambiente (grabaciones de entornos naturales, imágenes de satélite) generalmente presentan tan solo unos pocos píxeles etiquetados por imagen, que suelen venir de algunos clicks de un experto, para indicar ciertas zonas de interés en esas imágenes. Este tipo de etiquetado hace %imposible que sea muy complicado el entrenamiento de modelos densos que permitan procesar y obtener de manera automática una mayor cantidad de información de todos estos conjuntos de datos.\\ El objetivo de este trabajo es proponer nuevos métodos para resolver este problema. La idea principal es utilizar una segmentación inicial de la imagen multi-nivel de la imagen para propagar la poca información disponible. Este enfoque novedoso permite aumentar la anotación, y demostramos que pese a ser algo ruidosa, permite aprender de manera efectiva un modelo que obtenga la segmentación deseada. Este método es aplicable a cualquier tipo de dispersión de las anotaciones, siendo independiente del número de píxeles anotados. Las principales tareas desarrolladas en este proyecto son: -Estudio del estado del arte en técnicas de segmentación semántica (la mayoría basadas en técnicas de deep learning) -Propuesta y evaluación de métodos para aumentar (propagar) las etiquetas de las imágenes de entrenamiento cuando estas son dispersas y escasas -Diseño y evaluación de las arquitecturas de redes neuronales más adecuadas para resolver este problema Para validar nuestras propuestas, nos centramos en un caso de aplicación en imágenes submarinas, capturadas para monitorización de las zonas de barreras de coral. También demostramos que el método propuesto se puede aplicar a otro tipo de imágenes, como imágenes aéreas, imágenes multiespectrales y conjuntos de datos de segmentación de instancias

    Scene understanding for interactive applications

    Get PDF
    Para interactuar con el entorno, es necesario entender que está ocurriendo en la escena donde se desarrolla la acción. Décadas de investigación en el campo de la visión por computador han contribuido a conseguir sistemas que permiten interpretar de manera automática el contenido en una escena a partir de información visual. Se podría decir el objetivo principal de estos sistemas es replicar la capacidad humana para extraer toda la información a partir solo de datos visuales. Por ejemplo, uno de sus objetivos es entender como percibimosel mundo en tres dimensiones o como podemos reconocer sitios y objetos a pesar de la gran variación en su apariencia. Una de las tareas básicas para entender una escena es asignar un significado semántico a cada elemento (píxel) de una imagen. Esta tarea se puede formular como un problema de etiquetado denso el cual especifica valores (etiquetas) a cada pixel o región de una imagen. Dependiendo de la aplicación, estas etiquetas puedenrepresentar conceptos muy diferentes, desde magnitudes físicas como la información de profundidad, hasta información semántica, como la categoría de un objeto. El objetivo general en esta tesis es investigar y desarrollar nuevas técnicas para incorporar automáticamente una retroalimentación por parte del usuario, o un conocimiento previo en sistemas inteligente para conseguir analizar automáticamente el contenido de una escena. en particular,esta tesis explora dos fuentes comunes de información previa proporcionado por los usuario: interacción humana y etiquetado manual de datos de ejemplo.La primera parte de esta tesis esta dedicada a aprendizaje de información de una escena a partir de información proporcionada de manera interactiva por un usuario. Las soluciones que involucran a un usuario imponen limitaciones en el rendimiento, ya que la respuesta que se le da al usuario debe obtenerse en un tiempo interactivo. Esta tesis presenta un paradigma eficiente que aproxima cualquier magnitud por píxel a partir de unos pocos trazos del usuario. Este sistema propaga los escasos datos de entrada proporcionados por el usuario a cada píxel de la imagen. El paradigma propuesto se ha validado a través detres aplicaciones interactivas para editar imágenes, las cuales requieren un conocimiento por píxel de una cierta magnitud, con el objetivo de simular distintos efectos.Otra estrategia común para aprender a partir de información de usuarios es diseñar sistemas supervisados de aprendizaje automático. En los últimos años, las redes neuronales convolucionales han superado el estado del arte de gran variedad de problemas de reconocimiento visual. Sin embargo, para nuevas tareas, los datos necesarios de entrenamiento pueden no estar disponibles y recopilar suficientes no es siempre posible. La segunda parte de esta tesis explora como mejorar los sistema que aprenden etiquetado denso semántico a partir de imágenes previamente etiquetadas por los usuarios. En particular, se presenta y validan estrategias, basadas en los dos principales enfoques para transferir modelos basados en deep learning, para segmentación semántica, con el objetivo de poder aprender nuevas clases cuando los datos de entrenamiento no son suficientes en cantidad o precisión.Estas estrategias se han validado en varios entornos realistas muy diferentes, incluyendo entornos urbanos, imágenes aereas y imágenes submarinas.In order to interact with the environment, it is necessary to understand what is happening on it, on the scene where the action is ocurring. Decades of research in the computer vision field have contributed towards automatically achieving this scene understanding from visual information. Scene understanding is a very broad area of research within the computer vision field. We could say that it tries to replicate the human capability of extracting plenty of information from visual data. For example, we would like to understand how the people perceive the world in three dimensions or can quickly recognize places or objects despite substantial appearance variation. One of the basic tasks in scene understanding from visual data is to assign a semantic meaning to every element of the image, i.e., assign a concept or object label to every pixel in the image. This problem can be formulated as a dense image labeling problem which assigns specific values (labels) to each pixel or region in the image. Depending on the application, the labels can represent very different concepts, from a physical magnitude, such as depth information, to high level semantic information, such as an object category. The general goal in this thesis is to investigate and develop new ways to automatically incorporate human feedback or prior knowledge in intelligent systems that require scene understanding capabilities. In particular, this thesis explores two common sources of prior information from users: human interactions and human labeling of sample data. The first part of this thesis is focused on learning complex scene information from interactive human knowledge. Interactive user solutions impose limitations on the performance where the feedback to the user must be at interactive rates. This thesis presents an efficient interaction paradigm that approximates any per-pixel magnitude from a few user strokes. It propagates the sparse user input to each pixel of the image. We demonstrate the suitability of the proposed paradigm through three interactive image editing applications which require per-pixel knowledge of certain magnitude: simulate the effect of depth of field, dehazing and HDR tone mapping. Other common strategy to learn from user prior knowledge is to design supervised machine-learning approaches. In the last years, Convolutional Neural Networks (CNNs) have pushed the state-of-the-art on a broad variety of visual recognition problems. However, for new tasks, enough training data is not always available and therefore, training from scratch is not always feasible. The second part of this thesis investigates how to improve systems that learn dense semantic labeling of images from user labeled examples. In particular, we present and validate strategies, based on common transfer learning approaches, for semantic segmentation. The goal of these strategies is to learn new specific classes when there is not enough labeled data to train from scratch. We evaluate these strategies across different environments, such as autonomous driving scenes, aerial images or underwater ones.<br /

    Segmentación automática de vídeos de endoscopias

    Get PDF
    La automatización de ciertos procesos médicos es un tema muy estudiadoactualmente, por las muchas posibilidades y beneficios que suponen a la horade detectar enfermedades de riesgo o de mejorar distintos tratamientos y operaciones. La realización de endoscopias es un proceso que ya incluye cierto usode tecnología por medio de los endoscopios. Anadir un mayor nivel de automatización en estos procedimientos seria muy útil para reducir riesgos o mejorarel diagnostico. Para ello es necesario analizar estos procedimientos, creando unconjunto de datos sobre endoscopias reales que se puedan estudiar y procesarde manera sistemática. Recopilar grandes cantidades de datos reales supone distintos retos porsus características. Para ello se ha desarrollado un sistema de segmentación de endoscopias capaz de mejorar la calidad ydescubrir de forma automática información útil de estas grabaciones. Un sistema de descripción de imágenes automático utilizado para detectar el inicio y el final del procedimiento real de la endoscopia. Como resultado, se ha conseguido separar esta parte relevante y descartarlos datos inútiles de la secuencia original. Esto resulta esencial para no almacenar partes no necesarias ya que ocupan una cantidad de espacio importante ysu uso resulta más sencillo.Por otra parte, se ha creado otro sistema que permite detectar diferentespatrones y características de las imágenes de la endoscopia. Para esto, seha entrenado un modelo de deep learning de forma no supervisada con técnicasde aprendizaje por contraste. Con los resultados obtenidos se comprobó que elmodelo es capaz de separar las imágenes que no pertenecen a las endoscopias,pudiendo utilizarse para realizar también el trabajo del primer prototipo. Perolo más interesante, además es capaz de separar muchos eventos relevantes queocurren a lo largo de toda la grabación, siendo útil para otras tareas como eletiquetado en secciones o la eliminación de imágenes no informativas.<br /

    Desarrollo de una herramienta educativa de simulación para robótica móvil

    Get PDF
    La robótica es uno de los campos tecnológicos con más potencial, y por ello su variante educativa lleva unos años en auge. En su docencia en la Universidad de Zaragoza se utiliza un robot compuesto por la placa BrickPi3 y los sensores de Lego Mindstorms; sin embargo, no existen simuladores de robótica móvil educativos lo suficientemente complejos para su uso a nivel universitario. En este trabajo se plantea el desarrollo de una herramienta que educativa de simulación de robótica móvil, que permita simular el material utilizado en la asignatura de Robótica de la Universidad de Zaragoza.Para facilitar el trabajo se ha considerado la adaptación de un simulador libre de robótica ya existente. Tras un análisis de requisitos para no errar en la decisión, se consideró la utilización de tres simuladores diferentes, CoppeliaSim (previamente V-Rep), AirSim, y Webots. Todos se adaptaban bien a nuestras necesidades, pero el simulador escogido fue CoppeliaSim, ya que destacaba al tener menores requisitos de hardware, indispensables en una herramienta educativa.Una vez escogido el simulador se diseñó el robot virtual y los escenarios en los que simularlo; además, se configuró dicho simulador para ejecutar el código de control del robot, escrito de forma externa en Python. Para ello se utilizó la API remota proporcionada por CoppeliaSim, que conecta clientes con el proceso servidor del simulador. Se creó un paquete de Python que actúa como conector con el simulador, que ofrece la misma interfaz que el paquete con los drivers de Brickpi3 usados en el robot real, así los usuarios pueden ejecutar su código en la plataforma que quieran de forma transparente. En la implementación del conector las principales tareas a realizar fueron el formateo de los datos de los mensajes, y la gestión de la concurrencia.Se ha validado el correcto funcionamiento del sistema reutilizando el código de control del robot desarrollado previamente en la asignatura de Robótica, y los resultados han sido satisfactorios. Finalmente, se ha preparado un modo en el que 2 alumnos ejecutan el código de sus robots a la vez, para competir en cuál finaliza antes el recorrido; como apoyo a la comparativa de dichos recorridos se han proporcionado unas métricas que los describen.Los resultados han sido satisfactorios y se espera un futuro uso de la herramienta en la docencia de la Universidad de Zaragoza.<br /

    Learning from human-robot interaction

    Get PDF
    En los últimos años cada vez es más frecuente ver robots en los hogares. La robótica está cada vez más presente en muchos aspectos de nuestras vidas diarias, en aparatos de asistencia doméstica, coches autónomos o asistentes personales. La interacción entre estos robots asistentes y los usuarios es uno de los aspectos clave en la robótica de servicio. Esta interacción necesita ser cómoda e intuitiva para que sea efectiva su utilización. Estas interacciones con los usuarios son necesarias para que el robot aprenda y actualice de manera natural tanto su modelo del mundo como sus capacidades. Dentro de los sistemas roboticos de servicio, hay muchos componentes que son necesarios para su buen funcionamiento. Esta tesis esta centrada en el sistema de percepción visual de dichos sistemas.Para los humanos la percepción visual es uno de los componentes más esenciales, permitiendo tareas como reconocimiento de objetos u otras personas, o estimación de información 3D. Los grandes logros obtenidos en los últimos años en tareas de reconocimiento automático utilizan los enfoques basados en aprendizaje automático, en particular técnicas de deep learning. La mayoría de estos trabajos actuales se centran en modelos entrenados 'a priori' en un conjunto de datos muy grandes. Sin embargo, estos modelos, aunque entrenados en una gran cantidad de datos, no pueden, en general, hacer frente a los retos que aparecen al tratar con datos reales en entornos domésticos. Por ejemplo, es frecuente que se de el caso de tener nuevos objetos que no existían durante el entrenamiento de los modelos. Otro reto viene de la dispersión de los objetos, teniendo objetos que aparecen muy raramente y por lo tanto habia muy pocos, o ningún, ejemplos en los datos de entenamiento disponibles al crear el modelo.Esta tesis se ha desarrollado dentro del contexto del proyecto IGLU (Interactive Grounded Language Understanding). Dentro del proyecto y sus objetivos, el objetivo principal de esta Tesis doctoral es investigar métodos novedosos para que un robot aprenda de manera incremental mediante la interacción multimodal con el usuario.Desarrollando dicho objetivo principal, los principales trabajos desarrollados durante esta tesis han sido:-Crear un benchmark más adecuado para las tareas de aprendizaje mediante la interacción natural de usuario y robot. Por ejemplo, la mayoría de los datasets para la tarea de reconocimiento de objetos se centra en fotos de diferentes escenarios con múltiples clases por foto. Es necesario un dataset que combine interacción usuario robot con aprendizaje de objetos.-Mejorar sistemas existentes de aprendizaje de objetos y adecuarlos para aprendizaje desde la interacción multimodal humana. Los trabajos de detección de objetos se focalizan en detectar todos los objetos aprendidos en una imagen. Nuestro objetivo es usar la interacción para encontrar el objeto de referencia y aprenderlo incrementalmente.-Desarrollar métodos de aprendizaje incremental que se puedan utilizar en escenarios incrementales, p.e., la aparición de una nueva clase de objeto o cambios a lo largo del tiempo dentro de una clase objetos. Nuestro objetivo es diseñar un sistema que pueda aprender clases desde cero y que pueda actualizar los datos cuando estos aparecen.-Crear un completo prototipo para el aprendizaje incremental y multimodal usando la interacción humana-robot. Se necesita realizar la integración de los distintos métodos desarrollados como parte de los otros objetivos y evaluarlo.<br /
    corecore