42 research outputs found

    Aprendizaje de representaciones desenredadas de escenas a partir de imágenes.

    Get PDF
    Artificial intelligence is at the forefront of a technological revolution, in particular as a key component to build autonomous agents. However, not only training such agents come at a great computational cost, but they also end up lacking human basic abilities like generalization, information extrapolation, knowledge transfer between contexts, or improvisation. To overcome current limitations, agents need a deeper understanding of their environment, and more efficiently learning it from data. There are very recent works that propose novel approaches to learn representations of the world: instead of learning invariant object encodings, they learn to isolate, or disentangle, the different variable properties which form an object. This would not only enable agents to understand object changes as modifications of one of their properties, but also to transfer such knowledge on the properties between different categories. This Master Thesis aims to develop a new machine learning model for disentangling object properties on monocular images of scenes. Our model is based on a state-of-the-art architecture for disentangled representations learning, and our goal is to reduce the computational complexity of the base model while also improving its performance. To achieve this, we will replace a recursive unsupervised segmentation network by an encoder-decoder segmentation network. Furthermore, before training such overparametrized neural model without supervision, we will profit from transfer learning of pre-trained weights from a supervised segmentation task. After developing a first vanilla model, we have tuned it to improve its performance and generalization capability. Then, an experimental validation has been performed on two commonly used synthetic datasets, evaluating both its disentanglement performance and computational efficiency, and on a more realistic dataset to analyze the model capability on real data. The results show that our model outperforms the state of the art, while reducing its computational footprint. Nevertheless, further research is needed to bridge the gap with real world applications.<br /

    DPPTAM: Dense Piecewise Planar Tracking and Mapping from a Monocular Sequence

    Get PDF
    This paper proposes a direct monocular SLAM algorithm that estimates a dense reconstruction of a scene in real-time on a CPU. Highly textured image areas are mapped using standard direct mapping techniques [1], that minimize the photometric error across different views. We make the assumption that homogeneous-color regions belong to approximately planar areas. Our contribution is a new algorithm for the estimation of such planar areas, based on the information of a superpixel segmentation and the semidense map from highly textured areas. We compare our approach against several alternatives using the public TUM dataset [2] and additional live experiments with a hand-held camera. We demonstrate that our proposal for piecewise planar monocular SLAM is faster, more accurate and more robust than the piecewise planar baseline [3]. In addition, our experimental results show how the depth regularization of monocular maps can damage its accuracy, being the piecewise planar assumption a reasonable option in indoor scenarios

    Localización, mapeo y seguimiento de objetos en escenas dinámicas

    Get PDF
    El SLAM (Localización y Mapeo Simultáneo) y SfM (Estructura a partir de Movimiento), son dos de las técnicas de mayor importancia actual que permiten, a través de información visual y entre otras funciones, localizar a un agente en el entorno que éste atraviesa. Una de las asunciones principales que es común en muchas de sus implementaciones, es que el entorno en el que los sensores capturan la información es predominantemente estático. En la práctica, la mayoría de estos sistemas, implementan técnicas que robustecen las estimaciones ante entidades dinámicas hasta cierto punto. Sin embargo, si la componente dinámica de la escena se vuelve significativa, tanto la localización como la geometría del entorno se vuelven erróneas. En este TFM se aborda este problema. En concreto, se incorpora la estimación del movimiento, de 6 grados de libertad, que experimentan los objetos dinámicos presentes en la escena. Para ello, nos centramos en objetos rígidos, ajustando sus trayectorias a curvas B-Spline Cumulativas, las cuales presentan, entre otras propiedades, la ventaja de ofrecer estimaciones continuas en el tiempo de posición, orientación, velocidad y aceleración. Diferenciándonos así de los trabajos del estado del arte. Así mismo, se plantean estrategias que reducen el coste computacional de manera significativa, siendo aplicables a cualquier proyecto que emplee este tipo de curvas. La evaluación de la propuesta muestra las ventajas de nuestro acercamiento: A pesar de estar imponiendo un modelo de trayectoria, tanto con datos sintéticos, como con una base datos pública, se obtienen resultados similares en precisión en cuanto a localización y orientación de los objetos dinámicos, a la vez que mejorando las estimaciones de la velocidad que éstos experimentan, en comparación con las estimaciones en tiempo discreto del estado del arte.<br /

    ¿Cómo debemos posicionar la cámara en el proceso de calibración para reducir el error?

    Get PDF
    La calibración de una cámara consiste en la caracterización de cómo la realidad 3D se proyecta en el plano imagen 2D, siendo de gran importancia para sistemas de reconstrucción 3D. El procedimiento habitual de calibración consiste en la captura de varias imágenes de un patrón de geometría conocida, desde distintos puntos de vista. La precisión de la calibración está muy relacionada con dichas vistas; y sin embargo, la literatura acerca de la relación entre ambas es escasa y los pocos métodos existentes son secuenciales: A partir de una calibración predicen cuál es la siguiente vista a tomar para minimizar el error. En la literatura no existen resultados teóricos ni análisis acerca del problema general, no secuencial, de cuáles son las mejores vistas para calibrar una cámara. El objetivo de este TFG es establecer, mediante análisis teórico y con simulación, una forma general de ubicar los patrones de calibración sin conocimiento previo de otras imágenes. Dicho de otra forma, encontrar unas posiciones y orientaciones de cámara que aseguren un error de calibración bajo. Además, se desarrollará una herramienta interactiva para ayudar a la colocación relativa entre patrón y cámara que asegura dicho error bajo. Para ello se estudia la relación entre la posición y la orientación de la cámara que capturó las imágenes del patrón con el error o incertidumbre en la estimación de los parámetros del modelo. Nuestros resultados experimentales han mostrado mejoras con respecto al estado del arte en simulación e imágenes reales. En concreto, nuestro método tiene errores de calibración menores o comparables al estado del arte, con un coste significativamente menor.<br /

    Information-driven navigation

    Get PDF
    En los últimos años, hemos presenciado un progreso enorme de la precisión y la robustez de la “Odometría Visual” (VO) y del “Mapeo y la Localización Simultánea” (SLAM). Esta mejora de su funcionamiento ha permitido las primeras implementaciones comerciales relacionadascon la realidad aumentada (AR), la realidad virtual (VR) y la robótica. En esta tesis, desarrollamos nuevos métodos probabilísticos para mejorar la precisión, robustez y eficiencia de estas técnicas. Las contribuciones de nuestro trabajo están publicadas en tres artículos y se complementan con el lanzamiento de “SID-SLAM”, el software que contiene todas nuestras contribuciones, y del “Minimal Texture dataset”.Nuestra primera contribución es un algoritmo para la selección de puntos basado en Teoría de la Información para sistemas RGB-D VO/SLAM basados en métodos directos y/o en características visuales (features). El objetivo es seleccionar las medidas más informativas, para reducir el tama˜no del problema de optimización con un impacto mínimo en la precisión. Nuestros resultados muestran que nuestro nuevo criterio permitereducir el número de puntos hasta tan sólo 24 de ellos, alcanzando la precisión del estado del arte y reduciendo en hasta 10 veces la demanda computacional.El desarrollo de mejores modelos de incertidumbre para las medidas visuales mejoraría la precisión de la estructura y movimiento multi-vista y llevaría a estimaciones más realistas de la incertidumbre del estado en VO/SLAM. En esta tesis derivamos un modelo de covarianza para residuos multi-vista, que se convierte en un elemento crucial de nuestras contribuciones basadas en Teoría de la Información.La odometría visual y los sistemas de SLAM se dividen típicamente en la literatura en dos categorías, los basados en features y los métodos directos, dependiendo del tipo de residuos que son minimizados. En la última parte de la tesis combinamos nuestras dos contribucionesanteriores en la formulación e implementación de SID-SLAM, el primer sistema completo de SLAM semi-directo RGB-D que utiliza de forma integrada e indistinta features y métodos directos, en un sistema completo dirigido con información. Adicionalmente, grabamos ‘‘Minimal Texture”, un dataset RGB-D con un contenido visual conceptualmente simple pero arduo, con un ground truth preciso para facilitar la investigación del estado del arte en SLAM semi-directo.In the last years, we have witnessed an impressive progress in the accuracy and robustness of Visual Odometry (VO) and Simultaneous Localization and Mapping (SLAM). This boost in the performance has enabled the first commercial implementations related to augmented reality (AR), virtual reality (VR) and robotics. In this thesis, we developed new probabilistic methods to further improve the accuracy, robustness and efficiency of VO and SLAM. The contributions of our work are issued in three main publications and complemented with the release of SID-SLAM, the software containing all our contributions, and the challenging Mininal Texture dataset. Our first contribution is an information-theoretic approach to point selection for direct and/or feature-based RGB-D VO/SLAM. The aim is to select only the most informative measurements, in order to reduce the optimization problem with a minimal impact in the accuracy. Our experimental results show that our novel criteria allows us to reduce the number of tracked points down to only 24 of them, achieving state-of-the-art accuracy while reducing 10x the computational demand. Better uncertainty models for visual measurements will impact the accuracy of multi-view structure and motion and will lead to realistic uncertainty estimates of the VO/SLAM states. We derived a novel model for multi-view residual covariances based on perspective deformation, which has become a crucial element in our information-driven approach. Visual odometry and SLAM systems are typically divided in the literature into two categories, feature-based and direct methods, depending on the type of residuals that are minimized. We combined our two previous contributions in the formulation and implementation of SID-SLAM, the first full semi-direct RGB-D SLAM system that uses tightly and indistinctly features and direct methods within a complete information-driven pipeline. Moreover, we recorded Minimal Texture an RGB-D dataset with conceptually simple but challenging content, with accurate ground truth to facilitate state-of-the-art research on semi-direct SLAM.<br /

    Diseño y experimentación del control de un cuadrotor

    Get PDF
    El trabajo describe la dinámica, componentes y funcionamiento de un vehículo cuadrotor además del cálculo de sus parámetros más relevantes. Cuenta con un simulador que incorpora el modelo de los sensores y el controlador además del modelado completo de un cuadrotor. Se diseñan un sistema de control por PIDs para controlar los grados de libertad del vehículo. Finalmente se implementan en el simulador los algoritmos y se desarrollan cuatro simulaciones con datos de un cuadrotor real

    Descriptores globales para vídeo

    Get PDF
    En internet se almacenan grandes cantidades de imágenes y vídeos. Las dos principales plataformas web que tratan con este tipo de información son Google y YouTube respectivamente. El número de imágenes y vídeos que poseen es tan grande que se requieren técnicas para clasificarlos según su contenido, es decir se necesitan técnicas para predecir, ante un nuevo vídeo o imagen, a que categoría pertenece. En imágenes el problema ha sido muy estudiado. En vídeos ha habido mucho menos trabajo. Los vídeos necesitan ser clasificados en categorías como por ejemplo política, deportes, música, etc. Es importante que esta clasificación sea de acuerdo con su contenido. YouTube actualmente clasifica sus vídeos según las descripciones que el responsable que los ha subido ha escrito para identificarlo. De esta manera hay muchos vídeos clasificados erróneamente. La clasificación de vídeos también puede ser interesante en reconocimiento de personas u objetos (como carteles escritos) en ambientes complicados grabados por cámaras corrientes o cámaras de vigilancia. También pueden aportar aplicaciones para dispositivos móviles. Los aspectos más relevantes para la clasificación de vídeos son los descriptores y las máquinas de aprendizaje. Los descriptores de vídeo se encargan de describir el vídeo según su contenido. Las máquinas de aprendizaje toman estas descripciones de cada vídeo para aprender a que tipo de vídeo pertenece cada descripción y así ante la aparición de un vídeo sin clasificar poder determinar a que categoría pertenece. En este proyecto final de carrera se han usado ambos aspectos y principalmente se han estudiado los descriptores de vídeos. Los descriptores que hay en la actualidad son de dos tipos, globales y locales. Los globales describen el vídeo de forma global y los locales describen sólo zonas salientes del vídeo. Estas zonas salientes del vídeo son localizadas mediante detectores. Se ha propuesto un descriptor global para vídeos y un detector de zonas salientes para describirlas localmente. El descriptor global esta basado en el cálculo de gradientes en las tres dimensiones del vídeo. El detector local aplicado es la extensión a 3 dimensiones del detector SIFT 2D que es el mayor usado en imágenes. Ambas propuestas se han implementado en Matlab y se han evaluado de manera extensiva en bases de datos públicas y con implementaciones actuales. Además serán utilizadas estas bases de datos de vídeos para realizar un afinamiento de los parámetros de los descriptores y deducir que parámetros son los mejores. Se estudiará el porqué de los resultados aparecidos. Los resultados que se han obtenido han mejorado los resultados en bases de datos de vídeos extensos y complejos. En el caso del detector local propuesto, no se ha apreciado mejora con respecto a los detectores propuestos en la literatura actual

    Descriptores globales binarios para el reconocimiento de imágenes

    Get PDF
    La visión por computador es la disciplina cuyo objetivo se suele plantear como "que un ordenador pueda ver". La definición de "ver" es bastante compleja, puesto que todos los mecanismos de la visión humana todavía no están bien entendidos. Pero sin duda alguna, uno de los aspectos que involucra la visión humana y que ha sido objeto de estudio por la visión por computador es el reconocimiento de escenas. En dicho problema, un computador recibe una imagen y debe clasificarla según la escena en la que ha sido tomada (parque, oficina, aeropuerto...). Uno de los aspectos más importantes en el reconocimiento de imágenes es cómo describir el contenido de la imagen. Algebráicamente, un descriptor suele ser un vector de números reales más o menos complejo de extraer a partir de la imagen. Idealmente, dicho descriptor debería contener la información necesaria para clasificar la escena de la imagen. En el estado actual de la técnica, las tasas de reconocimiento visual de escenas son bastante bajas y el problema dista mucho de estar resuelto y es objeto de investigación. Un problema de algunos descriptores es la cantidad de cómputo necesario para extraerlos y evaluarlos y la memoria requerida para almacenarlos. Este problema es muy relevante cuando las bases de datos de imágenes adquieren tamaños muy grandes, como Google Images o las imágenes de Facebook. En estas bases de datos, cualquier mejora en tiempo o almacenamiento conlleva un gran ahorro. El objetivo del proyecto es la propuesta de un descriptor binario y global para la clasificación de imágenes. La ventaja de este descriptor respecto a otros es en tiempo de cómputo y almacenamiento: Las operaciones binarias pueden realizarse muy rápidamente en los procesadores actuales. Y un número binario ocupa 1 bit, mientras que un real ocupa como mínimo 32 bits. Además de la propuesta, evaluaremos el comportamiento del descriptor en una base de datos estándar de visión por computador (SUN database) y lo compararemos con el descriptor más similar (Tiny Image). En dicha evaluación exploraremos diferentes configuraciones del descriptor para encontrar la configuración óptima y poder compararla con un descriptor del estado del arte

    Estimación de profundidad con redes neuronales profundas en vídeos de endoscopias

    Get PDF
    En este trabajo presentamos EndoDepth, una red neuronal profunda no supervisada para estimación robusta de profundidad monocular en vídeos de endoscopias. EndoDepth consigue mejorar el estado del arte al reportar uno errores medios (RMSE) notablemente bajos y lo consigue mientras produce mapas densos de profundidad capturando todos los objetos de la escena, incluso las herramientas.<br /

    Inicialización del estado para un sistema monocular inercial

    Get PDF
    La visión por computador es uno de los campos tecnológicos con mayor actividad. Esto es debido a la gran cantidad de aplicaciones potenciales relacionadas con ella. Dentro de la visión por computador se encuentra la visión 3D cuyo objetivo es generar una reconstrucción 3D de una escena a partir de imágenes 2D de la misma. La visión 3D tiene aplicaciones, por ejemplo, dentro de la robótica y la realidad aumentada. Hoy en día, para generar un mapa en 3D se utilizan algoritmos de estimación. Estos algoritmos reciben un estado y unas medidas, y devuelven un estado actualizado. Para obtener estas medidas lo más habitual es utilizar un sensor visual-inercial. Este sensor está compuesto por una cámara y una unidad inercial (IMU). Uno de los problemas de los algoritmos de estimación es que, aunque son bastante robustos, a la hora de inicializar necesitan una semilla inicial precisa. La generación de semillas iniciales o inicialización del estado visual-inercial es un problema no resuelto. En este trabajo de fin de grado se ha estudiado, implementado y evaluado un algoritmo de inicialización del estado visual-inercial. Para la evaluación del algoritmo se ha utilizado el dataset EuRoC y se han diseñado diferentes experimentos para evaluar cómo afectan los diferentes parámetros a su precisión y robustez. A partir de los resultados obtenidos en los experimentos se han escogido los parámetros con los que se obtienen mejores resultados, permitiendo ejecutar el algoritmo en tiempo real y obteniendo elevadas tasas de robustez y alta precisión
    corecore