10 research outputs found

    Visual slam in dynamic environments

    Get PDF
    El problema de localización y construcción visual simultánea de mapas (visual SLAM por sus siglas en inglés Simultaneous Localization and Mapping) consiste en localizar una cámara en un mapa que se construye de manera online. Esta tecnología permite la localización de robots en entornos desconocidos y la creación de un mapa de la zona con los sensores que lleva incorporados, es decir, sin contar con ninguna infraestructura externa. A diferencia de los enfoques de odometría en los cuales el movimiento incremental es integrado en el tiempo, un mapa permite que el sensor se localice continuamente en el mismo entorno sin acumular deriva.Asumir que la escena observada es estática es común en los algoritmos de SLAM visual. Aunque la suposición estática es válida para algunas aplicaciones, limita su utilidad en escenas concurridas del mundo real para la conducción autónoma, los robots de servicio o realidad aumentada y virtual entre otros. La detección y el estudio de objetos dinámicos es un requisito para estimar con precisión la posición del sensor y construir mapas estables, útiles para aplicaciones robóticas que operan a largo plazo.Las contribuciones principales de esta tesis son tres: 1. Somos capaces de detectar objetos dinámicos con la ayuda del uso de la segmentación semántica proveniente del aprendizaje profundo y el uso de enfoques de geometría multivisión. Esto nos permite lograr una precisión en la estimación de la trayectoria de la cámara en escenas altamente dinámicas comparable a la que se logra en entornos estáticos, así como construir mapas en 3D que contienen sólo la estructura del entorno estático y estable. 2. Logramos alucinar con imágenes realistas la estructura estática de la escena detrás de los objetos dinámicos. Esto nos permite ofrecer mapas completos con una representación plausible de la escena sin discontinuidades o vacíos ocasionados por las oclusiones de los objetos dinámicos. El reconocimiento visual de lugares también se ve impulsado por estos avances en el procesamiento de imágenes. 3. Desarrollamos un marco conjunto tanto para resolver el problema de SLAM como el seguimiento de múltiples objetos con el fin de obtener un mapa espacio-temporal con información de la trayectoria del sensor y de los alrededores. La comprensión de los objetos dinámicos circundantes es de crucial importancia para los nuevos requisitos de las aplicaciones emergentes de realidad aumentada/virtual o de la navegación autónoma. Estas tres contribuciones hacen avanzar el estado del arte en SLAM visual. Como un producto secundario de nuestra investigación y para el beneficio de la comunidad científica, hemos liberado el código que implementa las soluciones propuestas.<br /

    Un espacio invariante a objetos dinámicos mediante el uso de CycleGANs

    Get PDF
    En este trabajo se presenta un modelo de aprendizaje profundo para convertir imágenes que muestran contenido dinámico, como vehículos o peatones, en imágenes estáticas realistas. Para ello, se utiliza el modelo CycleGAN, el cual realiza una traducción de una imagen perteneciente a un conjunto de datos de entrada a otra imagen que pertenece al conjunto de datos que se desea obtener. Además, el modelo CycleGAN permite aprender simultáneamente un mapeo inverso, es decir, la traducción de imágenes estáticas a imágenes dinámicas. Para ello, sobre el modelo CycleGAN se introducen diferentes implementaciones en el entrenamiento con el propósito de mejorar los resultados obtenidos. Una de estas mejoras conlleva la incorporación de máscaras con la información dinámica de la imagen en el entrenamiento, así como un reescalado de las funciones de pérdidas de la red en función del número de píxeles dinámicos. La introducción de técnicas utilizadas en esteganografía y de técnicas de detección de esquinas en imágenes suponen también una mejora de nuestras reconstrucciones.A la hora de validar nuestro trabajo se utiliza una red de segmentación semántica para obtener la información semántica del conjunto de imágenes traducidas. Con dicha información se realiza una evaluación para determinar la calidad de nuestras reconstrucciones.<br /

    Seguimiento y segmentación de múltiples objetos con descriptores aprendidos

    Get PDF
    En este TFG se ha estudiado uno de los problemas a los que se enfrenta la visión por computador en la actualidad, que es el del seguimiento y segmentación de múltiples objetos a lo largo de un vídeo. Dicho problema consiste en identificar de forma única a cada uno de los objetos que aparecen en un vídeo mediante una máscara que se adapta a su forma y contorno a nivel de píxel (instance segmentation).En los últimos años, los sistemas de seguimiento de objetos han estado estancados debido a que la tecnología de object detection (identificar a cada objeto con una caja delimitadora o bounding box que lo rodea) se había explotado al máximo. En la actualidad, gracias a la aparición de la instance segmentation, la posibilidad de lograr grandes mejoras ha vuelto a aparecer. Es por ello que se ha desarrollado un sistema de seguimiento y segmentación de objetos que parte del uso de técnicas clásicas de visión por computador y de las últimas tecnologías en el ámbito, como es la red neuronal de segmentación semántica Mask R-CNN. Se busca utilizar nuevos métodos con el fin de diferenciar el sistema realizado del resto, aportando así nueva información acerca de este problema. La principal innovación del trabajo se basa en el uso de descriptores aprendidos, información sobre la apariencia de los objetos a seguir que se va a extraer de Mask R-CNN para utilizarla en beneficio de nuestro sistema, logrando así mejoras en su funcionamiento.En cuanto al desarrollo del trabajo, se ha realizado una primera aproximación al seguimiento usando el solapamiento entre objetos de distintas imágenes. Después, se ha utilizado un algoritmo de predicción con el fin de solucionar algunos problemas que la primera aproximación tiene, y tras esto, se ha incorporado el uso de los descriptores aprendidos extraídos de Mask R-CNN para tener en cuenta la apariencia de los objetos, mejorando así los resultados del sistema. Por último, para evaluar el trabajo desarrollado y compararlo con el estado del arte se han usado las métricas de visión por computador MOTSA, MOTSP y sMOTSA.Para el beneficio de la comunidad de la visión por computador, el sistema está disponible en https://github.com/DanielCay/TFG y un ejemplo del resultado final logrado se puede ver en https://youtu.be/Xw1aob3RjWw.<br /

    Estimación de la pose de una cámara monocular con robustez frente a objetos dinámicos

    Get PDF
    En problemas de localización visual de sistemas móviles (robots, coches autónomos, dispositivos de realidad virtual y aumentada, etc.) frecuentemente se hace la suposición de que la escena es completamente estática y que el efecto de los objetos dinámicos es despreciable. Sin embargo, esto limita el uso de estos sistemas en escenas pobladas del mundo real como carreteras con alto tráfico en el caso de coches autónomos, u hogares en el caso de robots de servicio. La presencia de objetos dinámicos degrada la precisión de la estimación de los seis grados de libertad de la pose de la cámara. El objetivo de este trabajo de fin de grado consiste en detectar regiones dinámicas en las imágenes de una escena en la que haya un contenido dinámico significativo para así estimar con precisión y robustez la pose relativa entre dos imágenes consecutivas de una secuencia.Para abordar este problema se van a utilizar tanto técnicas clásicas de visión por computador como técnicas de aprendizaje profundo. Más concretamente se ha hecho un estudio de la distribución de inliers y outliers del modelo clásico de estimación de la pose de una cámara en escenas altamente dinámicas, utilizando detección y emparejamiento de puntos de interés, cálculo de la matriz fundamental mediante RANSAC, etc. En cuanto a técnicas de aprendizaje profundo, se ha aprovechado el uso de la segmentación semántica para poder tener una comprensión de la escena observada a alto nivel y poder razonar a nivel de objetos en vez de a nivel de puntos del mapa. La combinación de ambas técnicas nos permite obtener una mejor distribución de inliers y outliers a un modelo de escena estático, así como poder descubrir objetos dinámicos y estáticos en la escena observada.<br /

    Reconstrucción de escenas 3D a partir de imágenes

    No full text
    Este trabajo está basado en el análisis de métodos de mejora de un código básico para la reconstrucción densa de escenas 3D a partir de imágenes tanto obtenidas de un dataset público como tomadas por el propio usuario
    corecore