11 research outputs found
Place recognition from disparate views
Visual place recognition methods which use image matching techniques have shown success in recent years, however their reliance on local features restricts their use to images which are visually similar and which overlap in viewpoint. We suggest that a se-mantic approach to the problem would provide a more meaningful relationship between views of a place and so allow recognition when views are disparate and database cover-age is sparse. As initial work towards this goal we present a system which uses detected objects as the basic feature and demonstrate promising ability to recognise places from arbitrary viewpoints. We build a 2D place model of object positions and extract features which characterise a pair of models. We then use distributions learned from training ex-amples to compute the probability that the pair depict the same place and also an estimate of the relative pose of the cameras. Results on a dataset of 40 urban locations show good recognition performance and pose estimation, even for highly disparate views.
Influence of complex environments on LiDAR-Based robot navigation
La navigation sécuritaire et efficace des robots mobiles repose grandement sur l’utilisation des capteurs embarqués. L’un des capteurs qui est de plus en plus utilisé pour cette tâche est le Light Detection And Ranging (LiDAR). Bien que les recherches récentes montrent une amélioration des performances de navigation basée sur les LiDARs, faire face à des environnements non structurés complexes ou des conditions météorologiques difficiles reste problématique. Dans ce mémoire, nous présentons une analyse de l’influence de telles conditions sur la navigation basée sur les LiDARs. Notre première contribution est d’évaluer comment les LiDARs sont affectés par les flocons de neige durant les tempêtes de neige. Pour ce faire, nous créons un nouvel ensemble de données en faisant l’acquisition de données durant six précipitations de neige. Une analyse statistique de ces ensembles de données, nous caractérisons la sensibilité de chaque capteur et montrons que les mesures de capteurs peuvent être modélisées de manière probabilistique. Nous montrons aussi que les précipitations de neige ont peu d’influence au-delà de 10 m. Notre seconde contribution est d’évaluer l’impact de structures tridimensionnelles complexes présentes en forêt sur les performances d’un algorithme de reconnaissance d’endroits. Nous avons acquis des données dans un environnement extérieur structuré et en forêt, ce qui permet d’évaluer l’influence de ces derniers sur les performances de reconnaissance d’endroits. Notre hypothèse est que, plus deux balayages laser sont proches l’un de l’autre, plus la croyance que ceux-ci proviennent du même endroit sera élevée, mais modulé par le niveau de complexité de l’environnement. Nos expériences confirment que la forêt, avec ses réseaux de branches compliqués et son feuillage, produit plus de données aberrantes et induit une chute plus rapide des performances de reconnaissance en fonction de la distance. Notre conclusion finale est que, les environnements complexes étudiés influencent négativement les performances de navigation basée sur les LiDARs, ce qui devrait être considéré pour développer des algorithmes de navigation robustes.To ensure safe and efficient navigation, mobile robots heavily rely on their ability to use on-board sensors. One such sensor, increasingly used for robot navigation, is the Light Detection And Ranging (LiDAR). Although recent research showed improvement in LiDAR-based navigation, dealing with complex unstructured environments or difficult weather conditions remains problematic. In this thesis, we present an analysis of the influence of such challenging conditions on LiDAR-based navigation. Our first contribution is to evaluate how LiDARs are affected by snowflakes during snowstorms. To this end, we create a novel dataset by acquiring data during six snowfalls using four sensors simultaneously. Based on statistical analysis of this dataset, we characterized the sensitivity of each device and showed that sensor measurements can be modelled in a probabilistic manner. We also showed that falling snow has little impact beyond a range of 10 m. Our second contribution is to evaluate the impact of complex of three-dimensional structures, present in forests, on the performance of a LiDAR-based place recognition algorithm. We acquired data in structured outdoor environment and in forest, which allowed evaluating the impact of the environment on the place recognition performance. Our hypothesis was that the closer two scans are acquired from each other, the higher the belief that the scans originate from the same place will be, but modulated by the level of complexity of the environments. Our experiments confirmed that forests, with their intricate network of branches and foliage, produce more outliers and induce recognition performance to decrease more quickly with distance when compared with structured outdoor environment. Our conclusion is that falling snow conditions and forest environments negatively impact LiDAR-based navigation performance, which should be considered to develop robust navigation algorithms
Reconocimiento automático de escenas basado en visión por computador: Aplicaciones a la localización de vehÃculos autónomos aéreos
La capacidad de reconocer los lugares en los que se ha estado es una importante caracterÃstica en un sistema inteligente y automático especialmente para periodos largos de funcionamiento. En este documento se propone resolver este problema mediante una aplicación software de visión artificial diseñada para detectar si la imagen corresponde a una posición en la que se ha estado anteriormente. Las imágenes se captaran mediante una cámara situada en el vehÃculo. La principal caracterÃstica que presenta esta aplicación es el uso de descriptores de tipo BRIEF lo que permitirá un análisis muy eficiente y rápido, ideal para situaciones reales de funcionamiento. La aplicación ha sido programada en código C++ haciendo uso de las funciones que proporcionan las librerÃas de OpenCV para el diseño de aplicaciones de visión artificial.
El sistema analiza todas las imágenes recibidas y las que considera localizaciones nuevas las añade a una base de datos interna con la que se comparan las imágenes que se van recibiendo. Cada imagen se almacena con su descriptor BRIEF y un identificador, junto con otros elementos útiles para su análisis.
Adicionalmente se proporcionan métodos para observar el comportamiento del sistema, como contadores internos para analizar el tiempo de procesamiento de cada imagen o una comparación entre una imagen descartada y la que se considera equivalenteThe ability to recognize known places is an essential competence of any intelligent system that operates autonomously over longer periods of time. This document proposes BRIEF-Gist, a very simplistic appearance- based place recognition system based on the BRIEF descriptor. BRIEF-Gist is easy to implement and very efficient. Despite its simplicity, we can show that it performs an efficient and low error rate performance. We benchmark our approach using a real dataset.Universidad de Sevilla. Grado en IngenierÃa de las TecnologÃas de Telecomunicació
Topological place recognition for life-long visual localization
Premio Extraordinario de Doctorado de la UAH en el año académico 2016-2017La navegación de vehÃculos inteligentes o robots móviles en perÃodos largos de tiempo ha experimentado un gran interés por parte de la comunidad investigadora en los últimos años. Los sistemas basados en cámaras se han extendido ampliamente en el pasado reciente gracias a las mejoras en sus caracterÃsticas, precio y reducción de tamaño, añadidos a los progresos en técnicas de visión artificial. Por ello, la localización basada en visión es una aspecto clave para desarrollar una navegación autónoma robusta en situaciones a largo plazo. Teniendo en cuenta esto, la identificación de localizaciones por medio de técnicas de reconocimiento de lugar topológicas puede ser complementaria a otros enfoques como son las soluciones basadas en el Global Positioning System (GPS), o incluso suplementaria cuando la señal GPS no está disponible.El estado del arte en reconocimiento de lugar topológico ha mostrado un funcionamiento satisfactorio en el corto plazo. Sin embargo, la localización visual a largo plazo es problemática debido a los grandes cambios de apariencia que un lugar sufre como consecuencia de elementos dinámicos, la iluminación o la climatologÃa, entre otros. El objetivo de esta tesis es enfrentarse a las dificultades de llevar a cabo una localización topológica eficiente y robusta a lo largo del tiempo. En consecuencia, se van a contribuir dos nuevos enfoques basados en reconocimiento visual de lugar para resolver los diferentes problemas asociados a una localización visual a largo plazo. Por un lado, un método de reconocimiento de lugar visual basado en descriptores binarios es propuesto. La innovación de este enfoque reside en la descripción global de secuencias de imágenes como códigos binarios, que son extraÃdos mediante un descriptor basado en la técnica denominada Local Difference Binary (LDB). Los descriptores son eficientemente asociados usando la distancia de Hamming y un método de búsqueda conocido como Approximate Nearest Neighbors (ANN). Además, una técnica de iluminación invariante es aplicada para mejorar el funcionamiento en condiciones luminosas cambiantes. El empleo de la descripción binaria previamente introducida proporciona una reducción de los costes computacionales y de memoria.Por otro lado, también se presenta un método de reconocimiento de lugar visual basado en deep learning, en el cual los descriptores aplicados son procesados por una Convolutional Neural Network (CNN). Este es un concepto recientemente popularizado en visión artificial que ha obtenido resultados impresionantes en problemas de clasificación de imagen. La novedad de nuestro enfoque reside en la fusión de la información de imagen de múltiples capas convolucionales a varios niveles y granularidades. Además, los datos redundantes de los descriptores basados en CNNs son comprimidos en un número reducido de bits para una localización más eficiente. El descriptor final es condensado aplicando técnicas de compresión y binarización para realizar una asociación usando de nuevo la distancia de Hamming. En términos generales, los métodos centrados en CNNs mejoran la precisión generando representaciones visuales de las localizaciones más detalladas, pero son más costosos en términos de computación.Ambos enfoques de reconocimiento de lugar visual son extensamente evaluados sobre varios datasets públicos. Estas pruebas arrojan una precisión satisfactoria en situaciones a largo plazo, como es corroborado por los resultados mostrados, que comparan nuestros métodos contra los principales algoritmos del estado del arte, mostrando mejores resultados para todos los casos.Además, también se ha analizado la aplicabilidad de nuestro reconocimiento de lugar topológico en diferentes problemas de localización. Estas aplicaciones incluyen la detección de cierres de lazo basada en los lugares reconocidos o la corrección de la deriva acumulada en odometrÃa visual usando la información proporcionada por los cierres de lazo. Asimismo, también se consideran las aplicaciones de la detección de cambios geométricos a lo largo de las estaciones del año, que son esenciales para las actualizaciones de los mapas en sistemas de conducción autónomos centrados en una operación a largo plazo. Todas estas contribuciones son discutidas al final de la tesis, incluyendo varias conclusiones sobre el trabajo presentado y lÃneas de investigación futuras
Place and Object Recognition for Real-time Visual Mapping
Este trabajo aborda dos de las principales dificultades presentes en los sistemas actuales de localización y creación de mapas de forma simultánea (del inglés Simultaneous Localization And Mapping, SLAM): el reconocimiento de lugares ya visitados para cerrar bucles en la trajectoria y crear mapas precisos, y el reconocimiento de objetos para enriquecer los mapas con estructuras de alto nivel y mejorar la interación entre robots y personas. En SLAM visual, las caracterÃsticas que se extraen de las imágenes de una secuencia de vÃdeo se van acumulando con el tiempo, haciendo más laboriosos dos de los aspectos de la detección de bucles: la eliminación de los bucles incorrectos que se detectan entre lugares que tienen una apariencia muy similar, y conseguir un tiempo de ejecución bajo y factible en trayectorias largas. En este trabajo proponemos una técnica basada en vocabularios visuales y en bolsas de palabras para detectar bucles de manera robusta y eficiente, centrándonos en dos ideas principales: 1) aprovechar el origen secuencial de las imágenes de vÃdeo, y 2) hacer que todo el proceso pueda funcionar a frecuencia de vÃdeo. Para beneficiarnos del origen secuencial de las imágenes, presentamos una métrica de similaridad normalizada para medir el parecido entre imágenes e incrementar la distintividad de las detecciones correctas. A su vez, agrupamos los emparejamientos de imágenes candidatas a ser bucle para evitar que éstas compitan cuando realmente fueron tomadas desde el mismo lugar. Finalmente, incorporamos una restricción temporal para comprobar la coherencia entre detecciones consecutivas. La eficiencia se logra utilizando Ãndices inversos y directos y caracterÃsticas binarias. Un Ãndice inverso acelera la comparación entre imágenes de lugares, y un Ãndice directo, el cálculo de correspondencias de puntos entre éstas. Por primera vez, en este trabajo se han utilizado caracterÃsticas binarias para detectar bucles, dando lugar a una solución viable incluso hasta para decenas de miles de imágenes. Los bucles se verifican comprobando la coherencia de la geometrÃa de las escenas emparejadas. Para ello utilizamos varios métodos robustos que funcionan tanto con una como con múltiples cámaras. Presentamos resultados competitivos y sin falsos positivos en distintas secuencias, con imágenes adquiridas tanto a alta como a baja frecuencia, con cámaras frontales y laterales, y utilizando el mismo vocabulario y la misma configuración. Con descriptores binarios, el sistema completo requiere 22 milisegundos por imagen en una secuencia de 26.300 imágenes, resultando un orden de magnitud más rápido que otras técnicas actuales. Se puede utilizar un algoritmo similar al de reconocimiento de lugares para resolver el reconocimiento de objetos en SLAM visual. Detectar objetos en este contexto es particularmente complicado debido a que las distintas ubicaciones, posiciones y tamaños en los que se puede ver un objeto en una imagen son potencialmente infinitos, por lo que suelen ser difÃciles de distinguir. Además, esta complejidad se multiplica cuando la comparación ha de hacerse contra varios objetos 3D. Nuestro esfuerzo en este trabajo está orientado a: 1) construir el primer sistema de SLAM visual que puede colocar objectos 3D reales en el mapa, y 2) abordar los problemas de escalabilidad resultantes al tratar con múltiples objetos y vistas de éstos. En este trabajo, presentamos el primer sistema de SLAM monocular que reconoce objetos 3D, los inserta en el mapa y refina su posición en el espacio 3D a medida que el mapa se va construyendo, incluso cuando los objetos dejan de estar en el campo de visión de la cámara. Esto se logra en tiempo real con modelos de objetos compuestos por información tridimensional y múltiples imágenes representando varios puntos de vista del objeto. Después nos centramos en la escalabilidad de la etapa del reconocimiento de los objetos 3D. Presentamos una técnica rápida para segmentar imágenes en regiones de interés para detectar objetos pequeños o lejanos. Tras ello, proponemos sustituir el modelo de objetos de vistas independientes por un modelado con una única bolsa de palabras de caracterÃsticas binarias asociadas a puntos 3D. Creamos también una base de datos que incorpora Ãndices inversos y directos para aprovechar sus ventajas a la hora de recuperar rápidamente tanto objetos candidatos a ser detectados como correspondencias de puntos, tal y como hacÃan en el caso de la detección de bucles. Los resultados experimentales muestran que nuestro sistema funciona en tiempo real en un entorno de escritorio con cámara en mano y en una habitación con una cámara montada sobre un robot autónomo. Las mejoras en el proceso de reconocimiento obtienen resultados satisfactorios, sin detecciones erróneas y con un tiempo de ejecución medio de 28 milisegundos por imagen con una base de datos de 20 objetos 3D
Corrección de la odometrÃa visual basada en la detección de cierre de lazo
En el ámbito de la robótica y la automoción resulta de interés conocer la posición que ocupa
el robot en todo momento, asà como la trayectoria que este describe, haciendo uso de los sensores
a bordo del mismo, para lo cual existen ya en la actualidad diferentes métodos.
Este proyecto se focaliza en el uso de cámaras como sensores de percepción del entorno y
propone una metodologÃa que permita realizar una odometrÃa visual robusta, aplicando técnicas
de corrección basadas en la detección de cierres de lazo en situaciones de localización a largo
plazo.
Para ello, se va a llevar a cabo una mejora metodológica de algunas técnicas clásicas de visión
artificial y se implementarán nuevos algoritmos, con el fin de corregir la deriva que implica el
uso de la odometrÃa visual en la estimación del recorrido realizado por un agente.
Se pretende obtener una estimación precisa de la posición, orientación y trayectoria seguida
por un vehÃculo, a partir del análisis de una secuencia de imágenes adquiridas a través de un
sistema estéreo de cámaras que lleva a bordo, sin tener un conocimiento previo del espacio fÃsico
en el que se encuentra, y aplicando las técnicas de corrección necesarias una vez que el vehÃculo
recorra una zona previamente visitada.An essential requirement in the eld of robotics and automation is to know the position of
a mobile robot along the time, as well as the trajectory that it describes by using on-board
sensors. Nowadays, several methods exist for accomplishing this goal.
In this work, we propose a novel approach focused on the use of cameras as perception
sensors of the environment, that allows to perform a robust visual odometry, where correction
algorithms based on loop closure detection are applied for localization in long-term situations.
In order to satisfy the previous conditions, we carry out a methodological improvement of
some classic computer vision techniques. In addition, new algorithms are implemented with the
aim of correcting the drift produced in the visual odometry estimation along the traversed path.
The main objective is to obtain an accurate estimation of the position, orientation and
trajectory followed by a vehicle. Sequences of images acquired by an on-board stereo camera
system are analyzed without any previous knowledge about the real environment. Due to this,
correction techniques are needed when a place is revisited by the vehicle.Grado en IngenierÃa en Electrónica y Automática Industria