5 research outputs found

    TERRAIN-BASED NAVIGATION: A TOOL TO IMPROVE NAVIGATION AND FEATURE EXTRACTION PERFORMANCE OF MOBILE MAPPING SYSTEMS

    Get PDF
    Terrain-referenced navigation  (TRN) techniques are of increasing interest in the research community, as they can provide alternative navigation tools when GPS is not available or the GPS signals are jammed. Some form of augmentation to cope with the lack of GPS signals is typically required in mobile mapping applications in urban canyons and is of interest for military applications. TRN could provide alternative position and attitude fixes to support an inertial navigation system, since such systems inevitably drift over time if not calibrated by GPS or other methodologies. With improving imaging sensor performance as well as growing worldwide availability of terrain high-resolution data and city models, terrain-based navigation is becoming a viable option to support navigation in GPS-denied environments. Furthermore, the feedback from the imaging sensors can be used even during GPS availability, which increases the redundancy of the measurement update step of the navigation filter, enabling more reliable integrity monitoring at this stage. The relevance of TRN to mobile mapping applications is twofold: (1) the process of obtaining real-time position and attitude fixes for the navigation filter is based on feature extraction, and, in particular, on the capability to separate the static and dynamic objects from the image data,  and (2) the use of already available terrain data, including surface models (DSM), raster or vector data in CAD/GIS environments, such as city models, can effectively support the extraction processes. These two tasks could overlap, although the  separation of the static and dynamic objects should work without any terrain data, and in fact, this is, to a large extent, the idea behind the removal of vehicles (moving objects) from imagery. The overall TRN concept, where LiDAR and optical  imagery are matched with the existing terrain data is discussed and initial performance results are reported

    A probabilistic framework for stereo-vision based 3D object search with 6D pose estimation

    Get PDF
    This paper presents a method whereby an autonomous mobile robot can search for a 3-dimensional (3D) object using an on-board stereo camera sensor mounted on a pan-tilt head. Search efficiency is realized by the combination of a coarse-scale global search coupled with a fine-scale local search. A grid-based probability map is initially generated using the coarse search, which is based on the color histogram of the desired object. Peaks in the probability map are visited in sequence, where a local (refined) search method based on 3D SIFT features is applied to establish or reject the existence of the desired object, and to update the probability map using Bayesian recursion methods. Once found, the 6D object pose is also estimated. Obstacle avoidance during search can be naturally integrated into the method. Experimental results obtained from the use of this method on a mobile robot are presented to illustrate and validate the approach, confirming that the search strategy can be carried out with modest computation

    Place and Object Recognition for Real-time Visual Mapping

    Get PDF
    Este trabajo aborda dos de las principales dificultades presentes en los sistemas actuales de localización y creación de mapas de forma simultánea (del inglés Simultaneous Localization And Mapping, SLAM): el reconocimiento de lugares ya visitados para cerrar bucles en la trajectoria y crear mapas precisos, y el reconocimiento de objetos para enriquecer los mapas con estructuras de alto nivel y mejorar la interación entre robots y personas. En SLAM visual, las características que se extraen de las imágenes de una secuencia de vídeo se van acumulando con el tiempo, haciendo más laboriosos dos de los aspectos de la detección de bucles: la eliminación de los bucles incorrectos que se detectan entre lugares que tienen una apariencia muy similar, y conseguir un tiempo de ejecución bajo y factible en trayectorias largas. En este trabajo proponemos una técnica basada en vocabularios visuales y en bolsas de palabras para detectar bucles de manera robusta y eficiente, centrándonos en dos ideas principales: 1) aprovechar el origen secuencial de las imágenes de vídeo, y 2) hacer que todo el proceso pueda funcionar a frecuencia de vídeo. Para beneficiarnos del origen secuencial de las imágenes, presentamos una métrica de similaridad normalizada para medir el parecido entre imágenes e incrementar la distintividad de las detecciones correctas. A su vez, agrupamos los emparejamientos de imágenes candidatas a ser bucle para evitar que éstas compitan cuando realmente fueron tomadas desde el mismo lugar. Finalmente, incorporamos una restricción temporal para comprobar la coherencia entre detecciones consecutivas. La eficiencia se logra utilizando índices inversos y directos y características binarias. Un índice inverso acelera la comparación entre imágenes de lugares, y un índice directo, el cálculo de correspondencias de puntos entre éstas. Por primera vez, en este trabajo se han utilizado características binarias para detectar bucles, dando lugar a una solución viable incluso hasta para decenas de miles de imágenes. Los bucles se verifican comprobando la coherencia de la geometría de las escenas emparejadas. Para ello utilizamos varios métodos robustos que funcionan tanto con una como con múltiples cámaras. Presentamos resultados competitivos y sin falsos positivos en distintas secuencias, con imágenes adquiridas tanto a alta como a baja frecuencia, con cámaras frontales y laterales, y utilizando el mismo vocabulario y la misma configuración. Con descriptores binarios, el sistema completo requiere 22 milisegundos por imagen en una secuencia de 26.300 imágenes, resultando un orden de magnitud más rápido que otras técnicas actuales. Se puede utilizar un algoritmo similar al de reconocimiento de lugares para resolver el reconocimiento de objetos en SLAM visual. Detectar objetos en este contexto es particularmente complicado debido a que las distintas ubicaciones, posiciones y tamaños en los que se puede ver un objeto en una imagen son potencialmente infinitos, por lo que suelen ser difíciles de distinguir. Además, esta complejidad se multiplica cuando la comparación ha de hacerse contra varios objetos 3D. Nuestro esfuerzo en este trabajo está orientado a: 1) construir el primer sistema de SLAM visual que puede colocar objectos 3D reales en el mapa, y 2) abordar los problemas de escalabilidad resultantes al tratar con múltiples objetos y vistas de éstos. En este trabajo, presentamos el primer sistema de SLAM monocular que reconoce objetos 3D, los inserta en el mapa y refina su posición en el espacio 3D a medida que el mapa se va construyendo, incluso cuando los objetos dejan de estar en el campo de visión de la cámara. Esto se logra en tiempo real con modelos de objetos compuestos por información tridimensional y múltiples imágenes representando varios puntos de vista del objeto. Después nos centramos en la escalabilidad de la etapa del reconocimiento de los objetos 3D. Presentamos una técnica rápida para segmentar imágenes en regiones de interés para detectar objetos pequeños o lejanos. Tras ello, proponemos sustituir el modelo de objetos de vistas independientes por un modelado con una única bolsa de palabras de características binarias asociadas a puntos 3D. Creamos también una base de datos que incorpora índices inversos y directos para aprovechar sus ventajas a la hora de recuperar rápidamente tanto objetos candidatos a ser detectados como correspondencias de puntos, tal y como hacían en el caso de la detección de bucles. Los resultados experimentales muestran que nuestro sistema funciona en tiempo real en un entorno de escritorio con cámara en mano y en una habitación con una cámara montada sobre un robot autónomo. Las mejoras en el proceso de reconocimiento obtienen resultados satisfactorios, sin detecciones erróneas y con un tiempo de ejecución medio de 28 milisegundos por imagen con una base de datos de 20 objetos 3D

    Identificación y evasión de obstáculos mediante fusión sensorial para robots móviles

    Get PDF
    En este documento se presenta la fusión sensorial usando dos sensores: una cámara monocular que entrega imágenes en RGB y un sensor láser que proporciona medidas de distancia en algunos puntos. El resultado de la fusión se usa para que un robot móvil pueda realizar navegación tipo wandering en un ambiente de prueba estructurado. Los algoritmos de navegación en general sólo detectan y evaden los obstáculos. A través de la fusión sensorial se logra mayor robustez que la alcanzada por los sensores individuales para detectar, identificar y evadir obstáculos. Así, obstáculos presentes en el ambiente de prueba como la escalera que no es detectada por el láser (0% de evasión) y el vidrio que la cámara no diferencia en la imagen (0% de evasión), el sistema los detecta, identifica y evade (100% de evasión). El sistema de fusión desarrollado cuenta con módulos interconectados entre sí, que se encargan de recibir las medidas realizadas por el sensor láser y la cámara para extraer características que permiten identificar y etiquetar el obstáculo detectado. La etiqueta es utilizada para elegir la estrategia de evasión más adecuada según las características del objeto.PregradoINGENIERO(A) EN ELECTRÓNIC

    Hybrid laser and vision based object search and localization

    No full text
    Abstract — We describe a method for an autonomous robot to efficiently locate one or more distinct objects in a realistic environment using monocular vision. We demonstrate how to efficiently subdivide acquired images into interest regions for the robot to zoom in on, using receptive field cooccurrence histograms. Objects are recognized through SIFT feature matching and the positions of the objects are estimated. Assuming a 2D map of the robot’s surroundings and a set of navigation nodes between which it is free to move, we show how to compute an efficient sensing plan that allows the robot’s camera to cover the environment, while obeying restrictions on the different objects’ maximum and minimum viewing distances. The approach has been implemented on a real robotic system and results are presented showing its practicability and the quality of the position estimates obtained. I
    corecore