7 research outputs found

    An Efficient Index for Visual Search in Appearance-based SLAM

    Full text link
    Vector-quantization can be a computationally expensive step in visual bag-of-words (BoW) search when the vocabulary is large. A BoW-based appearance SLAM needs to tackle this problem for an efficient real-time operation. We propose an effective method to speed up the vector-quantization process in BoW-based visual SLAM. We employ a graph-based nearest neighbor search (GNNS) algorithm to this aim, and experimentally show that it can outperform the state-of-the-art. The graph-based search structure used in GNNS can efficiently be integrated into the BoW model and the SLAM framework. The graph-based index, which is a k-NN graph, is built over the vocabulary words and can be extracted from the BoW's vocabulary construction procedure, by adding one iteration to the k-means clustering, which adds small extra cost. Moreover, exploiting the fact that images acquired for appearance-based SLAM are sequential, GNNS search can be initiated judiciously which helps increase the speedup of the quantization process considerably

    Graphic Novel Subtitles:Requirement Elicitation and System Implementation

    Get PDF

    The Revisiting Problem in Simultaneous Localization and Mapping: A Survey on Visual Loop Closure Detection

    Full text link
    Where am I? This is one of the most critical questions that any intelligent system should answer to decide whether it navigates to a previously visited area. This problem has long been acknowledged for its challenging nature in simultaneous localization and mapping (SLAM), wherein the robot needs to correctly associate the incoming sensory data to the database allowing consistent map generation. The significant advances in computer vision achieved over the last 20 years, the increased computational power, and the growing demand for long-term exploration contributed to efficiently performing such a complex task with inexpensive perception sensors. In this article, visual loop closure detection, which formulates a solution based solely on appearance input data, is surveyed. We start by briefly introducing place recognition and SLAM concepts in robotics. Then, we describe a loop closure detection system's structure, covering an extensive collection of topics, including the feature extraction, the environment representation, the decision-making step, and the evaluation process. We conclude by discussing open and new research challenges, particularly concerning the robustness in dynamic environments, the computational complexity, and scalability in long-term operations. The article aims to serve as a tutorial and a position paper for newcomers to visual loop closure detection.Comment: 25 pages, 15 figure

    Visual-Inertial Sensor Fusion Models and Algorithms for Context-Aware Indoor Navigation

    Get PDF
    Positioning in navigation systems is predominantly performed by Global Navigation Satellite Systems (GNSSs). However, while GNSS-enabled devices have become commonplace for outdoor navigation, their use for indoor navigation is hindered due to GNSS signal degradation or blockage. For this, development of alternative positioning approaches and techniques for navigation systems is an ongoing research topic. In this dissertation, I present a new approach and address three major navigational problems: indoor positioning, obstacle detection, and keyframe detection. The proposed approach utilizes inertial and visual sensors available on smartphones and are focused on developing: a framework for monocular visual internal odometry (VIO) to position human/object using sensor fusion and deep learning in tandem; an unsupervised algorithm to detect obstacles using sequence of visual data; and a supervised context-aware keyframe detection. The underlying technique for monocular VIO is a recurrent convolutional neural network for computing six-degree-of-freedom (6DoF) in an end-to-end fashion and an extended Kalman filter module for fine-tuning the scale parameter based on inertial observations and managing errors. I compare the results of my featureless technique with the results of conventional feature-based VIO techniques and manually-scaled results. The comparison results show that while the framework is more effective compared to featureless method and that the accuracy is improved, the accuracy of feature-based method still outperforms the proposed approach. The approach for obstacle detection is based on processing two consecutive images to detect obstacles. Conducting experiments and comparing the results of my approach with the results of two other widely used algorithms show that my algorithm performs better; 82% precision compared with 69%. In order to determine the decent frame-rate extraction from video stream, I analyzed movement patterns of camera and inferred the context of the user to generate a model associating movement anomaly with proper frames-rate extraction. The output of this model was utilized for determining the rate of keyframe extraction in visual odometry (VO). I defined and computed the effective frames for VO and experimented with and used this approach for context-aware keyframe detection. The results show that the number of frames, using inertial data to infer the decent frames, is decreased

    Topological place recognition for life-long visual localization

    Get PDF
    Premio Extraordinario de Doctorado de la UAH en el a帽o acad茅mico 2016-2017La navegaci贸n de veh铆culos inteligentes o robots m贸viles en per铆odos largos de tiempo ha experimentado un gran inter茅s por parte de la comunidad investigadora en los 煤ltimos a帽os. Los sistemas basados en c谩maras se han extendido ampliamente en el pasado reciente gracias a las mejoras en sus caracter铆sticas, precio y reducci贸n de tama帽o, a帽adidos a los progresos en t茅cnicas de visi贸n artificial. Por ello, la localizaci贸n basada en visi贸n es una aspecto clave para desarrollar una navegaci贸n aut贸noma robusta en situaciones a largo plazo. Teniendo en cuenta esto, la identificaci贸n de localizaciones por medio de t茅cnicas de reconocimiento de lugar topol贸gicas puede ser complementaria a otros enfoques como son las soluciones basadas en el Global Positioning System (GPS), o incluso suplementaria cuando la se帽al GPS no est谩 disponible.El estado del arte en reconocimiento de lugar topol贸gico ha mostrado un funcionamiento satisfactorio en el corto plazo. Sin embargo, la localizaci贸n visual a largo plazo es problem谩tica debido a los grandes cambios de apariencia que un lugar sufre como consecuencia de elementos din谩micos, la iluminaci贸n o la climatolog铆a, entre otros. El objetivo de esta tesis es enfrentarse a las dificultades de llevar a cabo una localizaci贸n topol贸gica eficiente y robusta a lo largo del tiempo. En consecuencia, se van a contribuir dos nuevos enfoques basados en reconocimiento visual de lugar para resolver los diferentes problemas asociados a una localizaci贸n visual a largo plazo. Por un lado, un m茅todo de reconocimiento de lugar visual basado en descriptores binarios es propuesto. La innovaci贸n de este enfoque reside en la descripci贸n global de secuencias de im谩genes como c贸digos binarios, que son extra铆dos mediante un descriptor basado en la t茅cnica denominada Local Difference Binary (LDB). Los descriptores son eficientemente asociados usando la distancia de Hamming y un m茅todo de b煤squeda conocido como Approximate Nearest Neighbors (ANN). Adem谩s, una t茅cnica de iluminaci贸n invariante es aplicada para mejorar el funcionamiento en condiciones luminosas cambiantes. El empleo de la descripci贸n binaria previamente introducida proporciona una reducci贸n de los costes computacionales y de memoria.Por otro lado, tambi茅n se presenta un m茅todo de reconocimiento de lugar visual basado en deep learning, en el cual los descriptores aplicados son procesados por una Convolutional Neural Network (CNN). Este es un concepto recientemente popularizado en visi贸n artificial que ha obtenido resultados impresionantes en problemas de clasificaci贸n de imagen. La novedad de nuestro enfoque reside en la fusi贸n de la informaci贸n de imagen de m煤ltiples capas convolucionales a varios niveles y granularidades. Adem谩s, los datos redundantes de los descriptores basados en CNNs son comprimidos en un n煤mero reducido de bits para una localizaci贸n m谩s eficiente. El descriptor final es condensado aplicando t茅cnicas de compresi贸n y binarizaci贸n para realizar una asociaci贸n usando de nuevo la distancia de Hamming. En t茅rminos generales, los m茅todos centrados en CNNs mejoran la precisi贸n generando representaciones visuales de las localizaciones m谩s detalladas, pero son m谩s costosos en t茅rminos de computaci贸n.Ambos enfoques de reconocimiento de lugar visual son extensamente evaluados sobre varios datasets p煤blicos. Estas pruebas arrojan una precisi贸n satisfactoria en situaciones a largo plazo, como es corroborado por los resultados mostrados, que comparan nuestros m茅todos contra los principales algoritmos del estado del arte, mostrando mejores resultados para todos los casos.Adem谩s, tambi茅n se ha analizado la aplicabilidad de nuestro reconocimiento de lugar topol贸gico en diferentes problemas de localizaci贸n. Estas aplicaciones incluyen la detecci贸n de cierres de lazo basada en los lugares reconocidos o la correcci贸n de la deriva acumulada en odometr铆a visual usando la informaci贸n proporcionada por los cierres de lazo. Asimismo, tambi茅n se consideran las aplicaciones de la detecci贸n de cambios geom茅tricos a lo largo de las estaciones del a帽o, que son esenciales para las actualizaciones de los mapas en sistemas de conducci贸n aut贸nomos centrados en una operaci贸n a largo plazo. Todas estas contribuciones son discutidas al final de la tesis, incluyendo varias conclusiones sobre el trabajo presentado y l铆neas de investigaci贸n futuras

    Keyframe detection for appearance-based visual SLAM

    No full text
    corecore