231 research outputs found

    Multimodal perception for autonomous driving

    Get PDF
    Mención Internacional en el título de doctorAutonomous driving is set to play an important role among intelligent transportation systems in the coming decades. The advantages of its large-scale implementation –reduced accidents, shorter commuting times, or higher fuel efficiency– have made its development a priority for academia and industry. However, there is still a long way to go to achieve full self-driving vehicles, capable of dealing with any scenario without human intervention. To this end, advances in control, navigation and, especially, environment perception technologies are yet required. In particular, the detection of other road users that may interfere with the vehicle’s trajectory is a key element, since it allows to model the current traffic situation and, thus, to make decisions accordingly. The objective of this thesis is to provide solutions to some of the main challenges of on-board perception systems, such as extrinsic calibration of sensors, object detection, and deployment on real platforms. First, a calibration method for obtaining the relative transformation between pairs of sensors is introduced, eliminating the complex manual adjustment of these parameters. The algorithm makes use of an original calibration pattern and supports LiDARs, and monocular and stereo cameras. Second, different deep learning models for 3D object detection using LiDAR data in its bird’s eye view projection are presented. Through a novel encoding, the use of architectures tailored to image detection is proposed to process the 3D information of point clouds in real time. Furthermore, the effectiveness of using this projection together with image features is analyzed. Finally, a method to mitigate the accuracy drop of LiDARbased detection networks when deployed in ad-hoc configurations is introduced. For this purpose, the simulation of virtual signals mimicking the specifications of the desired real device is used to generate new annotated datasets that can be used to train the models. The performance of the proposed methods is evaluated against other existing alternatives using reference benchmarks in the field of computer vision (KITTI and nuScenes) and through experiments in open traffic with an automated vehicle. The results obtained demonstrate the relevance of the presented work and its suitability for commercial use.La conducción autónoma está llamada a jugar un papel importante en los sistemas inteligentes de transporte de las próximas décadas. Las ventajas de su implementación a larga escala –disminución de accidentes, reducción del tiempo de trayecto, u optimización del consumo– han convertido su desarrollo en una prioridad para la academia y la industria. Sin embargo, todavía hay un largo camino por delante hasta alcanzar una automatización total, capaz de enfrentarse a cualquier escenario sin intervención humana. Para ello, aún se requieren avances en las tecnologías de control, navegación y, especialmente, percepción del entorno. Concretamente, la detección de otros usuarios de la carretera que puedan interferir en la trayectoria del vehículo es una pieza fundamental para conseguirlo, puesto que permite modelar el estado actual del tráfico y tomar decisiones en consecuencia. El objetivo de esta tesis es aportar soluciones a algunos de los principales retos de los sistemas de percepción embarcados, como la calibración extrínseca de los sensores, la detección de objetos, y su despliegue en plataformas reales. En primer lugar, se introduce un método para la obtención de la transformación relativa entre pares de sensores, eliminando el complejo ajuste manual de estos parámetros. El algoritmo hace uso de un patrón de calibración propio y da soporte a cámaras monoculares, estéreo, y LiDAR. En segundo lugar, se presentan diferentes modelos de aprendizaje profundo para la detección de objectos en 3D utilizando datos de escáneres LiDAR en su proyección en vista de pájaro. A través de una nueva codificación, se propone la utilización de arquitecturas de detección en imagen para procesar en tiempo real la información tridimensional de las nubes de puntos. Además, se analiza la efectividad del uso de esta proyección junto con características procedentes de imágenes. Por último, se introduce un método para mitigar la pérdida de precisión de las redes de detección basadas en LiDAR cuando son desplegadas en configuraciones ad-hoc. Para ello, se plantea la simulación de señales virtuales con las características del modelo real que se quiere utilizar, generando así nuevos conjuntos anotados para entrenar los modelos. El rendimiento de los métodos propuestos es evaluado frente a otras alternativas existentes haciendo uso de bases de datos de referencia en el campo de la visión por computador (KITTI y nuScenes), y mediante experimentos en tráfico abierto empleando un vehículo automatizado. Los resultados obtenidos demuestran la relevancia de los trabajos presentados y su viabilidad para un uso comercial.Programa de Doctorado en Ingeniería Eléctrica, Electrónica y Automática por la Universidad Carlos III de MadridPresidente: Jesús García Herrero.- Secretario: Ignacio Parra Alonso.- Vocal: Gustavo Adolfo Peláez Coronad

    High-accuracy patternless calibration of multiple 3D LiDARs for autonomous vehicles

    Get PDF
    This article proposes a new method for estimating the extrinsic calibration parameters between any pair of multibeam LiDAR sensors on a vehicle. Unlike many state-of-the-art works, this method does not use any calibration pattern or reflective marks placed in the environment to perform the calibration; in addition, the sensors do not need to have overlapping fields of view. An iterative closest point (ICP)-based process is used to determine the values of the calibration parameters, resulting in better convergence and improved accuracy. Furthermore, a setup based on the car learning to act (CARLA) simulator is introduced to evaluate the approach, enabling quantitative assessment with ground-truth data. The results show an accuracy comparable with other approaches that require more complex procedures and have a more restricted range of applicable setups. This work also provides qualitative results on a real setup, where the alignment between the different point clouds can be visually checked. The open-source code is available at https://github.com/midemig/pcd_calib .This work was supported in part by the Madrid Government (Comunidad de Madrid-Spain) under the Multiannual Agreement with UC3M ("Fostering Young Doctors Research," APBI-CM-UC3M) in the context of the V PRICIT (Research and Technological Innovation Regional Program); and in part by the Spanish Government through Grants ID2021-128327OA-I00 and TED2021-129374A-I00 funded by MCIN/AEI/10.13039/501100011033 and by the European Union NextGenerationEU/PRTR

    Position estimation using a stereo camera as part of the perception system in a Formula Student car

    Get PDF
    This thesis presents a part of the implementation of the perception system in an autonomous Formula Student vehicle. More precisely, it develops two different pipelines to process the data from the two main sensors of the vehicle: a LiDAR and a stereo camera. The first, a stereo camera system which is based on two monocular cameras, provides traffic cone position estimations based on the detections made by a convolutional neural network. These positions are obtained by using a self-designed stereo processing algorithm, based on 2D-3D position estimates and keypoint extraction and matching. The second is a sensor fusion system that first registers both sensors based on an extrinsic calibration system that has been implemented. Then, it exploits the neural network detection from the stereo system to project the LiDAR point cloud onto the image, obtaining a balance between accurate detection and position estimation. These two systems are evaluated, compared and integrated into "Xaloc". The Formula Student vehicle developed by the Driverless UPC team.Esta tesis presenta una parte de la implementación del sistema de percepción en un vehículo autónomo de Formula Student. Concretamente, se desarrollan dos sistemas diferentes para el procesado de datos de los dos sensores principales del vehículo: un LiDAR y una cámara estéreo. El sistema de cámara estéreo se basa en dos cámaras monoculares y proporciona estimaciones de la posición de los conos de tráfico que delimitan la pista en base a las detecciones realizadas por una red neuronal convolucional. Estas posiciones se obtienen mediante el uso de un algoritmo de procesamiento estéreo de diseño propio, basado en estimaciones de posición 2D-3D y en extracción y correspondencia de "keypoints". El segundo es un sistema de fusión de sensores que primero registra ambos sensores basándose en un sistema de calibración extrínseco que se ha implementado. Luego, usa la detección hecha con la red neuronal del sistema estéreo para proyectar la nube de puntos LiDAR en la imagen, obteniendo un lo mejor de cada sensor: una detección robusta y una estimación de posición muy precisa. Estos dos sistemas se evalúan, comparan e integran en "Xaloc" el vehículo sin conductor del equipo de Formula Student Driverless UPC.Aquesta tesi presenta una part de la implementació del sistema de percepció en un vehicle autònom de Formula Student. En concret, es desenvolupen dos sistemes diferents per processar les dades dels dos principals sensors del vehicle: un LiDAR i una càmera estèreo. El sistema de càmera estèreo es basa en dues càmeres monoculars, i proporciona estimacions de les posicions dels cons de trànsit que delimiten la pista basades en les deteccions fetes amb una xarxa neuronal convolucional. Aquestes posicions s'obtenen mitjançant un algoritme de processament d'estèreo propi, basat en estimacions de posició 2D-3D i en extracció i correspondència de keypoints. El segon és un sistema de fusió de sensors que registra els dos sensors en base a un sistema de calibratge extrínsec que s'ha implementat. A continuació, fa servir les deteccions de la xarxa neuronal del sistema estèreo per projectar el núvol de punts LiDAR a la imatge, obtenint un equilibri entre una bona detecció en imatge i la precisió del núvol de punts LiDAR. Aquests dos sistemes són avaluats, comparats i integrats al "Xaloc" el vehicle sense conductor de l'equip de Formula Student Driverless UPC

    Targetless Extrinsic Calibration of Stereo Cameras, Thermal Cameras, and Laser Sensors in the Wild

    Full text link
    The fusion of multi-modal sensors has become increasingly popular in autonomous driving and intelligent robots since it can provide richer information than any single sensor, enhance reliability in complex environments. Multi-sensor extrinsic calibration is one of the key factors of sensor fusion. However, such calibration is difficult due to the variety of sensor modalities and the requirement of calibration targets and human labor. In this paper, we demonstrate a new targetless cross-modal calibration framework by focusing on the extrinsic transformations among stereo cameras, thermal cameras, and laser sensors. Specifically, the calibration between stereo and laser is conducted in 3D space by minimizing the registration error, while the thermal extrinsic to the other two sensors is estimated by optimizing the alignment of the edge features. Our method requires no dedicated targets and performs the multi-sensor calibration in a single shot without human interaction. Experimental results show that the calibration framework is accurate and applicable in general scenes.Comment: This work has been submitted to the IEEE for possible publication. Copyright may be transferred without notice, after which this version may no longer be accessibl
    corecore