231 research outputs found
Multimodal perception for autonomous driving
Mención Internacional en el título de doctorAutonomous driving is set to play an important role among intelligent
transportation systems in the coming decades. The advantages
of its large-scale implementation –reduced accidents, shorter commuting
times, or higher fuel efficiency– have made its development a priority
for academia and industry. However, there is still a long way to
go to achieve full self-driving vehicles, capable of dealing with any
scenario without human intervention. To this end, advances in control,
navigation and, especially, environment perception technologies
are yet required. In particular, the detection of other road users that
may interfere with the vehicle’s trajectory is a key element, since it
allows to model the current traffic situation and, thus, to make decisions
accordingly.
The objective of this thesis is to provide solutions to some of
the main challenges of on-board perception systems, such as extrinsic
calibration of sensors, object detection, and deployment on
real platforms. First, a calibration method for obtaining the relative
transformation between pairs of sensors is introduced, eliminating
the complex manual adjustment of these parameters. The algorithm
makes use of an original calibration pattern and supports LiDARs,
and monocular and stereo cameras. Second, different deep learning
models for 3D object detection using LiDAR data in its bird’s eye
view projection are presented. Through a novel encoding, the use
of architectures tailored to image detection is proposed to process
the 3D information of point clouds in real time. Furthermore, the
effectiveness of using this projection together with image features is
analyzed. Finally, a method to mitigate the accuracy drop of LiDARbased
detection networks when deployed in ad-hoc configurations is
introduced. For this purpose, the simulation of virtual signals mimicking
the specifications of the desired real device is used to generate
new annotated datasets that can be used to train the models.
The performance of the proposed methods is evaluated against
other existing alternatives using reference benchmarks in the field of
computer vision (KITTI and nuScenes) and through experiments in
open traffic with an automated vehicle. The results obtained demonstrate
the relevance of the presented work and its suitability for commercial
use.La conducción autónoma está llamada a jugar un papel importante en
los sistemas inteligentes de transporte de las próximas décadas. Las
ventajas de su implementación a larga escala –disminución de accidentes,
reducción del tiempo de trayecto, u optimización del consumo–
han convertido su desarrollo en una prioridad para la academia y
la industria. Sin embargo, todavía hay un largo camino por delante
hasta alcanzar una automatización total, capaz de enfrentarse a cualquier
escenario sin intervención humana. Para ello, aún se requieren
avances en las tecnologías de control, navegación y, especialmente,
percepción del entorno. Concretamente, la detección de otros usuarios
de la carretera que puedan interferir en la trayectoria del vehículo
es una pieza fundamental para conseguirlo, puesto que permite modelar
el estado actual del tráfico y tomar decisiones en consecuencia.
El objetivo de esta tesis es aportar soluciones a algunos de los
principales retos de los sistemas de percepción embarcados, como
la calibración extrínseca de los sensores, la detección de objetos, y su
despliegue en plataformas reales. En primer lugar, se introduce un
método para la obtención de la transformación relativa entre pares
de sensores, eliminando el complejo ajuste manual de estos parámetros.
El algoritmo hace uso de un patrón de calibración propio y da
soporte a cámaras monoculares, estéreo, y LiDAR. En segundo lugar,
se presentan diferentes modelos de aprendizaje profundo para la detección
de objectos en 3D utilizando datos de escáneres LiDAR en su
proyección en vista de pájaro. A través de una nueva codificación, se
propone la utilización de arquitecturas de detección en imagen para
procesar en tiempo real la información tridimensional de las nubes
de puntos. Además, se analiza la efectividad del uso de esta proyección
junto con características procedentes de imágenes. Por último,
se introduce un método para mitigar la pérdida de precisión de las
redes de detección basadas en LiDAR cuando son desplegadas en
configuraciones ad-hoc. Para ello, se plantea la simulación de señales
virtuales con las características del modelo real que se quiere utilizar,
generando así nuevos conjuntos anotados para entrenar los modelos.
El rendimiento de los métodos propuestos es evaluado frente a
otras alternativas existentes haciendo uso de bases de datos de referencia
en el campo de la visión por computador (KITTI y nuScenes),
y mediante experimentos en tráfico abierto empleando un vehículo
automatizado. Los resultados obtenidos demuestran la relevancia de
los trabajos presentados y su viabilidad para un uso comercial.Programa de Doctorado en Ingeniería Eléctrica, Electrónica y Automática por la Universidad Carlos III de MadridPresidente: Jesús García Herrero.- Secretario: Ignacio Parra Alonso.- Vocal: Gustavo Adolfo Peláez Coronad
High-accuracy patternless calibration of multiple 3D LiDARs for autonomous vehicles
This article proposes a new method for estimating the extrinsic calibration parameters between any pair of multibeam LiDAR sensors on a vehicle. Unlike many state-of-the-art works, this method does not use any calibration pattern or reflective marks placed in the environment to perform the calibration; in addition, the sensors do not need to have overlapping fields of view. An iterative closest point (ICP)-based process is used to determine the values of the calibration parameters, resulting in better convergence and improved accuracy. Furthermore, a setup based on the car learning to act (CARLA) simulator is introduced to evaluate the approach, enabling quantitative assessment with ground-truth data. The results show an accuracy comparable with other approaches that require more complex procedures and have a more restricted range of applicable setups. This work also provides qualitative results on a real setup, where the alignment between the different point clouds can be visually checked. The open-source code is available at https://github.com/midemig/pcd_calib .This work was supported in part by the Madrid Government (Comunidad de Madrid-Spain) under the Multiannual Agreement with UC3M ("Fostering Young Doctors Research," APBI-CM-UC3M) in the context of the V PRICIT (Research and Technological Innovation Regional Program); and in part by the Spanish Government through Grants ID2021-128327OA-I00 and TED2021-129374A-I00 funded by MCIN/AEI/10.13039/501100011033 and by the European Union NextGenerationEU/PRTR
Position estimation using a stereo camera as part of the perception system in a Formula Student car
This thesis presents a part of the implementation of the perception system in an autonomous Formula Student vehicle. More precisely, it develops two different pipelines to process the data from the two main sensors of the vehicle: a LiDAR and a stereo camera. The first, a stereo camera system which is based on two monocular cameras, provides traffic cone position estimations based on the detections made by a convolutional neural network. These positions are obtained by using a self-designed stereo processing algorithm, based on 2D-3D position estimates and keypoint extraction and matching. The second is a sensor fusion system that first registers both sensors based on an extrinsic calibration system that has been implemented. Then, it exploits the neural network detection from the stereo system to project the LiDAR point cloud onto the image, obtaining a balance between accurate detection and position estimation. These two systems are evaluated, compared and integrated into "Xaloc". The Formula Student vehicle developed by the Driverless UPC team.Esta tesis presenta una parte de la implementación del sistema de percepción en un vehículo autónomo de Formula Student. Concretamente, se desarrollan dos sistemas diferentes para el procesado de datos de los dos sensores principales del vehículo: un LiDAR y una cámara estéreo. El sistema de cámara estéreo se basa en dos cámaras monoculares y proporciona estimaciones de la posición de los conos de tráfico que delimitan la pista en base a las detecciones realizadas por una red neuronal convolucional. Estas posiciones se obtienen mediante el uso de un algoritmo de procesamiento estéreo de diseño propio, basado en estimaciones de posición 2D-3D y en extracción y correspondencia de "keypoints". El segundo es un sistema de fusión de sensores que primero registra ambos sensores basándose en un sistema de calibración extrínseco que se ha implementado. Luego, usa la detección hecha con la red neuronal del sistema estéreo para proyectar la nube de puntos LiDAR en la imagen, obteniendo un lo mejor de cada sensor: una detección robusta y una estimación de posición muy precisa. Estos dos sistemas se evalúan, comparan e integran en "Xaloc" el vehículo sin conductor del equipo de Formula Student Driverless UPC.Aquesta tesi presenta una part de la implementació del sistema de percepció en un vehicle autònom de Formula Student. En concret, es desenvolupen dos sistemes diferents per processar les dades dels dos principals sensors del vehicle: un LiDAR i una càmera estèreo. El sistema de càmera estèreo es basa en dues càmeres monoculars, i proporciona estimacions de les posicions dels cons de trànsit que delimiten la pista basades en les deteccions fetes amb una xarxa neuronal convolucional. Aquestes posicions s'obtenen mitjançant un algoritme de processament d'estèreo propi, basat en estimacions de posició 2D-3D i en extracció i correspondència de keypoints. El segon és un sistema de fusió de sensors que registra els dos sensors en base a un sistema de calibratge extrínsec que s'ha implementat. A continuació, fa servir les deteccions de la xarxa neuronal del sistema estèreo per projectar el núvol de punts LiDAR a la imatge, obtenint un equilibri entre una bona detecció en imatge i la precisió del núvol de punts LiDAR. Aquests dos sistemes són avaluats, comparats i integrats al "Xaloc" el vehicle sense conductor de l'equip de Formula Student Driverless UPC
Targetless Extrinsic Calibration of Stereo Cameras, Thermal Cameras, and Laser Sensors in the Wild
The fusion of multi-modal sensors has become increasingly popular in
autonomous driving and intelligent robots since it can provide richer
information than any single sensor, enhance reliability in complex
environments. Multi-sensor extrinsic calibration is one of the key factors of
sensor fusion. However, such calibration is difficult due to the variety of
sensor modalities and the requirement of calibration targets and human labor.
In this paper, we demonstrate a new targetless cross-modal calibration
framework by focusing on the extrinsic transformations among stereo cameras,
thermal cameras, and laser sensors. Specifically, the calibration between
stereo and laser is conducted in 3D space by minimizing the registration error,
while the thermal extrinsic to the other two sensors is estimated by optimizing
the alignment of the edge features. Our method requires no dedicated targets
and performs the multi-sensor calibration in a single shot without human
interaction. Experimental results show that the calibration framework is
accurate and applicable in general scenes.Comment: This work has been submitted to the IEEE for possible publication.
Copyright may be transferred without notice, after which this version may no
longer be accessibl
- …