1 research outputs found

    Predictive Techniques for Scene Understanding by using Deep Learning in Autonomous Driving

    Get PDF
    La conducci贸n aut贸noma es considerada uno de los m谩s grandes retos tecnol贸gicos de la actualidad. Cuando los coches aut贸nomos conquisten nuestras carreteras, los accidentes se reducir谩n notablemente, hasta casi desaparecer, ya que la tecnolog铆a estar谩 testada y no incumplir谩 las normas de conducci贸n, entre otros beneficios sociales y econ贸micos. Uno de los aspectos m谩s cr铆ticos a la hora de desarrollar un veh铆culo aut贸nomo es percibir y entender la escena que le rodea. Esta tarea debe ser tan precisa y eficiente como sea posible para posteriormente predecir el futuro de esta misma y ayudar a la toma de decisiones. De esta forma, las acciones tomadas por el veh铆culo garantizar谩n tanto la seguridad del veh铆culo en s铆 mismo y sus ocupantes, como la de los obst谩culos circundantes, tales como viandantes, otros veh铆culos o infraestructura de la carretera. En ese sentido, esta tesis doctoral se centra en el estudio y desarrollo de distintas t茅cnicas predictivas para el entendimiento de la escena en el contexto de la conducci贸n aut贸noma. Durante la tesis, se observa una incorporaci贸n progresiva de t茅cnicas de aprendizaje profundo en los distintos algoritmos propuestos para mejorar el razonamiento sobre qu茅 est谩 ocurriendo en el escenario de tr谩fico, as铆 como para modelar las complejas interacciones entre la informaci贸n social (distintos participantes o agentes del escenario, tales como veh铆culos, ciclistas o peatones) y f铆sica (es decir, la informaci贸n geom茅trica, sem谩ntica y topol贸gica del mapa de alta definici贸n) presente en la escena. La capa de percepci贸n de un veh铆culo aut贸nomo se divide modularmente en tres etapas: Detecci贸n, Seguimiento (Tracking), y Predicci贸n. Para iniciar el estudio de las etapas de seguimiento y predicci贸n, se propone un algoritmo de Multi-Object Tracking basado en t茅cnicas cl谩sicas de estimaci贸n de movimiento y asociaci贸n validado en el dataset KITTI, el cual obtiene m茅tricas del estado del arte. Por otra parte, se propone el uso de un filtro inteligente basado en informaci贸n contextual de mapa, cuyo objetivo es monitorizar los agentes m谩s relevantes de la escena en el tiempo, representando estos agentes filtrados la entrada preliminar para realizar predicciones unimodales basadas en un modelo cinem谩tico. Para validar esta propuesta de filtro inteligente se usa CARLA (CAR Learning to Act), uno de los simuladores hiperrealistas para conducci贸n aut贸noma m谩s prometedores en la actualidad, comprobando c贸mo al usar informaci贸n contextual de mapa se puede reducir notablemente el tiempo de inferencia de un algoritmo de tracking y predicci贸n basados en m茅todos f铆sicos, prestando atenci贸n a los agentes realmente relevantes del escenario de tr谩fico. Tras observar las limitaciones de un modelo de predicci贸n basado en cinem谩tica para la predicci贸n a largo plazo de un agente, los distintos algoritmos de la tesis se centran en el m贸dulo de predicci贸n, usando los datasets Argoverse 1 y Argoverse 2, donde se asume que los agentes proporcionados en cada escenario de tr谩fico ya est谩n monitorizados durante un cierto n煤mero de observaciones. En primer lugar, se introduce un modelo basado en redes neuronales recurrentes (particularmente redes LSTM, Long-Short Term Memory) y mecanismo de atenci贸n para codificar las trayectorias pasadas de los agentes, y una representaci贸n simplificada del mapa en forma de posiciones finales potenciales en la carretera para calcular las trayectorias futuras unimodales, todo envuelto en un marco GAN (Generative Adversarial Network), obteniendo m茅tricas similares al estado del arte en el caso unimodal. Una vez validado el modelo anterior en Argoverse 1, se proponen distintos modelos base (s贸lo social, incorporando mapa, y una mejora final basada en Transformer encoder, redes convolucionales 1D y mecanismo de atenci贸n cruzada para la fusi贸n de caracter铆sticas) precisos y eficientes basados en el modelo de predicci贸n anterior, introduciendo dos nuevos conceptos. Por un lado, el uso de redes neuronales gr谩ficas (particularmente GCN, Graph Convolutional Network) para codificar de una forma potente las interacciones de los agentes. Por otro lado, se propone el preprocesamiento de trayectorias preliminares a partir de un mapa con un m茅todo heur铆stico. Gracias a estas entradas y una arquitectura m谩s potente de codificaci贸n, los modelos base ser谩n capaces de predecir distintas trayectorias futuras multimodales, es decir, cubriendo distintos posibles futuros para el agente de inter茅s. Los modelos base propuestos obtienen m茅tricas de regresi贸n del estado del arte tanto en el caso multimodal como unimodal manteniendo un claro compromiso de eficiencia con respecto a otras propuestas. El modelo final de la tesis, inspirado en los modelos anteriores y validado en el m谩s reciente dataset para algoritmos de predicci贸n en conducci贸n aut贸noma (Argoverse 2), introduce varias mejoras para entender mejor el escenario de tr谩fico y decodificar la informaci贸n de una forma precisa y eficiente. Se propone incorporar informaci贸n topol贸gica y sem谩ntica de los carriles futuros preliminares con el m茅todo heur铆stico antes mencionado, codificaci贸n de mapa basada en aprendizaje profundo con redes GCN, ciclo de fusi贸n de caracter铆sticas f铆sicas y sociales, estimaci贸n de posiciones finales en la carretera y agregaci贸n de su entorno circundante con aprendizaje profundo y finalmente m贸dulo de refinado para mejorar la calidad de las predicciones multimodales finales de un modo elegante y eficiente. Comparado con el estado del arte, nuestro m茅todo logra m茅tricas de predicci贸n a la par con los m茅todos mejor posicionados en el Leaderboard de Argoverse 2, reduciendo de forma notable el n煤mero de par谩metros y operaciones de coma flotante por segundo. Por 煤ltimo, el modelo final de la tesis ha sido validado en simulaci贸n en distintas aplicaciones de conducci贸n aut贸noma. En primer lugar, se integra el modelo para proporcionar predicciones a un algoritmo de toma de decisiones basado en aprendizaje por refuerzo en el simulador SMARTS (Scalable Multi-Agent Reinforcement Learning Training School), observando en los estudios como el veh铆culo es capaz de tomar mejores decisiones si conoce el comportamiento futuro de la escena y no solo el estado actual o pasado de esta misma. En segundo lugar, se ha realizado un estudio de adaptaci贸n de dominio exitoso en el simulador hiperrealista CARLA en distintos escenarios desafiantes donde el entendimiento de la escena y predicci贸n del entorno son muy necesarios, como una autopista o rotonda con gran densidad de tr谩fico o la aparici贸n de un usuario vulnerable de la carretera de forma repentina. En ese sentido, el modelo de predicci贸n ha sido integrado junto con el resto de capas de la arquitectura de navegaci贸n aut贸noma del grupo de investigaci贸n donde se desarrolla la tesis como paso previo a su implementaci贸n en un veh铆culo aut贸nomo real
    corecore