11 research outputs found

    Analyse des mouvements et gestes des piétons via caméra embarquée pour la prédiction de leurs intentions

    No full text
    The autonomous vehicle (AV) is a major challenge for the mobility of tomorrow. Progress is being made every day to achieve it; however, many problems remain to be solved to achieve a safe outcome for the most vulnerable road users (VRUs). One of the major challenge faced by AVs is the ability to efficiently drive in urban environments. Such a task requires interactions between autonomous vehicles and VRUs to resolve traffic ambiguities. In order to interact with VRUs, AVs must be able to understand their intentions and predict their incoming actions. In this dissertation, our work revolves around machine learning technology as a way to understand and predict human behaviour from visual signals and more specifically pose kinematics. Our goal is to propose an assistance system to the AV that is lightweight, scene-agnostic that could be easily implemented in any embedded devices with real-time constraints. Firstly, in the gesture and action recognition domain, we study and introduce different representations for pose kinematics, based on deep learning models as a way to efficiently leverage their spatial and temporal components while staying in an euclidean grid-space. Secondly, in the autonomous driving domain, we show that it is possible to link the posture, the walking attitude and the future behaviours of the protagonists of a scene without using the contextual information of the scene (zebra crossing, traffic light...). This allowed us to divide by a factor of 20 the inference speed of existing approaches for pedestrian intention prediction while keeping the same prediction robustness. Finally, we assess the generalization capabilities of pedestrian crossing predictors and show that the classical train-test sets evaluation for pedestrian crossing prediction, i.e., models being trained and tested on the same dataset, is not sufficient to efficiently compare nor conclude anything about their applicability in a real-world scenario. To make the research field more sustainable and representative of the real advances to come. We propose new protocols and metrics based on uncertainty estimates under domain-shift in order to reach the end-goal of pedestrian crossing behavior predictors: vehicle implementation.Le véhicule autonome est un défi majeur pour la mobilité de demain. Des progrès sont réalisés chaque jour pour y parvenir ; cependant, de nombreux problèmes restent à résoudre pour obtenir un résultat sûr pour les usagers de la route les plus vulnérables. L'un des principaux défis auxquels sont confrontés les véhicules autonomes est la capacité à conduire efficacement en milieu urbain. Une telle tâche nécessite la gestion des interactions entre les véhicules et les usagers vulnérables de la route afin de résoudre les ambiguïtés du trafic. Afin d'interagir avec ces usagers, les véhicules doivent être capables de comprendre leurs intentions et de prédire leurs actions à venir. Dans cette thèse, notre travail s'articule autour de la technologie d'apprentissage automatique comme moyen de comprendre et de prédire le comportement humain à partir de signaux visuels et plus particulièrement de la cinématique de pose. Notre objectif est de proposer un système d'assistance au véhicule qui soit léger, agnostique à la scène et qui puisse être facilement implémenté dans n'importe quel dispositif embarqué avec des contraintes temps réel. Premièrement, dans le domaine de la reconnaissance de gestes et d'actions, nous étudions et introduisons différentes représentations de la cinématique de pose, basées sur des modèles d'apprentissage profond afin d'exploiter efficacement leurs composantes spatiales et temporelles tout en restant dans un espace euclidien. Deuxièmement, dans le domaine de la conduite autonome, nous montrons qu'il est possible de lier la posture, l'attitude de marche et les comportements futurs des protagonistes d'une scène sans utiliser les informations contextuelles de la scène. Cela nous permet de diviser par un facteur 20 le temps d'inférence des approches existantes pour la prédiction de l'intention des piétons tout en gardant la même robustesse de prédiction. Finalement, nous évaluons la capacité de généralisation des approches de prédiction d'intention de piétons et montrons que le mode d'évaluation classique des approches pour la prédiction de traversée de piétons, n'est pas suffisante pour comparer ni conclure efficacement sur leur applicabilité lors d'un scénario réel. Nous proposons de nouveaux protocoles et de nouvelles mesures basés sur l'estimation d'incertitude afin de rendre le domaine de recherche plus durable et plus représentatif des réelles avancées à venir

    Analyse des mouvements et gestes des piétons via caméra embarquée pour la prédiction de leurs intentions

    No full text
    The autonomous vehicle (AV) is a major challenge for the mobility of tomorrow. Progress is being made every day to achieve it; however, many problems remain to be solved to achieve a safe outcome for the most vulnerable road users (VRUs). One of the major challenge faced by AVs is the ability to efficiently drive in urban environments. Such a task requires interactions between autonomous vehicles and VRUs to resolve traffic ambiguities. In order to interact with VRUs, AVs must be able to understand their intentions and predict their incoming actions. In this dissertation, our work revolves around machine learning technology as a way to understand and predict human behaviour from visual signals and more specifically pose kinematics. Our goal is to propose an assistance system to the AV that is lightweight, scene-agnostic that could be easily implemented in any embedded devices with real-time constraints. Firstly, in the gesture and action recognition domain, we study and introduce different representations for pose kinematics, based on deep learning models as a way to efficiently leverage their spatial and temporal components while staying in an euclidean grid-space. Secondly, in the autonomous driving domain, we show that it is possible to link the posture, the walking attitude and the future behaviours of the protagonists of a scene without using the contextual information of the scene (zebra crossing, traffic light...). This allowed us to divide by a factor of 20 the inference speed of existing approaches for pedestrian intention prediction while keeping the same prediction robustness. Finally, we assess the generalization capabilities of pedestrian crossing predictors and show that the classical train-test sets evaluation for pedestrian crossing prediction, i.e., models being trained and tested on the same dataset, is not sufficient to efficiently compare nor conclude anything about their applicability in a real-world scenario. To make the research field more sustainable and representative of the real advances to come. We propose new protocols and metrics based on uncertainty estimates under domain-shift in order to reach the end-goal of pedestrian crossing behavior predictors: vehicle implementation.Le véhicule autonome est un défi majeur pour la mobilité de demain. Des progrès sont réalisés chaque jour pour y parvenir ; cependant, de nombreux problèmes restent à résoudre pour obtenir un résultat sûr pour les usagers de la route les plus vulnérables. L'un des principaux défis auxquels sont confrontés les véhicules autonomes est la capacité à conduire efficacement en milieu urbain. Une telle tâche nécessite la gestion des interactions entre les véhicules et les usagers vulnérables de la route afin de résoudre les ambiguïtés du trafic. Afin d'interagir avec ces usagers, les véhicules doivent être capables de comprendre leurs intentions et de prédire leurs actions à venir. Dans cette thèse, notre travail s'articule autour de la technologie d'apprentissage automatique comme moyen de comprendre et de prédire le comportement humain à partir de signaux visuels et plus particulièrement de la cinématique de pose. Notre objectif est de proposer un système d'assistance au véhicule qui soit léger, agnostique à la scène et qui puisse être facilement implémenté dans n'importe quel dispositif embarqué avec des contraintes temps réel. Premièrement, dans le domaine de la reconnaissance de gestes et d'actions, nous étudions et introduisons différentes représentations de la cinématique de pose, basées sur des modèles d'apprentissage profond afin d'exploiter efficacement leurs composantes spatiales et temporelles tout en restant dans un espace euclidien. Deuxièmement, dans le domaine de la conduite autonome, nous montrons qu'il est possible de lier la posture, l'attitude de marche et les comportements futurs des protagonistes d'une scène sans utiliser les informations contextuelles de la scène. Cela nous permet de diviser par un facteur 20 le temps d'inférence des approches existantes pour la prédiction de l'intention des piétons tout en gardant la même robustesse de prédiction. Finalement, nous évaluons la capacité de généralisation des approches de prédiction d'intention de piétons et montrons que le mode d'évaluation classique des approches pour la prédiction de traversée de piétons, n'est pas suffisante pour comparer ni conclure efficacement sur leur applicabilité lors d'un scénario réel. Nous proposons de nouveaux protocoles et de nouvelles mesures basés sur l'estimation d'incertitude afin de rendre le domaine de recherche plus durable et plus représentatif des réelles avancées à venir

    Analyse des mouvements et gestes des piétons via caméra embarquée pour la prédiction de leurs intentions

    No full text
    Le véhicule autonome est un défi majeur pour la mobilité de demain. Des progrès sont réalisés chaque jour pour y parvenir ; cependant, de nombreux problèmes restent à résoudre pour obtenir un résultat sûr pour les usagers de la route les plus vulnérables. L'un des principaux défis auxquels sont confrontés les véhicules autonomes est la capacité à conduire efficacement en milieu urbain. Une telle tâche nécessite la gestion des interactions entre les véhicules et les usagers vulnérables de la route afin de résoudre les ambiguïtés du trafic. Afin d'interagir avec ces usagers, les véhicules doivent être capables de comprendre leurs intentions et de prédire leurs actions à venir. Dans cette thèse, notre travail s'articule autour de la technologie d'apprentissage automatique comme moyen de comprendre et de prédire le comportement humain à partir de signaux visuels et plus particulièrement de la cinématique de pose. Notre objectif est de proposer un système d'assistance au véhicule qui soit léger, agnostique à la scène et qui puisse être facilement implémenté dans n'importe quel dispositif embarqué avec des contraintes temps réel. Premièrement, dans le domaine de la reconnaissance de gestes et d'actions, nous étudions et introduisons différentes représentations de la cinématique de pose, basées sur des modèles d'apprentissage profond afin d'exploiter efficacement leurs composantes spatiales et temporelles tout en restant dans un espace euclidien. Deuxièmement, dans le domaine de la conduite autonome, nous montrons qu'il est possible de lier la posture, l'attitude de marche et les comportements futurs des protagonistes d'une scène sans utiliser les informations contextuelles de la scène. Cela nous permet de diviser par un facteur 20 le temps d'inférence des approches existantes pour la prédiction de l'intention des piétons tout en gardant la même robustesse de prédiction. Finalement, nous évaluons la capacité de généralisation des approches de prédiction d'intention de piétons et montrons que le mode d'évaluation classique des approches pour la prédiction de traversée de piétons, n'est pas suffisante pour comparer ni conclure efficacement sur leur applicabilité lors d'un scénario réel. Nous proposons de nouveaux protocoles et de nouvelles mesures basés sur l'estimation d'incertitude afin de rendre le domaine de recherche plus durable et plus représentatif des réelles avancées à venir.The autonomous vehicle (AV) is a major challenge for the mobility of tomorrow. Progress is being made every day to achieve it; however, many problems remain to be solved to achieve a safe outcome for the most vulnerable road users (VRUs). One of the major challenge faced by AVs is the ability to efficiently drive in urban environments. Such a task requires interactions between autonomous vehicles and VRUs to resolve traffic ambiguities. In order to interact with VRUs, AVs must be able to understand their intentions and predict their incoming actions. In this dissertation, our work revolves around machine learning technology as a way to understand and predict human behaviour from visual signals and more specifically pose kinematics. Our goal is to propose an assistance system to the AV that is lightweight, scene-agnostic that could be easily implemented in any embedded devices with real-time constraints. Firstly, in the gesture and action recognition domain, we study and introduce different representations for pose kinematics, based on deep learning models as a way to efficiently leverage their spatial and temporal components while staying in an euclidean grid-space. Secondly, in the autonomous driving domain, we show that it is possible to link the posture, the walking attitude and the future behaviours of the protagonists of a scene without using the contextual information of the scene (zebra crossing, traffic light...). This allowed us to divide by a factor of 20 the inference speed of existing approaches for pedestrian intention prediction while keeping the same prediction robustness. Finally, we assess the generalization capabilities of pedestrian crossing predictors and show that the classical train-test sets evaluation for pedestrian crossing prediction, i.e., models being trained and tested on the same dataset, is not sufficient to efficiently compare nor conclude anything about their applicability in a real-world scenario. To make the research field more sustainable and representative of the real advances to come. We propose new protocols and metrics based on uncertainty estimates under domain-shift in order to reach the end-goal of pedestrian crossing behavior predictors: vehicle implementation

    Analyse des mouvements et gestes des piétons via caméra embarquée pour la prédiction de leurs intentions

    No full text
    The autonomous vehicle (AV) is a major challenge for the mobility of tomorrow. Progress is being made every day to achieve it; however, many problems remain to be solved to achieve a safe outcome for the most vulnerable road users (VRUs). One of the major challenge faced by AVs is the ability to efficiently drive in urban environments. Such a task requires interactions between autonomous vehicles and VRUs to resolve traffic ambiguities. In order to interact with VRUs, AVs must be able to understand their intentions and predict their incoming actions. In this dissertation, our work revolves around machine learning technology as a way to understand and predict human behaviour from visual signals and more specifically pose kinematics. Our goal is to propose an assistance system to the AV that is lightweight, scene-agnostic that could be easily implemented in any embedded devices with real-time constraints. Firstly, in the gesture and action recognition domain, we study and introduce different representations for pose kinematics, based on deep learning models as a way to efficiently leverage their spatial and temporal components while staying in an euclidean grid-space. Secondly, in the autonomous driving domain, we show that it is possible to link the posture, the walking attitude and the future behaviours of the protagonists of a scene without using the contextual information of the scene (zebra crossing, traffic light...). This allowed us to divide by a factor of 20 the inference speed of existing approaches for pedestrian intention prediction while keeping the same prediction robustness. Finally, we assess the generalization capabilities of pedestrian crossing predictors and show that the classical train-test sets evaluation for pedestrian crossing prediction, i.e., models being trained and tested on the same dataset, is not sufficient to efficiently compare nor conclude anything about their applicability in a real-world scenario. To make the research field more sustainable and representative of the real advances to come. We propose new protocols and metrics based on uncertainty estimates under domain-shift in order to reach the end-goal of pedestrian crossing behavior predictors: vehicle implementation.Le véhicule autonome est un défi majeur pour la mobilité de demain. Des progrès sont réalisés chaque jour pour y parvenir ; cependant, de nombreux problèmes restent à résoudre pour obtenir un résultat sûr pour les usagers de la route les plus vulnérables. L'un des principaux défis auxquels sont confrontés les véhicules autonomes est la capacité à conduire efficacement en milieu urbain. Une telle tâche nécessite la gestion des interactions entre les véhicules et les usagers vulnérables de la route afin de résoudre les ambiguïtés du trafic. Afin d'interagir avec ces usagers, les véhicules doivent être capables de comprendre leurs intentions et de prédire leurs actions à venir. Dans cette thèse, notre travail s'articule autour de la technologie d'apprentissage automatique comme moyen de comprendre et de prédire le comportement humain à partir de signaux visuels et plus particulièrement de la cinématique de pose. Notre objectif est de proposer un système d'assistance au véhicule qui soit léger, agnostique à la scène et qui puisse être facilement implémenté dans n'importe quel dispositif embarqué avec des contraintes temps réel. Premièrement, dans le domaine de la reconnaissance de gestes et d'actions, nous étudions et introduisons différentes représentations de la cinématique de pose, basées sur des modèles d'apprentissage profond afin d'exploiter efficacement leurs composantes spatiales et temporelles tout en restant dans un espace euclidien. Deuxièmement, dans le domaine de la conduite autonome, nous montrons qu'il est possible de lier la posture, l'attitude de marche et les comportements futurs des protagonistes d'une scène sans utiliser les informations contextuelles de la scène. Cela nous permet de diviser par un facteur 20 le temps d'inférence des approches existantes pour la prédiction de l'intention des piétons tout en gardant la même robustesse de prédiction. Finalement, nous évaluons la capacité de généralisation des approches de prédiction d'intention de piétons et montrons que le mode d'évaluation classique des approches pour la prédiction de traversée de piétons, n'est pas suffisante pour comparer ni conclure efficacement sur leur applicabilité lors d'un scénario réel. Nous proposons de nouveaux protocoles et de nouvelles mesures basés sur l'estimation d'incertitude afin de rendre le domaine de recherche plus durable et plus représentatif des réelles avancées à venir

    Asymmetrical Bi-RNN for Pedestrian Trajectory Encoding

    No full text
    International audiencePedestrian motion behavior involves a combination of individual goals and social interactions with other agents. In this article, we present an asymmetrical bidirectional recurrent neural network architecture called U-RNN to encode pedestrian trajectories and evaluate its relevance to replace LSTMs for various forecasting models. Experimental results on the Trajnet++ benchmark show that the U-LSTM variant yields better results regarding every available metrics (ADE, FDE, Collision rate) than common trajectory encoders for a variety of approaches and interaction modules, suggesting that the proposed approach is a viable alternative to the de facto sequence encoding RNNs. Our implementation of the asymmetrical Bi-RNNs for the Trajnet++ benchmark is available at: github.com/JosephGesnouin/Asymmetrical-Bi-RNNs-toencode-pedestrian-trajectories

    Asymmetrical Bi-RNN for pedestrian trajectory encoding

    Full text link
    Pedestrian motion behavior involves a combination of individual goals and social interactions with other agents. In this article, we present a non-symmetrical bidirectional recurrent neural network architecture called U-RNN as a sequence encoder and evaluate its relevance to replace LSTMs for various forecasting models. Experimental results on the Trajnet++ benchmark show that the U-LSTM variant can yield better results regarding every available metric (ADE, FDE, Collision rate) than common LSTMs sequence encoders for a variety of approaches and interaction modules. Our implementation of the asymmetrical Bi-RNNs for the Trajnet++ benchmark is available at: github.com/JosephGesnouin/Asymmetrical-Bi-RNNs-to-encode-pedestrian-trajectoriesComment: 7 page

    TrouSPI-Net: Spatio-temporal attention on parallel atrous convolutions and U-GRUs for skeletal pedestrian crossing prediction

    No full text
    International audienceUnderstanding the behaviors and intentions of pedestrians is still one of the main challenges for vehicle autonomy, as accurate predictions of their intentions can guarantee their safety and driving comfort of vehicles. In this paper, we address pedestrian crossing prediction in urban traffic environments by linking the dynamics of a pedestrian's skeleton to a binary crossing intention. We introduce TrouSPI-Net: a context-free, lightweight, multi-branch predictor. TrouSPI-Net extracts spatio-temporal features for different time resolutions by encoding pseudo-images sequences of skeletal joints' positions and processes them with parallel attention modules and atrous convolutions. The proposed approach is then enhanced by processing features such as relative distances of skeletal joints, bounding box positions, or ego-vehicle speed with U-GRUs. Using the newly proposed evaluation procedures for two large public naturalistic data sets for studying pedestrian behavior in traffic: JAAD and PIE, we evaluate TrouSPI-Net and analyze its performance. Experimental results show that TrouSPI-Net achieved 76% F1 score on JAAD and 80% F1 score on PIE, therefore outperforming current state-of-the-art while being lightweight and context-free

    Assessing Cross-dataset Generalization of Pedestrian Crossing Predictors

    No full text
    International audiencePedestrian crossing prediction has been a topic of active research, resulting in many new algorithmic solutions. While measuring the overall progress of those solutions over time tends to be more and more established due to the new publicly available benchmark and standardized evaluation procedures, knowing how well existing predictors react to unseen data remains an unanswered question. This evaluation is imperative as serviceable crossing behavior predictors should be set to work in various scenarios without compromising pedestrian safety due to misprediction. To this end, we conduct a study based on direct cross-dataset evaluation. Our experiments show that current state-of-the-art pedestrian behavior predictors generalize poorly in cross-dataset evaluation scenarios, regardless of their robustness during a direct training-test set evaluation setting. In the light of what we observe, we argue that the future of pedestrian crossing prediction, e.g. reliable and generalizable implementations, should not be about tailoring models, trained with very little available data, and tested in a classical train-test scenario with the will to infer anything about their behavior in real life. It should be about evaluating models in a cross-dataset setting while considering their uncertainty estimates under domain shift
    corecore