262 research outputs found

    Détection de marqueurs affectifs et attentionnels de personnes âgées en interaction avec un robot

    Get PDF
    This thesis work focuses on audio-visual detection of emotional (laugh and smile) and attentional markers for elderly people in social interaction with a robot. To effectively understand and model the pattern of behavior of very old people in the presence of a robot, relevant data are needed. I participated in the collection of a corpus of elderly people in particular for recording visual data. The system used to control the robot is a Wizard of Oz, several daily conversation scenarios were used to encourage people to interact with the robot. These scenarios were developed as part of the ROMEO2 project with the Approche association. We described at first the corpus collected which contains 27 subjects of 85 years' old on average for a total of 9 hours, annotations and we discussed the results obtained from the analysis of annotations and two questionnaires.My research then focuses on the attention detection and the laughter and smile detection. The motivations for the attention detection are to detect when the subject is not addressing to the robot and adjust the robot's behavior to the situation. After considering the difficulties related to the elderly people and the analytical results obtained by the study of the corpus annotations, we focus on the rotation of the head at the visual index and energy and quality vote for the detection of the speech recipient. The laughter and smile detection can be used to study on the profile of the speaker and her emotions. My interests focus on laughter and smile detection in the visual modality and the fusion of audio-visual information to improve the performance of the automatic system. Spontaneous expressions are different from posed or acted expression in both appearance and timing. Designing a system that works on realistic data of the elderly is even more difficult because of several difficulties to consider such as the lack data for training the statistical model, the influence of the facial texture and the smiling pattern for visual detection, the influence of voice quality for auditory detection, the variety of reaction time, the level of listening comprehension, loss of sight for elderly people, etc. The systems of head-turning detection, attention detection and laughter and smile detection are evaluated on ROMEO2 corpus and partially evaluated (visual detections) on standard corpus Pointing04 and GENKI-4K to compare with the scores of the methods on the state of the art. We also found a negative correlation between laughter and smile detection performance and the number of laughter and smile events for the visual detection system and the audio-visual system. This phenomenon can be explained by the fact that elderly people who are more interested in experimentation laugh more often and therefore perform more various poses. The variety of poses and the lack of corresponding data bring difficulties for the laughter and smile recognition for our statistical systems. The experiments show that the head-turning can be effectively used to detect the loss of the subject's attention in the interaction with the robot. For the attention detection, the potential of a cascade method using both methods in a complementary manner is shown. This method gives better results than the audio system. For the laughter and smile detection, under the same leave-one-out protocol, the fusion of the two monomodal systems significantly improves the performance of the system at the segmental evaluation.Ces travaux de thèse portent sur la détection audio-visuelle de marqueurs affectifs (rire et sourire) et attentionnels de personnes âgées en interaction sociale avec un robot. Pour comprendre efficacement et modéliser le comportement des personnes très âgées en présence d'un robot, des données pertinentes sont nécessaires. J'ai participé à la collection d'un corpus de personnes âgées notamment pour l'enregistrement des données visuelles. Le système utilisé pour contrôler le robot est un magicien d'Oz, plusieurs scénarios de conversation au quotidien ont été utilisés pour encourager les gens à coopérer avec le robot. Ces scénarios ont été élaborés dans le cadre du projet ROMEO2 avec l'association Approche.Nous avons décrit tout d'abord le corpus recueilli qui contient 27 sujets de 85 ans en moyenne pour une durée totale de 9 heures, les annotations et nous avons discuté des résultats obtenus à partir de l'analyse des annotations et de deux questionnaires. Ma recherche se focalise ensuite sur la détection de l'attention et la détection de rire et de sourire. Les motivations pour la détection de l'attention consistent à détecter quand le sujet ne s'adresse pas au robot et à adapter le comportement du robot à la situation. Après avoir considéré les difficultés liées aux personnes âgées et les résultats d'analyse obtenus par l'étude des annotations du corpus, nous nous intéressons à la rotation de la tête au niveau de l'indice visuel et à l'énergie et la qualité de voix pour la détection du destinataire de la parole. La détection de rire et sourire peut être utilisée pour l'étude sur le profil du locuteur et de ses émotions. Mes intérêts se concentrent sur la détection de rire et sourire dans la modalité visuelle et la fusion des informations audio-visuelles afin d'améliorer la performance du système automatique. Les expressions sont différentes des expressions actées ou posés à la fois en apparence et en temps de réaction. La conception d'un système qui marche sur les données réalistes des personnes âgées est encore plus difficile à cause de plusieurs difficultés à envisager telles que le manque de données pour l'entrainement du modèle statistique, l'influence de la texture faciale et de la façon de sourire pour la détection visuelle, l'influence de la qualité vocale pour la détection auditive, la variété du temps de réaction, le niveau de compréhension auditive, la perte de la vue des personnes âgées, etc. Les systèmes de détection de la rotation de la tête, de la détection de l'attention et de la détection de rire et sourire sont évalués sur le corpus ROMEO2 et partiellement évalués (détections visuelles) sur les corpus standard Pointing04 et GENKI-4K pour comparer avec les scores des méthodes de l'état de l'art. Nous avons également trouvé une corrélation négative entre la performance de détection de rire et sourire et le nombre d'évènement de rire et sourire pour le système visuel et le système audio-visuel. Ce phénomène peut être expliqué par le fait que les personnes âgées qui sont plus intéressées par l'expérimentation rient plus souvent et sont plus à l'aise donc avec des poses variées. La variété des poses et le manque de données correspondantes amènent des difficultés pour la reconnaissance de rire et de sourire pour les systèmes statistiques.Les expérimentations montrent que la rotation de la tête peut être efficacement utilisée pour détecter la perte de l'attention du sujet dans l'interaction avec le robot. Au niveau de la détection de l'attention, le potentiel d'une méthode en cascade qui utilise les modalités d'une manière complémentaire est montré. Cette méthode donne de meilleurs résultats que le système auditif seul. Pour la détection de rire et sourire, en suivant le même protocole « Leave-one-out », la fusion des deux systèmes monomodaux améliore aussi significativement la performance par rapport à un système monomodal au niveau de l'évaluation segmentale

    Apprentissage statistique de modèles de comportement multimodal pour les agents conversationnels interactifs

    Get PDF
    Face to face interaction is one of the most fundamental forms of human communication. It is a complex multimodal and coupled dynamic system involving not only speech but of numerous segments of the body among which gaze, the orientation of the head, the chest and the body, the facial and brachiomanual movements, etc. The understanding and the modeling of this type of communication is a crucial stage for designing interactive agents capable of committing (hiring) credible conversations with human partners. Concretely, a model of multimodal behavior for interactive social agents faces with the complex task of generating gestural scores given an analysis of the scene and an incremental estimation of the joint objectives aimed during the conversation. The objective of this thesis is to develop models of multimodal behavior that allow artificial agents to engage into a relevant co-verbal communication with a human partner. While the immense majority of the works in the field of human-agent interaction (HAI) is scripted using ruled-based models, our approach relies on the training of statistical models from tracks collected during exemplary interactions, demonstrated by human trainers. In this context, we introduce "sensorimotor" models of behavior, which perform at the same time the recognition of joint cognitive states and the generation of the social signals in an incremental way. In particular, the proposed models of behavior have to estimate the current unit of interaction ( IU) in which the interlocutors are jointly committed and to predict the co-verbal behavior of its human trainer given the behavior of the interlocutor(s). The proposed models are all graphical models, i.e. Hidden Markov Models (HMM) and Dynamic Bayesian Networks (DBN). The models were trained and evaluated - in particular compared with classic classifiers - using datasets collected during two different interactions. Both interactions were carefully designed so as to collect, in a minimum amount of time, a sufficient number of exemplars of mutual attention and multimodal deixis of objects and places. Our contributions are completed by original methods for the interpretation and comparative evaluation of the properties of the proposed models. By comparing the output of the models with the original scores, we show that the HMM, thanks to its properties of sequential modeling, outperforms the simple classifiers in term of performances. The semi-Markovian models (HSMM) further improves the estimation of sensorimotor states thanks to duration modeling. Finally, thanks to a rich structure of dependency between variables learnt from the data, the DBN has the most convincing performances and demonstrates both the best performance and the most faithful multimodal coordination to the original multimodal events.L'interaction face-à-face représente une des formes les plus fondamentales de la communication humaine. C'est un système dynamique multimodal et couplé – impliquant non seulement la parole mais de nombreux segments du corps dont le regard, l'orientation de la tête, du buste et du corps, les gestes faciaux et brachio-manuels, etc – d'une grande complexité. La compréhension et la modélisation de ce type de communication est une étape cruciale dans le processus de la conception des agents interactifs capables d'engager des conversations crédibles avec des partenaires humains. Concrètement, un modèle de comportement multimodal destiné aux agents sociaux interactifs fait face à la tâche complexe de générer un comportement multimodal étant donné une analyse de la scène et une estimation incrémentale des objectifs conjoints visés au cours de la conversation. L'objectif de cette thèse est de développer des modèles de comportement multimodal pour permettre aux agents artificiels de mener une communication co-verbale pertinente avec un partenaire humain. Alors que l'immense majorité des travaux dans le domaine de l'interaction humain-agent repose essentiellement sur des modèles à base de règles, notre approche se base sur la modélisation statistique des interactions sociales à partir de traces collectées lors d'interactions exemplaires, démontrées par des tuteurs humains. Dans ce cadre, nous introduisons des modèles de comportement dits "sensori-moteurs", qui permettent à la fois la reconnaissance des états cognitifs conjoints et la génération des signaux sociaux d'une manière incrémentale. En particulier, les modèles de comportement proposés ont pour objectif d'estimer l'unité d'interaction (IU) dans laquelle sont engagés de manière conjointe les interlocuteurs et de générer le comportement co-verbal du tuteur humain étant donné le comportement observé de son/ses interlocuteur(s). Les modèles proposés sont principalement des modèles probabilistes graphiques qui se basent sur les chaînes de markov cachés (HMM) et les réseaux bayésiens dynamiques (DBN). Les modèles ont été appris et évalués – notamment comparés à des classifieurs classiques – sur des jeux de données collectés lors de deux différentes interactions face-à-face. Les deux interactions ont été soigneusement conçues de manière à collecter, en un minimum de temps, un nombre suffisant d'exemplaires de gestion de l'attention mutuelle et de deixis multimodale d'objets et de lieux. Nos contributions sont complétées par des méthodes originales d'interprétation et d'évaluation des propriétés des modèles proposés. En comparant tous les modèles avec les vraies traces d'interactions, les résultats montrent que le modèle HMM, grâce à ses propriétés de modélisation séquentielle, dépasse les simples classifieurs en terme de performances. Les modèles semi-markoviens (HSMM) ont été également testé et ont abouti à un meilleur bouclage sensori-moteur grâce à leurs propriétés de modélisation des durées des états. Enfin, grâce à une structure de dépendances riche apprise à partir des données, le modèle DBN a les performances les plus probantes et démontre en outre la coordination multimodale la plus fidèle aux évènements multimodaux originaux

    Apprentissage statistique de modèles de comportement multimodal pour les agents conversationnels interactifs

    No full text
    Face to face interaction is one of the most fundamental forms of human communication. It is a complex multimodal and coupled dynamic system involving not only speech but of numerous segments of the body among which gaze, the orientation of the head, the chest and the body, the facial and brachiomanual movements, etc. The understanding and the modeling of this type of communication is a crucial stage for designing interactive agents capable of committing (hiring) credible conversations with human partners. Concretely, a model of multimodal behavior for interactive social agents faces with the complex task of generating gestural scores given an analysis of the scene and an incremental estimation of the joint objectives aimed during the conversation. The objective of this thesis is to develop models of multimodal behavior that allow artificial agents to engage into a relevant co-verbal communication with a human partner. While the immense majority of the works in the field of human-agent interaction (HAI) is scripted using ruled-based models, our approach relies on the training of statistical models from tracks collected during exemplary interactions, demonstrated by human trainers. In this context, we introduce "sensorimotor" models of behavior, which perform at the same time the recognition of joint cognitive states and the generation of the social signals in an incremental way. In particular, the proposed models of behavior have to estimate the current unit of interaction ( IU) in which the interlocutors are jointly committed and to predict the co-verbal behavior of its human trainer given the behavior of the interlocutor(s). The proposed models are all graphical models, i.e. Hidden Markov Models (HMM) and Dynamic Bayesian Networks (DBN). The models were trained and evaluated - in particular compared with classic classifiers - using datasets collected during two different interactions. Both interactions were carefully designed so as to collect, in a minimum amount of time, a sufficient number of exemplars of mutual attention and multimodal deixis of objects and places. Our contributions are completed by original methods for the interpretation and comparative evaluation of the properties of the proposed models. By comparing the output of the models with the original scores, we show that the HMM, thanks to its properties of sequential modeling, outperforms the simple classifiers in term of performances. The semi-Markovian models (HSMM) further improves the estimation of sensorimotor states thanks to duration modeling. Finally, thanks to a rich structure of dependency between variables learnt from the data, the DBN has the most convincing performances and demonstrates both the best performance and the most faithful multimodal coordination to the original multimodal events.L'interaction face-à-face représente une des formes les plus fondamentales de la communication humaine. C'est un système dynamique multimodal et couplé – impliquant non seulement la parole mais de nombreux segments du corps dont le regard, l'orientation de la tête, du buste et du corps, les gestes faciaux et brachio-manuels, etc – d'une grande complexité. La compréhension et la modélisation de ce type de communication est une étape cruciale dans le processus de la conception des agents interactifs capables d'engager des conversations crédibles avec des partenaires humains. Concrètement, un modèle de comportement multimodal destiné aux agents sociaux interactifs fait face à la tâche complexe de générer un comportement multimodal étant donné une analyse de la scène et une estimation incrémentale des objectifs conjoints visés au cours de la conversation. L'objectif de cette thèse est de développer des modèles de comportement multimodal pour permettre aux agents artificiels de mener une communication co-verbale pertinente avec un partenaire humain. Alors que l'immense majorité des travaux dans le domaine de l'interaction humain-agent repose essentiellement sur des modèles à base de règles, notre approche se base sur la modélisation statistique des interactions sociales à partir de traces collectées lors d'interactions exemplaires, démontrées par des tuteurs humains. Dans ce cadre, nous introduisons des modèles de comportement dits "sensori-moteurs", qui permettent à la fois la reconnaissance des états cognitifs conjoints et la génération des signaux sociaux d'une manière incrémentale. En particulier, les modèles de comportement proposés ont pour objectif d'estimer l'unité d'interaction (IU) dans laquelle sont engagés de manière conjointe les interlocuteurs et de générer le comportement co-verbal du tuteur humain étant donné le comportement observé de son/ses interlocuteur(s). Les modèles proposés sont principalement des modèles probabilistes graphiques qui se basent sur les chaînes de markov cachés (HMM) et les réseaux bayésiens dynamiques (DBN). Les modèles ont été appris et évalués – notamment comparés à des classifieurs classiques – sur des jeux de données collectés lors de deux différentes interactions face-à-face. Les deux interactions ont été soigneusement conçues de manière à collecter, en un minimum de temps, un nombre suffisant d'exemplaires de gestion de l'attention mutuelle et de deixis multimodale d'objets et de lieux. Nos contributions sont complétées par des méthodes originales d'interprétation et d'évaluation des propriétés des modèles proposés. En comparant tous les modèles avec les vraies traces d'interactions, les résultats montrent que le modèle HMM, grâce à ses propriétés de modélisation séquentielle, dépasse les simples classifieurs en terme de performances. Les modèles semi-markoviens (HSMM) ont été également testé et ont abouti à un meilleur bouclage sensori-moteur grâce à leurs propriétés de modélisation des durées des états. Enfin, grâce à une structure de dépendances riche apprise à partir des données, le modèle DBN a les performances les plus probantes et démontre en outre la coordination multimodale la plus fidèle aux évènements multimodaux originaux

    Réseau fonctionnel d'analyse du risque en milieu d'intervention auprès de personnes vulnérables

    Full text link
    Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal

    Géosimulation multi-niveau de phénomènes complexes basés sur les multiples interactions spatio-temporelles de nombreux acteurs : développement d'un outil générique d'aide à la décision pour la propagation des zoonoses

    Get PDF
    Nous proposons dans cette thèse une nouvelle approche de géosimulation multi-niveau permettant de simuler la propagation d’une zoonose (maladie infectieuse qui se transmet des animaux aux humains) à différents niveaux de granularité. Cette approche est caractérisée entre autres par l’utilisation d’un modèle théorique original que nous avons nommé MASTIM (Multi-Actor Spatio-Temporal Interaction Model) permettant de simuler des populations contenant un nombre considérable d’individus en utilisant des modèles compartimentaux enrichis. MASTIM permet de spécifier non seulement l’évolution de ces populations, mais également les aspects relatifs aux interactions spatio-temporelles de ces populations incluant leurs déplacements dans l’environnement de simulation géoréférencé. Notre approche de géosimulation multi-niveau est caractérisée également par l’utilisation d’un environnement géographique virtuel informé (IVGE) qui est composé d’un ensemble de cellules élémentaires dans lesquelles les transitions des différents stades biologiques des populations concernées, ainsi que leurs interactions peuvent être plausiblement simulées. Par ailleurs, nous avons appliqué nos travaux de recherche au développement d’outils d’aide à la décision. Nous avons acquis une première expérience avec le développement d’un outil (WNV-MAGS) dont l’objectif principal est de simuler les comportements des populations de moustiques (Culex) et des oiseaux (corneilles) qui sont impliquées dans la propagation du Virus du Nil Occidental (VNO). Nous avons par la suite participé au développement d’un outil générique (Zoonosis-MAGS) qui peut être utilisé pour simuler la propagation d'une variété de zoonoses telles que la maladie de Lyme et le VNO. Ces outils pourraient fournir des informations utiles aux décideurs de la santé publique et les aider à prendre des décisions informées. En outre, nous pensons que nos travaux de recherche peuvent être appliqués non seulement au phénomène de la propagation des zoonoses, mais également à d’autres phénomènes faisant intervenir des interactions spatio-temporelles entre différents acteurs de plusieurs types.We propose in this thesis a new multi-level geosimulation approach to simulate the spread of a zoonosis (infectious disease transmitted from animals to humans) at different levels of granularity. This approach is characterized by using an original theoretical model named MASTIM (Multi-Actor Spatio-Temporal Interaction Model) which can be applied to simulate populations containing a huge number of individuals using extended compartmental models. MASTIM may specify not only the evolution of these populations, but also the aspects related to their spatio-temporal interactions, including their movements in the simulated georeferenced environment. Our multi-level geosimulation approach take advantage of an informed virtual geographic environment (IVGE) composed of a set of elementary cells in which the transitions of the different biological stages of the involved populations, as well as their interactions can be simulated plausibly. Furthermore, this approach has been applied to develop decision support tools. We got a first experience with the development of WNV-MAGS, a tool whose main purpose is to simulate the populations’ behavior of mosquitoes (Culex) and birds (crows), which are involved in the spread of West Nile Virus (WNV). We subsequently participated in the development of a generic tool (Zoonosis-MAGS) that can be used to simulate the spread of a variety of zoonoses such as Lyme disease and WNV. These tools may provide useful information to help public health officers to make informed decisions. Besides, we believe that this research can be applied not only to the spread of zoonoses, but also to other phenomena involving spatio-temporal interactions between different actors of different types

    Une approche autonome pour la gestion logicielle des espaces intelligents

    Get PDF
    Depuis une vingtaine d'années, les développements dans les technologies de l'information ont fait évoluer les paradigmes de l'informatique. L'arrivée d'approches telles que l'informatique diffuse et l'intelligence ambiante ont fait émerger de nouvelles technologies permettant d'améliorer la qualité des interactions avec les systèmes informatisés. Entre autres, l'application de l'informatique diffuse et de l'intelligence ambiante à des environnements tels que des habitats, les espaces intelligents, offre des milieux où une assistance contextualisée est offerte aux utilisateurs dans la réalisation de leurs activités quotidiennes. Toutefois, la démocratisation de l'informatique diffuse et la mise en place des espaces intelligents rencontrent un bon nombre de problèmes. Le nombre important de composantes matérielles et logicielles, les dépendances entre celles-ci et leurs natures hétérogènes contribuent à la complexité de déploiement et de gestion de ces milieux, entraînant des coûts élevés. Cette thèse vise à contribuer à la gestion logicielle des espaces intelligents par la réduction de la complexité des tâches de gestion. Notre proposition consiste en une approche autonome de la gestion logicielle, fondée sur l'approche de l'informatique diffuse autonome. L'objectif est de fournir un ensemble de fonctionnalités et de mécanismes permettant de rendre autonome la majeure partie des tâches de gestion des logiciels déployés dans des espaces intelligents. Dans le cadre de ce travail, nous proposons une solution permettant l'organisation autonome des logiciels des espaces intelligents. Ainsi, cette solution utilise les informations contextuelles des milieux afin de déterminer quelle répartition des logiciels parmi les appareils des milieux correspond le mieux aux besoins des applications, aux caractéristiques propres des environnements et, non le moindre, aux modalités et préférences d'interaction des utilisateurs de ces milieux. La solution proposée a été implémentée et évaluée à l'aide d'une série de tests et de mises en situation d'organisation logicielle. Les contributions de ce travail à l'état de l'art de la gestion des espaces intelligents sont multiples avec comme principales innovations la présentation d'une vision de l'informatique diffuse autonome, l'implémentation d'un intergiciel d'organisation logicielle autonome basé sur une sensibilité au contexte macroscopique et microscopique et l'intégration des modalités d'interaction des utilisateurs dans le raisonnement portant sur l'organisation des logiciels. Enfin, ce travail de thèse se déroule dans le contexte des recherches du laboratoire DO-MUS de l'Université de Sherbrooke, Canada, et du laboratoire Handicom de Telecom SudParis, France. Ces deux laboratoires travaillent à la conception de solutions permettant d' améliorer la qualité de vie et l' autonomie de personnes dépendantes, atteinte par exemple de troubles cognitifs ou de handicaps physiques
    corecore