28 research outputs found

    Modèles de Markov cachés

    Get PDF
    Les modèles de Markov cachés (MMC) connaissent aujourd'hui un grand succès dans divers domaines d'application. Ils ont été initialement introduits dans la reconnaissance vocale par Baker (1975) et Rabiner (1989), et plus tard dans des domaines tels que l'analyse de séquences biologiques par R. Durbin et Mitchison (1998), l'ingénierie financière par Weigend et Shi (1997) et bien d'autres. Ils sont utilisés pour modéliser des séquences d'observations qualitatives ou quantitatives. La plupart des méthodes d'utilisation et de développement des MMC ont été développées dans le cadre de la reconnaissance vocale. Par la suite ces mêmes techniques ont été appliquées et adaptées à d'autres domaines. Notre objectif dans ce mémoire est de présenter une vue d'ensemble de la théorie des MMC à temps discret. Nous exposons les trois problèmes classiques et développons différents algorithmes susceptibles de les résoudre en effectuant de l'inférence sur les états du processus. Les différents algorithmes dont nous traitons sont : l'algorithme Forward-Backward développé par Rabiner et Juang (1986) pour le problème d'évaluation de l'état le plus probable de générer une observation particulière, ou "symbole", à un certain instant défini (évaluation), l'algorithme de Viterbi (1967) pour le problème de calcul de la trajectoire d'états la plus probable de générer une séquence d'observations (décodage) et finalement l'algorithme de Baum-Welch traité par Baum et Eagon (1967) pour la construction d'un modèle adapté aux séquences d'états ou d'observations à modéliser (apprentissage). Nous illustrons ensuite ces algorithmes en les appliquants à des exemples plus démonstratifs.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : États, séquences, symboles observables, processus de Markov à temps discret, MMC, algorithme Forward-Backward, algorithme de Viterbi, algorithme de Baulm-Welch, inférence

    Apprentissage statistique de modèles de comportement multimodal pour les agents conversationnels interactifs

    No full text
    Face to face interaction is one of the most fundamental forms of human communication. It is a complex multimodal and coupled dynamic system involving not only speech but of numerous segments of the body among which gaze, the orientation of the head, the chest and the body, the facial and brachiomanual movements, etc. The understanding and the modeling of this type of communication is a crucial stage for designing interactive agents capable of committing (hiring) credible conversations with human partners. Concretely, a model of multimodal behavior for interactive social agents faces with the complex task of generating gestural scores given an analysis of the scene and an incremental estimation of the joint objectives aimed during the conversation. The objective of this thesis is to develop models of multimodal behavior that allow artificial agents to engage into a relevant co-verbal communication with a human partner. While the immense majority of the works in the field of human-agent interaction (HAI) is scripted using ruled-based models, our approach relies on the training of statistical models from tracks collected during exemplary interactions, demonstrated by human trainers. In this context, we introduce "sensorimotor" models of behavior, which perform at the same time the recognition of joint cognitive states and the generation of the social signals in an incremental way. In particular, the proposed models of behavior have to estimate the current unit of interaction ( IU) in which the interlocutors are jointly committed and to predict the co-verbal behavior of its human trainer given the behavior of the interlocutor(s). The proposed models are all graphical models, i.e. Hidden Markov Models (HMM) and Dynamic Bayesian Networks (DBN). The models were trained and evaluated - in particular compared with classic classifiers - using datasets collected during two different interactions. Both interactions were carefully designed so as to collect, in a minimum amount of time, a sufficient number of exemplars of mutual attention and multimodal deixis of objects and places. Our contributions are completed by original methods for the interpretation and comparative evaluation of the properties of the proposed models. By comparing the output of the models with the original scores, we show that the HMM, thanks to its properties of sequential modeling, outperforms the simple classifiers in term of performances. The semi-Markovian models (HSMM) further improves the estimation of sensorimotor states thanks to duration modeling. Finally, thanks to a rich structure of dependency between variables learnt from the data, the DBN has the most convincing performances and demonstrates both the best performance and the most faithful multimodal coordination to the original multimodal events.L'interaction face-à-face représente une des formes les plus fondamentales de la communication humaine. C'est un système dynamique multimodal et couplé – impliquant non seulement la parole mais de nombreux segments du corps dont le regard, l'orientation de la tête, du buste et du corps, les gestes faciaux et brachio-manuels, etc – d'une grande complexité. La compréhension et la modélisation de ce type de communication est une étape cruciale dans le processus de la conception des agents interactifs capables d'engager des conversations crédibles avec des partenaires humains. Concrètement, un modèle de comportement multimodal destiné aux agents sociaux interactifs fait face à la tâche complexe de générer un comportement multimodal étant donné une analyse de la scène et une estimation incrémentale des objectifs conjoints visés au cours de la conversation. L'objectif de cette thèse est de développer des modèles de comportement multimodal pour permettre aux agents artificiels de mener une communication co-verbale pertinente avec un partenaire humain. Alors que l'immense majorité des travaux dans le domaine de l'interaction humain-agent repose essentiellement sur des modèles à base de règles, notre approche se base sur la modélisation statistique des interactions sociales à partir de traces collectées lors d'interactions exemplaires, démontrées par des tuteurs humains. Dans ce cadre, nous introduisons des modèles de comportement dits "sensori-moteurs", qui permettent à la fois la reconnaissance des états cognitifs conjoints et la génération des signaux sociaux d'une manière incrémentale. En particulier, les modèles de comportement proposés ont pour objectif d'estimer l'unité d'interaction (IU) dans laquelle sont engagés de manière conjointe les interlocuteurs et de générer le comportement co-verbal du tuteur humain étant donné le comportement observé de son/ses interlocuteur(s). Les modèles proposés sont principalement des modèles probabilistes graphiques qui se basent sur les chaînes de markov cachés (HMM) et les réseaux bayésiens dynamiques (DBN). Les modèles ont été appris et évalués – notamment comparés à des classifieurs classiques – sur des jeux de données collectés lors de deux différentes interactions face-à-face. Les deux interactions ont été soigneusement conçues de manière à collecter, en un minimum de temps, un nombre suffisant d'exemplaires de gestion de l'attention mutuelle et de deixis multimodale d'objets et de lieux. Nos contributions sont complétées par des méthodes originales d'interprétation et d'évaluation des propriétés des modèles proposés. En comparant tous les modèles avec les vraies traces d'interactions, les résultats montrent que le modèle HMM, grâce à ses propriétés de modélisation séquentielle, dépasse les simples classifieurs en terme de performances. Les modèles semi-markoviens (HSMM) ont été également testé et ont abouti à un meilleur bouclage sensori-moteur grâce à leurs propriétés de modélisation des durées des états. Enfin, grâce à une structure de dépendances riche apprise à partir des données, le modèle DBN a les performances les plus probantes et démontre en outre la coordination multimodale la plus fidèle aux évènements multimodaux originaux

    Apprentissage statistique de modèles de comportement multimodal pour les agents conversationnels interactifs

    Get PDF
    Face to face interaction is one of the most fundamental forms of human communication. It is a complex multimodal and coupled dynamic system involving not only speech but of numerous segments of the body among which gaze, the orientation of the head, the chest and the body, the facial and brachiomanual movements, etc. The understanding and the modeling of this type of communication is a crucial stage for designing interactive agents capable of committing (hiring) credible conversations with human partners. Concretely, a model of multimodal behavior for interactive social agents faces with the complex task of generating gestural scores given an analysis of the scene and an incremental estimation of the joint objectives aimed during the conversation. The objective of this thesis is to develop models of multimodal behavior that allow artificial agents to engage into a relevant co-verbal communication with a human partner. While the immense majority of the works in the field of human-agent interaction (HAI) is scripted using ruled-based models, our approach relies on the training of statistical models from tracks collected during exemplary interactions, demonstrated by human trainers. In this context, we introduce "sensorimotor" models of behavior, which perform at the same time the recognition of joint cognitive states and the generation of the social signals in an incremental way. In particular, the proposed models of behavior have to estimate the current unit of interaction ( IU) in which the interlocutors are jointly committed and to predict the co-verbal behavior of its human trainer given the behavior of the interlocutor(s). The proposed models are all graphical models, i.e. Hidden Markov Models (HMM) and Dynamic Bayesian Networks (DBN). The models were trained and evaluated - in particular compared with classic classifiers - using datasets collected during two different interactions. Both interactions were carefully designed so as to collect, in a minimum amount of time, a sufficient number of exemplars of mutual attention and multimodal deixis of objects and places. Our contributions are completed by original methods for the interpretation and comparative evaluation of the properties of the proposed models. By comparing the output of the models with the original scores, we show that the HMM, thanks to its properties of sequential modeling, outperforms the simple classifiers in term of performances. The semi-Markovian models (HSMM) further improves the estimation of sensorimotor states thanks to duration modeling. Finally, thanks to a rich structure of dependency between variables learnt from the data, the DBN has the most convincing performances and demonstrates both the best performance and the most faithful multimodal coordination to the original multimodal events.L'interaction face-à-face représente une des formes les plus fondamentales de la communication humaine. C'est un système dynamique multimodal et couplé – impliquant non seulement la parole mais de nombreux segments du corps dont le regard, l'orientation de la tête, du buste et du corps, les gestes faciaux et brachio-manuels, etc – d'une grande complexité. La compréhension et la modélisation de ce type de communication est une étape cruciale dans le processus de la conception des agents interactifs capables d'engager des conversations crédibles avec des partenaires humains. Concrètement, un modèle de comportement multimodal destiné aux agents sociaux interactifs fait face à la tâche complexe de générer un comportement multimodal étant donné une analyse de la scène et une estimation incrémentale des objectifs conjoints visés au cours de la conversation. L'objectif de cette thèse est de développer des modèles de comportement multimodal pour permettre aux agents artificiels de mener une communication co-verbale pertinente avec un partenaire humain. Alors que l'immense majorité des travaux dans le domaine de l'interaction humain-agent repose essentiellement sur des modèles à base de règles, notre approche se base sur la modélisation statistique des interactions sociales à partir de traces collectées lors d'interactions exemplaires, démontrées par des tuteurs humains. Dans ce cadre, nous introduisons des modèles de comportement dits "sensori-moteurs", qui permettent à la fois la reconnaissance des états cognitifs conjoints et la génération des signaux sociaux d'une manière incrémentale. En particulier, les modèles de comportement proposés ont pour objectif d'estimer l'unité d'interaction (IU) dans laquelle sont engagés de manière conjointe les interlocuteurs et de générer le comportement co-verbal du tuteur humain étant donné le comportement observé de son/ses interlocuteur(s). Les modèles proposés sont principalement des modèles probabilistes graphiques qui se basent sur les chaînes de markov cachés (HMM) et les réseaux bayésiens dynamiques (DBN). Les modèles ont été appris et évalués – notamment comparés à des classifieurs classiques – sur des jeux de données collectés lors de deux différentes interactions face-à-face. Les deux interactions ont été soigneusement conçues de manière à collecter, en un minimum de temps, un nombre suffisant d'exemplaires de gestion de l'attention mutuelle et de deixis multimodale d'objets et de lieux. Nos contributions sont complétées par des méthodes originales d'interprétation et d'évaluation des propriétés des modèles proposés. En comparant tous les modèles avec les vraies traces d'interactions, les résultats montrent que le modèle HMM, grâce à ses propriétés de modélisation séquentielle, dépasse les simples classifieurs en terme de performances. Les modèles semi-markoviens (HSMM) ont été également testé et ont abouti à un meilleur bouclage sensori-moteur grâce à leurs propriétés de modélisation des durées des états. Enfin, grâce à une structure de dépendances riche apprise à partir des données, le modèle DBN a les performances les plus probantes et démontre en outre la coordination multimodale la plus fidèle aux évènements multimodaux originaux

    Modélisation d'un usager de jeu vidéo avec un modèle de Markov caché

    Get PDF
    Le succès de l'utilisation du modèle de Markov caché dans des domaines comme le traitement des images, la biologie, la médecine et la robotique, est principalement dû à la possibilité qu'il offre d'obtenir des traitements efficaces et de construire des modèles par apprentissage automatique, même pour d'importantes masses de données. L'objectif de cette mémoire est de d'évaluer l'adéquation et l'efficacité de ce modèle pour modéliser les activités d'utilisateurs de jeux vidéo. Dans ce mémoire, nous avons choisi le jeu Pacman pour mener notre étude. Ce jeu présente un intérêt particulier car les décisions de déplacement et les stratégies utilisées par les joueurs sont basées sur des contraintes liées à l'environnement du jeu (les fantômes, les points, les pastilles, les fruits...). Nous avons choisi d'appliquer le modèle de Markov caché pour modéliser le contrôle du Pacman par un joueur. Notre premier objectif est de prédire la stratégie utilisée par le joueur pendant des parties de jeu. Pour cette tâche, nous avons utilisé seulement le modèle du Markov caché, Notre deuxième objectif est de tenter d'identifier un joueur à partir d'épisodes de jeux. Pour cette deuxième tâche, nous avons combiné un modèle de Markov caché avec une méthode de classification pour obtenir nos résultats. D'après les résultats obtenus dans nos travaux, nous pouvons affirmer que ces modèles se révèlent efficaces pour la reconnaissance d'activités dans des jeux vidéo

    Reconnaissance automatique des émotions à partir du signal acoustique

    Get PDF
    Nous nous intéressons à la détection automatique des appels problématiques dans un contexte réel de centres d'appels téléphoniques. Nous utilisons l'information sur l'état émotionnel du locuteur, véhiculée par le signal acoustique, pour détecter les problèmes de compréhension entre un locuteur et un système de dialogue humain-machine. Notre contribution se situe à deux niveaux. Au premier niveau, nous avons développé un système de reconnaissance automatique des émotions (RAE) basé sur les traits de type MFCC, avec la célérité et l'accélération, extraits au niveau d'une trame, analysés à l'échelle d'un énoncé, et modélisés par un mélange de gaussiennes. Nous avons optimisé les performances de ce système en ajustant trois types de paramètres : le nombre de mélanges de gaussiennes, l'utilisation de coefficients MFCC d'ordre supérieur (20 versus 13 coefficients) et l'utilisation d'un modèle du monde (UBM) pour l'entraînement des modèles GMM. Le système a été entraîné et testé pour reconnaître les classes des émotions du corpus de données LDC Emotional Prosody (LDC). D'après les résultats obtenus, nous avons apporté une amélioration de l'ordre de 11% par rapport aux meilleurs résultats de l'état de l'art utilisant le même corpus de données pour l'expérience neutre vs tristesse alors que nous avons reproduit les meilleures performances pour l'expérience neutre vs colère et pour rexpérience avec 15 classes d'émotions. Notre seconde contribution est l'expérimentation d'un nouveau modèle de système de RAE basé sur l'information prosodique à long terme obtenue par une approximation des courbes de l'énergie et de la fréquence fondamentale par des coefficients de polynômes de Legendre sur une échelle d'analyse appelée pseudosyllabe. Afin de mesurer l'efficacité de ce type de trait à long terme et de l'unité d'analyse, nous avons réalisé une comparaison de performance entre ce système et un système exploitant l'information prosodique à court terme (niveau de trame) sur l'échelle d'un énoncé. Les taux de reconnaissance obtenus avec"un système basé sur la pseudosyllabe et les coefficients de polynômes de Legendre et expérimenté avec le corpus LDC, sont nettement supérieurs à ceux d'un système basé sur Vénoncé et l'information à court terme. Le gain relatif réalisé est de l'ordre de 6% pour la reconnaissance des émotions neutre vs colère, tandis que ce gain est de l'ordre 91% pour neutre vs tristesse. Enfin, nous avons obtenu une amélioration de l'ordre de 41% pour la détection de 15 classes d'émotions

    Utilisation de la transformée de Fourier et de la transformée en ondelettes pour la reconnaissance du locuteur

    Get PDF
    Ce travail porte sur l'utilisation de la transformée en ondelettes pour la vérification du locuteur en mode de texte dépendant. Nous avons étudié deux approches dans le cadre de ce sujet: (a) La première est basée sur l'utilisation de la méthode MFDWC (Mel Frequency Discrete Wavelet Coefficients) faisant usage des filtres de Daubechies d'ordres fixe, et d'ordres adaptés au sens de certains critères d'entropies. (b) La deuxième approche est basée sur l'utilisation de l'algorithme de sélection de la meilleure base d'ondelettes au sens du critère d'entropie de Shannon non normalisé. Nous avons proposé dans le cadre de cette approche un algorithme de construction du meilleur arbre du locuteur. Nous avons nommé cet algorithme MAL (Meilleur arbre du locuteur). Cette méthode permet de construire une librairie d'arbres admissibles à partir des phrases d'entraînement. Chaque arbre admissible correspond à un locuteur. Nous avons testé les performances de reconnaissance en effectuant des expériences sur (60) locuteurs. Ces derniers sont extraits de la base de données de Yoho. Finalement, les résultats des deux méthodes ont été comparés avec ceux de la méthode MFCC (Mel Frequency Cepstral Coefficient)

    Analyse de signaux musicaux multipitch

    Get PDF
    Ce mémoire de maîtrise traite de la séparation multipitch dans un signal polyphonique (en particulier les accords de guitare). Le but est de déterminer le nombre et la valeur des fréquences fondamentales présentes dans un tel signal. Pour résoudre une telle problématique, on s'est basé sur des techniques de traitement de signal, mais aussi sur des connaissances acoustiques et musicales. Le problème se concentre sur l'extraction de paramètres tels que le début de la note ou de l'accord joué, sa longueur et sa composition, dans laquelle on va retrouver les informations sur les fréquences fondamentales. La méthode développée est décomposée en 2 étages. Premièrement, à l'aide de la dérivée de l'enveloppe temporelle, le signal est segmenté dans le temps. Cela permet donc de séparer les différents accords joués. Ensuite, une procédure itérative basée sur la détection et la soustraction des raies spectrales est appliquée au spectre d'amplitude pour estimer les possibles fréquences fondamentales ou harmoniques. Afin d'améliorer la résolution fréquentielle de la transformée utilisée ( TFD ), une méthode d'interpolation fréquentielle est appliquée autour des harmoniques détectées dans le spectre."--Résumé abrégé par UMI

    Contribution au pronostic de défaut dans les systèmes complexes par les techniques intelligentes

    Get PDF
    Nous avons présenté une nouvelle approche basée sur l'utilisation d'une méthode guidée par les données pour le pronostic des défauts. Cette méthode requiert des données décrivant le processus de dégradation. Lorsque les données sont insuffisantes, la prédiction des états devient difficile avec les modèles profonds de type mémoire à long terme (LSTM), qui nécessitent une quantité importante de données d'apprentissage. Pour résoudre ce problème de rareté des données dans la prédiction de la durée de vie restante (RUL), nous proposons d'adopter une stratégie d'augmentation des données. Les résultats obtenus sont démontrent que l'application d'une stratégie d'augmentation des données, peut améliorer les performances de prédiction de la RUL en utilisant les techniques LSTM. Nous avons validé cette approche en utilisant les données de la NASA Commercial Modular Aero-Propulsion System Simulation (C-MAPPS)

    Surveillance des centres d'usinage à grande vitesse par approche cyclostationnaire et vitesse instantanée

    Get PDF
    La surveillance des centres d'usinage à grande vitesse, est un facteur clé pour accroître la disponibilité des machines. Cette mesure permet d'atteindre un niveau de robustesse des processus d'usinage plus élevé. Les défaillances dans le processus d'usinage et les composants des machines-outils peuvent générer des effets négatifs sur la finition du produit et l'instabilité du processus d'usinage. C'est le contexte dans lequel s'inscrit ce travail de recherche. Notre premier objectif est d'étudier les apports de la cyclostationnarité au diagnostic vibratoire des centres d'usinage à grande vitesse. Le deuxième objectif est d'explorer la possibilité de détection du broutage en se basant sur l'analyse des signaux de vitesse angulaire instantanée. Ce type de signal est calculé à partir du signal délivré par le codeur interne monté sur la broche. Développer une nouvelle procédure de détection du broutage dans les machines à grande vitesse, représente le troisième objectif de cette thèse. Cette procédure combine les techniques de traitement du signal et les techniques d'intelligence artificielle

    Prédiction et reconnaissance d'activités dans un habitat intelligent basées sur les séries temporelles et la fouille de données temporelles

    Get PDF
    L'assistance traditionnelle d'une personne atteinte de la maladie d'Alzheimer est une tâche difficile, coûteuse et complexe. La nécessité d’avoir une personne aidante presque tout le temps avec le patient épuise les ressources humaines et financières du système de santé. De plus, la relation est souvent compliquée entre l'aidant et le patient qui souhaite préserver son intimité. L'émergence du domaine de l'intelligence ambiante a permis la conception d’une assistance technologique où un agent artificiel, appelé aussi agent ambiant, vient aider et diminuer le temps passé par l’aidant dans l’habitat du patient. Comme dans l’assistance traditionnelle, l’agent ambiant observe le patient ou son environnement en analysant les mesures envoyées par les différents senseurs installés dans la maison qui est nommée par ce fait un habitat intelligent. Préférablement d’une façon non supervisée, l’agent ambiant se doit d’apprendre le comportement normal du patient qui peut se traduire par la création d’une structure qui définit les différentes activités de la vie quotidienne (AVQ) que le patient est habitué à effectuer. Ensuite, grâce à l’heure courante et aux récentes actions détectées, l’agent ambiant va essayer de reconnaître l’activité entamée par le patient pour être en mesure de détecter des erreurs et proposer de l’aide en comparant les comportements normaux aux récentes actions détectées. Plusieurs problèmes caractérisent cette nouvelle assistance, mais le plus grand défi de cette solution, qui réside dans l’étape de reconnaissance d’activités, est causé par le nombre très élevé des AVQs que nous appelons aussi le nombre d'hypothèses. En effet, comme chaque activité se compose de plusieurs actions, la reconnaissance d’activités se traduit donc par la recherche des récentes actions détectées parmi toutes les actions de toutes les AVQs, et ce, en temps réel. Dans cette thèse, nous proposons des contributions dans les différentes étapes de l’assistance technologique. Nous répondons essentiellement à la problématique de la reconnaissance d’activités par la réduction maximale, à un instant précis, du nombre d'hypothèses. Tout d’abord, nous explorons la fouille de données temporelles et nous présentons notre propre algorithme de création de comportements normaux d’une façon non supervisée. L’algorithme analyse l'historique des senseurs activés afin de découvrir les motifs fréquents fermés qui représentent les modèles d’activités. Ensuite, nous explorons les séries temporelles pour choisir la technique de prédiction la plus adéquate à la prédiction des temps de débuts des différentes AVQs. Une méthode probabiliste est détaillée par la suite pour réduire le nombre d’hypothèses et reconnaître l’activité entamée. Nous terminons notre approche par l’utilisation des séries temporelles multivariées pour la prédiction du temps d’activation de chaque senseur de l’activité reconnue, ce qui aide l’agent ambiant à bien choisir le moment d’intervention pour proposer de l’aide, si nécessaire. Notre approche se base essentiellement sur l'aspect temporel et n'offre pas juste une solution à la problématique de la reconnaissance d'activités, mais elle répond aussi à différentes erreurs, dont celles susceptibles d'être commises par les malades d’Alzheimer comme les erreurs d'initiations qui les empêchent d’amorcer des activités. La validation de notre approche et les tests de ses différentes étapes ont été effectués avec des données réelles enregistrées dans le Laboratoire d’Intelligence Ambiante pour la Reconnaissance d’Activités (LIARA) et les résultats sont satisfaisants
    corecore