Analyse et reconnaissance des manifestations acoustiques des émotions de type peur en situations anormales

Abstract

Cette thèse aborde le problème de la reconnaissance des émotions dans la parole. Nous avons choisi de centrer notre étude sur un type de manifestations émotionnelles jusqu'alors peu étudié dans le domaine du traitement de la parole: les émotions de type peur en situations anormales. Les situations anormales correspondent ici à des événements imprévus, constituant une menace pour la vie humaine. Cette étude est motivée par une application nouvelle dans le domaine de la reconnaissance d'émotions: la sécurité civile. Le point de départ de ce travail a consisté en la définition et en l'acquisition d'un matériel d'étude illustrant des émotions extrêmes de type peur, dans des contextes de menace. Le corpus SAFE (Situation Analysis in a Fictional and Emotional corpus) développé à cet effet utilise comme source le cinéma de fiction. Il consiste en 400 séquences audiovisuelles d une durée totale de 7 heures. Une stratégie d'annotation adaptée à la tâche de surveillance et intégrant plusieurs niveaux de description (niveau contextuel et niveau émotionnel) a été mise en place. Le système de reconnaissance des émotions, développé sur ce corpus, traite un grand nombre de locuteurs inconnus, dans des environnements sonores et contextes variés. Il consiste en une classification peur/neutre. L'originalité de la méthode repose sur une modélisation dissociée des contenus voisé et non voisé du signal de parole, les deux contenus étant ensuite fusionnés à l'étape de décision du système de classification. Les résultats obtenus sont très encourageants compte tenu de la diversité des données et de la complexité du phénomène à reconnaître : le taux d'erreur avoisine les 30%.This thesis addresses the issue of automatic emotion recognition in speech. We focus on a type of emotional manifestations which has been rarely studied in speech processing : fear-type emotions occurring in abnormal situations. Abnormal situations correspond here to unplanned events implying human life threatening. This study is dedicated to a new application in emotion recognition - civil safety. The starting point of this work has consisted in the definition and collect of data illustrating extreme emotional manifestations in threat contexts. With this purpose we have developed the SAFE corpus (Situation Analysis in a Fictional and Emotional corpus) based on fiction movies. It consists of 7 hours of recordings organized in 400 audiovisual sequences. We have defined a task-dependent annotation strategy including various description levels (contextual and emotional). The emotion recognition system is based on these data and has to handle a large scope of unknown speakers and situations in noisy sound environments. It consists on a fear vs. neutral classification. The novelty of our approach relies on a dissociated modelling of the voiced and unvoiced contents of speech. The two contents are then merged at the decision step of the classification system. The results are quite optimistic given the complexity and the diversity of the data: the error rate is about 30%.PARIS-CNAM (751032301) / SudocPARIS-Télécom ParisTech (751132302) / SudocSudocFranceF

    Similar works

    Full text

    thumbnail-image

    Available Versions

    Last time updated on 14/06/2016