4 research outputs found

    Amélioration de la robustesse des systèmes de reconnaissance automatique du locuteur dans l'espace des i-vecteurs

    Get PDF
    Les systèmes nec plus ultra de reconnaissance du locuteur adoptent la représentation de la parole dans l’espace des i-vecteurs. Un i-vecteur n’est qu’un simple vecteur de faible dimension (typiquement dans les centaines) représentant une vaste gamme d’information véhiculée par le signal vocal. Bien que les performances de ces systèmes en matière des taux de reconnaissance aient atteint un niveau très avancé, une meilleure exploitation de ces systèmes dans les milieux réels de tous les jours nécessite encore plus d'efforts de la part des chercheurs en la matière. Dans le cadre de cette thèse, notre objectif principal est d'améliorer la robustesse des systèmes de reconnaissance du locuteur opérant dans l’espace des ivecteurs. Dans la première partie de ce travail, nous nous intéressons à la tâche de la vérification du locuteur. Nous nous focalisons plus particulièrement sur la conception d’un système de vérification à la fois indépendant du type du canal de transmission/enregistrement et du genre du locuteur. Dans le contexte des i-vecteurs, les classificateurs génératifs, tels que l’analyse discriminante linéaire probabiliste (PLDA), ont dominé le domaine de la reconnaissance du locuteur. Néanmoins, de simples classificateurs à base de la similarité angulaire du cosinus (SAC) restent concurrentiels. Ainsi, nous avons proposé dans cette partie deux solutions rendant respectivement les systèmes à base des deux classificateurs de l’état de l’art (le PLDA et la SAC) indépendants du type du canal et du genre du locuteur. En effet, nos systèmes conçus de la sorte sont considérés comme les deux premiers systèmes de vérification du locuteur atteignant les résultats de l’état de l’art (environ 2 % d’EER pour la parole téléphonique et 3 % pour la parole microphonique) sans pour autant profiter ni de l’information concernant le type du canal ni de celle concernant le genre du locuteur. Le regroupement en locuteurs est une autre tâche de la reconnaissance du locuteur qui représente notre centre d’intérêt dans la seconde partie de cette thèse. À nouveau, nos recherches seront menées uniquement dans le contexte de la représentation de la parole par des i-vecteurs. À vrai dire, il existe deux types d’applications à base du regroupement en locuteurs, soit, le regroupement en locuteurs des grands corpora des fichiers vocaux (speaker clustering) et la structuration en tours de parole d’un flux audio (speaker diarization). Une nouvelle version de l’algorithme non paramétrique de décalage de la moyenne (Mean Shift, MS) a été proposée afin de faire face au problème du regroupement en locuteurs. Nous avons démontré que les performances de notre nouvelle version de l’algorithme de MS à base de la distance angulaire du cosinus dépassent ceux de la version de base, une fois testés face à la tâche du regroupement en locuteurs. Le même algorithme nous a permis d’obtenir les résultats de l’état de l’art (DER égal à 12,4 %) de la structuration en tours de parole du corpus des données téléphoniques CallHome
    corecore