Système portable de rehaussement de la parole attentif au bruit

Abstract

La reconnaissance vocale est une interface intéressante pour un système intelligent en environnement industriel, permettant une interaction naturelle sans interruption des activités. Il y a actuellement un besoin entre les applications traditionnelles à lexique étroit (de type commande et contrôle) robustes au bruit et les assistants vocaux modernes. Ceux-ci, utilisés à travers des appareils intelligents, souffrent grandement en présence de bruit et de réverbération. Le projet présenté par ce mémoire vise à combler cette lacune en fournissant un système portable de rehaussement de la voix adapté aux milieux industriels, de manière à pouvoir y communiquer aisément avec un système commercial de reconnaissance de la parole infonuagique. Ce mémoire présente la méthode KISS (Keep It Super Simple - « Garde ça super simple ») pour effectuer le pré-traitement (front-end) avec filtre spatial (beamformer) et ainsi rehausser un signal de parole multicanal capté par une matrice de microphones portable. KISS applique une approche intuitive de traitement de signal à l'estimation des matrices de covariance représentant la cible et l'interférence du système de rehaussement, une problématique qui est couramment solutionnée par des réseaux de neurones plus coûteux en calculs. De plus, puisque KISS ne requiert aucun entraînement avec un ensemble de données, la méthode est robuste face à des bruits inconnus et ne dépend pas d'une connaissance préalable de son environnement d'utilisation. La simplicité de calcul et l'intuitivité distinguant KISS d'autres méthodes à l'état de l'art sont à l'origine de son nom. Combinée à une méthode de filtrage spatial établie comme celle de décomposition en valeurs propres généralisée (Generalized Eigenvalue - GEV), le système proposé surpasse largement l'approche populaire de filtrage Délai-et-Somme (DS), tout en se basant uniquement sur la même information de direction d'arrivée de la cible. En effet, les résultats de l'évaluation de KISS-GEV en environnement simulé montrent une amélioration du rapport signal-à-distorsion (Signal to Distortion Ratio - SDR) de 5,7 dB et de 4,9 dB comparativement au signal original et à celui rehaussé par DS, respectivement. De plus, la viabilité de la solution a également été démontrée en environnement acoustique industriel réel, en utilisant une matrice de microphones embarquée fixée à un gilet de sécurité porté par un mannequin. L'évaluation de ce système a été réalisée à plusieurs emplacements d'un complexe industriel en simulant plusieurs locuteurs féminins et masculins. Les performances de rehaussement ont été évaluées avec un moteur de reconnaissance de la parole infonuagique, et le taux de reconnaissance moyen des mots (Word Recognition Rate - WRR) s'est avéré supérieur à 85 % avec la méthode KISS-GEV. De surcroît, dans les conditions les plus adverses, KISS-GEV va jusqu'à doubler le WRR comparativement au signal original ou à un rehaussement DS, ce qui transforme un résultat virtuellement inutilisable en une proportion suffisante de mots reconnus pour qu'une commande soit traitée par un assistant vocal

    Similar works