Application de la quantification vectorielle a la reconnaissance de la parole

Abstract

On sait que l'analyse de la parole est effectuée sur des tranches de l'ordre de 10 ms : les paramètres associés à une tranche constituent un vecteur spectral. L'expérience montre que l'ensemble des vecteurs spectraux peut être partitionné en un nombre fini de classes M : les vecteurs xj(i) appartenant à une même classe i sont représentés par un vecteur "moyen" C. appelé "centroïde". Les vecteurs sont classés de façon à minimiser la distorsion totale, c'est-à-dire la somme étendue à tous les vecteurs de la distance entre xj(i) et C.. La distance entre deux vecteurs spectraux est la distance d'ITAKURA liée aux paramètres issus de la prédiction linéaire (LPC) ou encore la distance cepstrale. Une classification dite par "éclatements binaires" a été choisie; elle permet une quantification très rapide (mais sous-optimale) des mots à reconnaître; cet algorithme est brièvement décrit et on précise la valeur obtenue pour la distorsion totale en fonction du nombre de classes. Quant à la qualité effective de la classification, elle est déterminée par les résultats obtenus pour la reconnaissance de la parole. On donne les résultats obtenus pour deux méthodes de reconnaissance : la comparaison dynamique des vecteurs spectraux et la méthode basée sur une modélisation de chaque mot par un automate probabiliste

    Similar works

    Full text

    thumbnail-image

    Available Versions