unknown

Variable-rate speech coding: Replacing unvoiced excitations by linear prediction residues of different phonemes

Abstract

Afin de réduire le débit binaire de la transmission de la parole sans perte de qualité de celle-ci, nous développons un vocodeur qui utilise des méthodes differentes pour le codage des trames voisées et non voisées. Nous présentons ici une nouvelle idée de décrire des phonèmes fricatifs (sifflantes) et plosifs avec seulement 20 bit par trame de t = 20ms. Nous montrons que ces phonèmes peuvent être représentés par des coefficients de la prédiction linéaire combinés avec un signal résiduel extrait d'un autre phonème prononcé par une personne differente connue à la station réceptrice du système de codage (voir figure 1). La présente contribution décrit aussi des algorithmes qui garantissent des transitions douces dans d'autres catégories de phonèmes. En appliquant cette technique on peut considérablement réduire le débit de transmission (jusqu'à 1 kbit/seconde) pour les trames non voisées. Nous obtenons de meilleurs résultats qu'en utilisant des variantes de CELP (prédiction linéaire excitée par une table de codage) à 4 kbit/seconde. La combinaison de ce codage avec des méthodes de codage harmonique (par exemple le MBE: 'Multiband Excitation') pour les trames voisées resulte en un débit binaire variable de moins de 3 kbit/seconde

    Similar works