Intégration des variantes de prononciation pour les systèmes de transcription et dialogue homme-machine

DE MORI, Renato; MASSONIE, Dominique

Intégration des variantes de prononciation pour les systèmes de transcription et dialogue homme-machine

Authors: Renato DE MORI
Dominique MASSONIE
Publication date: 1 January 2005
Publisher

Abstract

La qualité des résultats obtenus par les systèmes de Reconnaissance Automatique de la Parole (RAP) encourage leur intégration dans des applications de dialogue Homme-machine. L'accès à des annuaires téléphoniques de très grandes tailles (Assistance-Annuaire), auquel ce travail de thèse est consacré, constitue une application type. Une des difficultés majeures de ce service se situe au niveau de la variabilité de prononciation des noms (et prénoms) de l'annuaire. D'une part, le système doit gérer de très longues listes de noms, qui induisent des problèmes de ressource et de modélisation. D'autre part, l'utilisateur peut ne pas connaître précisément la prononciation ou l'orthographe du nom recherché.La littérature est riche en travaux traitant des problèmes liés à la modélisation des variantes de prononciation. La modélisation lexicale et son intégration aux systèmes de RAP est rappelée en introduction de notre travail de thèse. Une première contribution porte sur l'évaluation des hypothèses (de noms) générées par le moteur de reconnaissance. Le cas des noms propres est un problème particulier que nous abordons de manière originale, à travers l'ajout d'une mesure de confiance calculée sans utiliser de connaissance à priori. Cette mesure permet d'écarter les hypothèses non valides et, surtout, d'optimiser la stratégie de décision du gestionnaire de dialogue. Les choix pour la poursuite du dialogue sont en effet déterminés par les confiances attibuées aux différentes hypothèses. Ce travail a été mené en collaboration avec France Télécom, dans le cadre du projet européen SMADA du programme IST. Une seconde contribution présente une nouvelle méthode d'intégration au plus tôt de l'information lexicale dans le processus de reconnaissance, par anticipation du modèle de langage, particulièrement adaptée aux applications dites temps-réel. Les résultats obtenus ont été validés dans le cadre de la campagne d'évaluation ESTERThe large vocabulary continuous speech recognition systems performance has been improving for years but their successfull application into production ready dialogue systems remains a great challenge. Two notables limiting factors are the user interest in using an automatic system, at the lowest possible cost, and the ability of the system provider to generate profit. Directory-Assistance services are known to match all the practical and technical conditions and enable wide research areas. An outstanding task is about the lexical modelization with the integration (or not) of all possible pronunciation variants. On the one hand, the system must manage huge words lists, mostly names and surnames. This produces problems for data modelization and handling. On the second hand, the user may not be aware of the right pronunciation form for the queried name (eg. non-native speaker).The problem of pronunciation variation modeling has been largely covered in the litterature. Our work introduces two new contributions to this field. The first one aims at integrating an utterence evaluation process into a decision strategy. This novel approach avoids using linguistic knowledge about pronunciation. Observed model distortions are automaticaly coupled with the dialogue manager as a confidence score. The experiments were carried out in collaboration with France Telecom as part of the SMADA project, from the european IST programme. Our results were elected as innovative and promoted by the CORDIS institution. The second contribution aims at integrating pronunciation information as soon as possible into the speech decoding process. A new computation scheme for language model look-ahead is introduced based on a divide and conquer strategy. The experiments were carried out on a French Broadcast News corpus enabling our system to participate in the real-time speech decoding task of the ESTER evaluation campaignAVIGNON-BU Centrale (840072102) / SudocSudocFranceF

Similar works

Full text

Available Versions

OpenGrey Repository

Last time updated on 14/06/2016