unknown

DIRA system architecture : from acoustics to linguistics

Abstract

This article describes the architecture and the operation of the DIRA (Integrated Dialogue and Automatic Recognition) continuous speech recognition system in its present stage of development . The DIRA system is a supervised multi-expert system . The supervisor dynamically arranges the tasks of its expert modules, which are each attached to one of the subdomains of the speech recognition problem, i .e. the acoustic/phonetic, the lexical-, the syntactic/semantic-, the prosodie- and ftnally the pragmatic domain . A blackboard serves as message interchange medium between these expert modules, as well as long-terra memory for the speech recognition process as a whole . The supervisor is an opportunistic planner : it reasons on the data present ai the blackboard and « calculâtes » the best strategy (a scheme for the activation the expert modules) to resolve the carrent problem . The operation of the individual expert modules is also addressed in this article : the APD's (Acoustic-Phonetic Decoders) with their knowledge bases represented as rules controlling the transitions in ATN's (Augmented Transition Networks), the linguistic analyzers using the same A TN concept and the principle of functional lexical grammars, the comprehensive analyzer founded on the principle of lexical priming and ftnally the rulebased prosodie analyzer . The operation of the speech recognition system is commented, while providing examples and test results .Cet article décrit l'architecture et le fonctionnement du système de reconnaissance de la parole DIRA (DIRA : Dialogue Intégré et Reconnaissance Automatique) dans son état actuel. Ce système est un système multi-experts supervisé . Le superviseur organise les tâches de ses experts qui sont attachés aux diverses sources de connaissances : acousticophonétiques, lexicales, syntaxico-sémantiques, prosodiques et pragmatiques . Le tableau noir sert de boîte à lettre pour la communication de messages entre les divers modules ainsi que de mémoire à long terme où toutes les hypothèses en cours de construction sont consignées . Le superviseur est un planificateur opportuniste : il raisonne sur les données présentes dans le tableau noir et « calcule » la stratégie la meilleure pour activer les experts. Les experts sont également décrits dans cet article : les DAP (décodages acoustico-phonétiques) avec leurs bases de connaissance représentées sous forme de règles qui contrôlent les transitions d'un ATN (Augmented Transition Network), les analyseurs linguistiques utilisant aussi le concept d'ATN compilé et la notion de grammaire lexicale fonctionnelle, la compréhension fondée essentiellement sur le phénomène d'amorçage sémantique et enfin l'analyseur prosodique à base de règles . La mise en ouvre de ce système est commentée à travers des exemples et les résultats de reconnaissance sont discutés

    Similar works