8 research outputs found

    Acoustic-phonetic decoding of speech : problems and solutions

    Get PDF
    Acoustic phonetic decoding of speech recognition constitutes a major step in the process of continuous speech recognition . This paper reminds the difficulties of the problem together with the main methods proposed so far in order to solve it . We then concentrate on the différent complementary approaches Chat have been investigated by our group : expert system based on spectrogram reading, recognition by phonetic triphones, connectionist model based on the cortical column unit and stochastic recognition without segmentation .Le décodage acoustico-phonétique constitue une étape importante en reconnaissance de la parole continue . Cet article rappelle d'abord les difficultés du problème et les principales méthodes qui ont été proposées pour le résoudre . Il présente ensuite les diverses approches complémentaires adoptées par notre équipe : système expert fondé sur l'activité de lecture de spectrogrammes, reconnaissance par triplets phonétiques, modèle connexionniste de colonne corticale et reconnaissance par méthode stochastique sans segmentation

    Formalizing knowledge used in spectrogram reading : acoustic and perceptual evidence from stops

    Get PDF
    Also issued as Thesis (Ph. D.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 1988.Includes bibliographical references.Supported by the Defense Advanced Research Projects Agency, Vinton-Hayes, Bell Laboratories (GRPW), and Inference Corporation.Lori Faith Lamel

    Integration of analytical speech recognition system in a sonar console : towards a natural dialogue

    Get PDF
    We present in this paper the integration of a analytical speech recognition system to the control of a sonar console by a human operator . This application is really useful since il does correspond to a pratical need of the operator who has his eyes busy looking at the sonar screen . The DIAPASON system presents two original features the acoustic-phonetic decoding part of the system is not based on a classical phoneme labeling process but il yields for each segment of speech a set of acoustic phonetic labels that describe this segment very precisely . This phonetic labelling is associated with a special procedure for lexical access and sentences recognition ; - the DIAPASON system is moreover a genuine man-machine dialogue system and not only a system capable of understanding a single sentence as il is often the case . The history of the dialogue is used as a special knowledge source during the understanding process . Pragmatic knowledge is thus intimately associated with'the analysis of sentence ; this point highly encreas as the overall performance of the system . The paper presents the architecture of DIAPASON and ils varions components . Il is also discusses experimental results obtained in a multispeaker mode and compares the voice dialog system with the without voice system for a real sonar console .Nous présentons dans cet article l'intégration d'un système de reconnaissance analytique de la parole dans une console sonar . Cette application correspond à un besoin des opérateurs qui ont continuellement les yeux occupés à scruter l'écran sonar. Le système DIAPASON présente deux particularités : - le décodage acoustico-phonétique utilisé dans le système n'est pas fondé sur une reconnaissance phonétique classique ; son objectif est d'obtenir pour chaque segment de parole une description précise en termes de traits acoustico-phonétiques . Ce niveau de décodage est associé à une procédure spécifique d'accès lexical et de reconnaissance de phrases ; le système DIAPASON est de plus un véritable système de dialogue homme-machine et ne se limite pas à une simple reconnaissance de phrases comme c'est le plus souvent le cas . L'historique du dialogue est considéré comme une source de connaissances à part entière durant la phase de reconnaissance et cela permet d'augmenter de façon notable les performances globales du système . Cet article détaille l'architecture de DIAPASON et décrit ses diverses composantes . Il présente aussi les résultats expérimentaux obtenus en mode multilocuteurs et compare les systèmes de dialogue avec parole et sans parole pour une console sonar réelle

    On the use of an auditory model and phonetic knowledge for automatic speech recognition

    Get PDF
    Including speech knowledge in automatic speech recognition (ASR) systems is a good way to improve the performance of recognizers . In this paper, we propose the ORION system which deals with speaker-independent ASR for isolated-words . ORION is a two-pass hybrid system which uses several types of knowledge . This knowledge applies to psychoacoustics, physiology and phonetics . During the first pass an auditory model, PLP (perceptually-based linear prediction analysis) combines static and dynamic features to provide a set of parameters to the dynamic programming algorithm . After this stage 98 % recognition accuracy was obtained for a digit vocabulary and 12 templates per word . The introduction of phonetic knowledge in the second pass decreases the error rate by more Chan 60 % (compared to the results of the first pass) for a confusable vocabulary (E-SET) .L'introduction de connaissances dans les systèmes de reconnaissance de parole (RAP) est un bon moyen d'améliorer les performances des systèmes actuels . Dans cet article nous proposons le système ORION dans le cadre d'une application de reconnaissance multilocuteur de mots isolés . ORION est un système hybride à deux passes intégrant plusieurs sources de connaissances : psychoacoustiques, physiologiques et phonétiques . Pendant la première passe un modèle d'analyse acoustique perceptivement fondé (PLP), combinant des caractéristiques instantanées et des caractéristiques spectrales dynamiques, est utilisé pour fournir des vecteurs de paramètres à un algorithme de programmation dynamique . A l'issue de cette première passe plus de 98 % de mots ont été correctement reconnus pour un vocabulaire de chiffres et 12 références par mot. L'introduction de connaissances phonétiques durant la deuxième passe diminue l'erreur de reconnaissance de plus de 60 % (par rapport aux résultats obtenus lors de la première passe) pour un vocabulaire de mots acoustiquement similaires (E-SET)

    Towards the integration of speech and natural language into human-computer interaction systems

    Get PDF
    This paper first surveys and classifies applications of voice humancomputer dialogue. The advantages and limits of speech as a means of communication between users and software are then considered . A major problem in the development of user interfaces with a voice component, besicles the choice of appropriate applications, is speech recognition, especially continuons speech recognition . As approaches differ according to the type of application, we first summarize problems and techniques specific to voice data input ; as an example, we briefly describe the speech recognition approach that we have adopted for the dictation machine that we are developing in our Laboratory Then, the case of voice dialogue understanding and management is considered. To illustraie the discussion, the architecture and functionalities ofsome prototypes that we have implemented are presented :for instance, an E-mail system and a Sonar control software . Finally, we present a dialogue manager DIAL capable of helping/guiding the user in complex cognitive activities that we are currently developing and implementing .Cet article se propose de dresser une synthèse et une classification des diverses applications du dialogue oral homme-machine. Il présente, dans une première partie, les avantages et les limites de la parole comme moyen de communication entre un utilisateur et un système automatisé . Le problème essentiel pour le développement d'interfaces utilisateur à composante orale, à côté du choix d'applications appropriées, est la reconnaissance de la parole, spécialement de la parole continue . Comme les approches diffèrent suivant le type d'applications, nous présentons tout d'abord les problèmes et les techniques spécifiques à l'entrée orale de données et, à titre d'exemple, nous décrivons rapidement l'approche que nous avons adoptée pour la machine à dicter que nous développons dans notre laboratoire . Ensuite nous abordons la compréhension et la gestion de dialogues oraux . Pour illustrer cette présentation, nous présentons l'architecture et les fonctionnalités de divers prototypes que nous avons mis en ouvre système de messagerie électronique, dialogue pour la commande d'une console sonar et dialogue entre un chirurgien et un système d'aide au diagnostic . Enfin, nous détaillons le gestionnaire de dialogues DIAL, en cours de développement, dont l'objectif est d'aider et de guider un utilisateur dans des activités cognitives complexes telle la recherche de renseignements administratifs

    Aportación a la extracción paramétrica en reconocimiento de voz robusto basada en la aplicación de conocimiento de fonética acústica

    Full text link
    This thesis is based on the following hypothesis: the introduction of direct knowledge from the acoustic-phonetic field to the speech recognition problem, especially in the feature extraction step, may constitute a solid base of analysis for the determination of the behavior and capabilities of those systems and their improvement, as well. Most of the complexity of this Ph.D. thesis comes from the different subjects related with the speech processing área. The application of acoustic-phonetic information to the speech recognition research área implies a deep knowledge of both subjects. The research carried out in this work has been divided in two main parts: analysis of the current feature extraction methods and a study of several possible procedures about the incorporation of phonetic-acoustic knowledge to those systems. Abundant recognition and related quality measure results are presented for 50 different parameter extraction models. Details about the real-time implementation on a DSP platform (TMS3230C31-60) of two different parameter extraction models are presented. Finally, a set of computer tools developed for building and testing new speech recognition systems has been produced. Besides, the application of several results from this work can be extended to other speech processing áreas, such as computer assisted language learning, linguistic rehabilitation, etc.---ABSTRACT---La hipótesis en la que se basa el desarrollo de esta tesis, se centra en la suposición de que la aportación de conocimiento directo, proveniente del campo de la fonética acústica, al problema del reconocimiento automático de la voz, en concreto a la etapa de extracción de características, puede constituir una base sólida con la que poder analizar el comportamiento y capacidad de discriminación de dichos sistemas, así como una forma de mejorar sus prestaciones. Parte de la complejidad que presenta esta tesis doctoral, viene motivada por las diferentes disciplinas que están relacionadas con el área de procesamiento de la voz. La aplicación de información fonética-acústica al campo de investigación del reconocimiento del habla requiere un amplio conocimiento de ambas materias. Las investigaciones desarrolladas en este trabajo se han dividido en dos bloques fundamentales: análisis de los métodos actuales de extracción de rasgos fonéticos y un estudio de algunas posibles formas de incorporación de conocimiento fonético-acústico a dichos sistemas. En esta tesis se ofrecen abundantes resultados relativos a tasas de reconocimiento y medidas acerca de la calidad de este proceso, para un total de 50 modelos de extracción de parámetros. Así mismo se incluyen los detalles de la implementación en tiempo real para una plataforma DSP, en concreto TMS320C31-60, de dos diferentes modelos de extracción de rasgos. Además, se ha desarrollado un conjunto de las herramientas informáticas que pueden servir de base para construir y validar de forma sencilla, nuevos sistemas de reconocimiento. La aplicación de algunos de los resultados del trabajo puede extenderse también a otras áreas del tratamiento de la voz, tales como la enseñanza de una segunda lengua, logopedia, etc
    corecore