8 research outputs found
Acoustic-phonetic decoding of speech : problems and solutions
Acoustic phonetic decoding of speech recognition constitutes a major step
in the process of continuous speech recognition . This paper reminds the
difficulties of the problem together with the main methods proposed so far
in order to solve it . We then concentrate on the différent complementary
approaches Chat have been investigated by our group : expert system based
on spectrogram reading, recognition by phonetic triphones, connectionist model based on the cortical column unit and stochastic recognition without
segmentation .Le décodage acoustico-phonétique constitue une étape importante en
reconnaissance de la parole continue . Cet article rappelle d'abord les
difficultés du problème et les principales méthodes qui ont été proposées
pour le résoudre . Il présente ensuite les diverses approches complémentaires
adoptées par notre équipe : système expert fondé sur l'activité de
lecture de spectrogrammes, reconnaissance par triplets phonétiques,
modèle connexionniste de colonne corticale et reconnaissance par
méthode stochastique sans segmentation
Formalizing knowledge used in spectrogram reading : acoustic and perceptual evidence from stops
Also issued as Thesis (Ph. D.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 1988.Includes bibliographical references.Supported by the Defense Advanced Research Projects Agency, Vinton-Hayes, Bell Laboratories (GRPW), and Inference Corporation.Lori Faith Lamel
Integration of analytical speech recognition system in a sonar console : towards a natural dialogue
We present in this paper the integration of a analytical speech recognition
system to the control of a sonar console by a human operator . This
application is really useful since il does correspond to a pratical need of the
operator who has his eyes busy looking at the sonar screen . The
DIAPASON system presents two original features
the acoustic-phonetic decoding part of the system is not based on a
classical phoneme labeling process but il yields for each segment of speech
a set of acoustic phonetic labels that describe this segment very precisely .
This phonetic labelling is associated with a special procedure for lexical
access and sentences recognition ;
- the DIAPASON system is moreover a genuine man-machine dialogue
system and not only a system capable of understanding a single sentence as il is often the case . The history of the dialogue is used as a special
knowledge source during the understanding process . Pragmatic knowledge
is thus intimately associated with'the analysis of sentence ; this point highly
encreas as the overall performance of the system .
The paper presents the architecture of DIAPASON and ils varions
components . Il is also discusses experimental results obtained in a
multispeaker mode and compares the voice dialog system with the without
voice system for a real sonar console .Nous présentons dans cet article l'intégration d'un système de reconnaissance
analytique de la parole dans une console sonar . Cette application
correspond à un besoin des opérateurs qui ont continuellement les yeux
occupés à scruter l'écran sonar. Le système DIAPASON présente deux
particularités :
- le décodage acoustico-phonétique utilisé dans le système n'est pas
fondé sur une reconnaissance phonétique classique ; son objectif est
d'obtenir pour chaque segment de parole une description précise en
termes de traits acoustico-phonétiques . Ce niveau de décodage est
associé à une procédure spécifique d'accès lexical et de reconnaissance de
phrases ;
le système DIAPASON est de plus un véritable système de dialogue
homme-machine et ne se limite pas à une simple reconnaissance de phrases comme c'est le plus souvent le cas . L'historique du dialogue est
considéré comme une source de connaissances à part entière durant la
phase de reconnaissance et cela permet d'augmenter de façon notable les
performances globales du système .
Cet article détaille l'architecture de DIAPASON et décrit ses diverses
composantes . Il présente aussi les résultats expérimentaux obtenus en
mode multilocuteurs et compare les systèmes de dialogue avec parole et
sans parole pour une console sonar réelle
Towards the integration of speech and natural language into human-computer interaction systems
This paper first surveys and classifies applications of voice humancomputer
dialogue. The advantages and limits of speech as a means of
communication between users and software are then considered .
A major problem in the development of user interfaces with a voice
component, besicles the choice of appropriate applications, is speech
recognition, especially continuons speech recognition .
As approaches differ according to the type of application, we first
summarize problems and techniques specific to voice data input ; as an
example, we briefly describe the speech recognition approach that we have
adopted for the dictation machine that we are developing in our Laboratory Then, the case of voice dialogue understanding and management is
considered. To illustraie the discussion, the architecture and functionalities
ofsome prototypes that we have implemented are presented :for instance,
an E-mail system and a Sonar control software . Finally, we present a
dialogue manager DIAL capable of helping/guiding the user in complex
cognitive activities that we are currently developing and implementing .Cet article se propose de dresser une synthèse et une classification des
diverses applications du dialogue oral homme-machine. Il présente, dans
une première partie, les avantages et les limites de la parole comme
moyen de communication entre un utilisateur et un système automatisé .
Le problème essentiel pour le développement d'interfaces utilisateur à
composante orale, à côté du choix d'applications appropriées, est la
reconnaissance de la parole, spécialement de la parole continue .
Comme les approches diffèrent suivant le type d'applications, nous
présentons tout d'abord les problèmes et les techniques spécifiques à
l'entrée orale de données et, à titre d'exemple, nous décrivons rapidement
l'approche que nous avons adoptée pour la machine à dicter que
nous développons dans notre laboratoire .
Ensuite nous abordons la compréhension et la gestion de dialogues
oraux . Pour illustrer cette présentation, nous présentons l'architecture et les fonctionnalités de divers prototypes que nous avons mis en ouvre
système de messagerie électronique, dialogue pour la commande d'une
console sonar et dialogue entre un chirurgien et un système d'aide au
diagnostic .
Enfin, nous détaillons le gestionnaire de dialogues DIAL, en cours de
développement, dont l'objectif est d'aider et de guider un utilisateur dans
des activités cognitives complexes telle la recherche de renseignements
administratifs
Aportación a la extracción paramétrica en reconocimiento de voz robusto basada en la aplicación de conocimiento de fonética acústica
This thesis is based on the following hypothesis: the introduction of direct
knowledge from the acoustic-phonetic field to the speech recognition problem,
especially in the feature extraction step, may constitute a solid base of analysis for the
determination of the behavior and capabilities of those systems and their improvement,
as well.
Most of the complexity of this Ph.D. thesis comes from the different subjects
related with the speech processing área. The application of acoustic-phonetic
information to the speech recognition research área implies a deep knowledge of both
subjects.
The research carried out in this work has been divided in two main parts: analysis
of the current feature extraction methods and a study of several possible procedures
about the incorporation of phonetic-acoustic knowledge to those systems.
Abundant recognition and related quality measure results are presented for 50
different parameter extraction models.
Details about the real-time implementation on a DSP platform (TMS3230C31-60)
of two different parameter extraction models are presented.
Finally, a set of computer tools developed for building and testing new speech
recognition systems has been produced. Besides, the application of several results from
this work can be extended to other speech processing áreas, such as computer assisted
language learning, linguistic rehabilitation, etc.---ABSTRACT---La hipótesis en la que se basa el desarrollo de esta tesis, se centra en la suposición
de que la aportación de conocimiento directo, proveniente del campo de la fonética
acústica, al problema del reconocimiento automático de la voz, en concreto a la etapa de
extracción de características, puede constituir una base sólida con la que poder analizar
el comportamiento y capacidad de discriminación de dichos sistemas, así como una
forma de mejorar sus prestaciones.
Parte de la complejidad que presenta esta tesis doctoral, viene motivada por las
diferentes disciplinas que están relacionadas con el área de procesamiento de la voz. La
aplicación de información fonética-acústica al campo de investigación del
reconocimiento del habla requiere un amplio conocimiento de ambas materias.
Las investigaciones desarrolladas en este trabajo se han dividido en dos bloques
fundamentales: análisis de los métodos actuales de extracción de rasgos fonéticos y un
estudio de algunas posibles formas de incorporación de conocimiento fonético-acústico
a dichos sistemas.
En esta tesis se ofrecen abundantes resultados relativos a tasas de reconocimiento
y medidas acerca de la calidad de este proceso, para un total de 50 modelos de
extracción de parámetros.
Así mismo se incluyen los detalles de la implementación en tiempo real para una
plataforma DSP, en concreto TMS320C31-60, de dos diferentes modelos de extracción
de rasgos.
Además, se ha desarrollado un conjunto de las herramientas informáticas que
pueden servir de base para construir y validar de forma sencilla, nuevos sistemas de
reconocimiento. La aplicación de algunos de los resultados del trabajo puede extenderse
también a otras áreas del tratamiento de la voz, tales como la enseñanza de una segunda
lengua, logopedia, etc
Phonetic decoding of continuous speech with the APHODEX expert system
Publie dans : Proceedings EUROSPEECH 89 (European conference on speech communication and technology), Paris, septembre 1989SIGLEAvailable at INIST (FR), Document Supply Service, under shelf-number : RP 10733 / INIST-CNRS - Institut de l'Information Scientifique et TechniqueFRFranc