Search CORE

10 research outputs found

Colloquium Signaalanalyse en Spraak:22 en 23 oktober 1990 : reader

Author
Publication venue: Instituut voor Perceptie Onderzoek (IPO)
Publication date: 03/10/1990
Field of study

Pure OAI Repository

Colloquium Signaalanalyse en Spraak:22 en 23 oktober 1990 : reader

Author
Publication venue: Instituut voor Perceptie Onderzoek (IPO)
Publication date: 03/10/1990
Field of study

Pure OAI Repository

CONNECTIONIST SPEECH RECOGNITION - A Hybrid Approach

Author: Bourlard Hervé
Morgan Nelson
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 19/12/2013
Field of study

Infoscience - École polytechnique fédérale de Lausanne

Speech and neural network dynamics

Author: Renals Stephen John
Publication venue: The University of Edinburgh
Publication date: 01/01/1990
Field of study

Edinburgh Research Archive

Advances and trends in automatic speech recognition

Author: MARIANI (J.)
Publication venue: GRETSI, Saint Martin d'Hères, France
Publication date: 01/01/1990
Field of study

This paper aimts at giving an overview of récent advances in the domain of Speech Recognition . The paper mainly focttses on Speech Recognition, but also mentions some progress in other areas of Speech Processing (spea er recognition, speech synthesis, speech analysis and coding) using similar methodologies. It first gives a view of what the problems related to aulomatic speech processing are, and then describes the initial approaches that have been followed in order to address Chose problems . It then introduces thé methodological novelties that allowed for progress along three axes : from isolated-word recognition to continuous speech, from spea er-dependent recognition to spea er-independent, and from small vocabularies to large rocabularies. Special emphasis centers on tlie improvements made possible by Mar ov Models . and, more recently, hy Connectionist Models, resulting in progress simultaneously obtained along the above différent axes, in improved performance for difficult vocabularies, or in more robust systems . Some specialised hardware is also described, as well as the efforts aimed ai assessing Speech Recognition systems.Le but de cet article est de donner un aperçu des progrès récents obtenus dans le domaine de la reconnaissance automatique de la parole . Il traite essentiellement de la reconnaissance vocale, mais mentionne également les progrès réalisés dans d'autres domaines du Traitement Automatique de la Parole (Reconnaissance du Locuteur, Synthèse de Parole . Analyse et Codage), qui utilisent des méthodes voisines. Ensuite, sont introduites les nouveautés méthodologiques qui ont permis des progrès suivant trois axes : des mots isolés vers la parole continue, de la reconnaissance monolocuteur vers la reconnaissance multilocuteur, et des petits vocabulaires vers les grands vocabulaires . Une mention spéciale est accordée aux améliorations qui ont été rendues possibles par les Modèles Mar oviens, et, plus récemment, par les Modèles Connexionnistes . Ces méthodes ont conduit à des progrès obtenus concurremment suivant plusieurs axes, à des performances meilleures sur les vocabulaires difficiles, ou à des systèmes plus robustes . Quelques matériels spécialisés sont également décrits, ainsi que les efforts qui ont été consentis dans le but d'évaluer la qualité des systèmes de reconnaissanc

I-Revues

The Design and Application of an Acoustic Front-End for Use in Speech Interfaces

Author: Gerber Christoph
Publication venue: ProQuest Dissertations & Theses,
Publication date: 01/01/1996
Field of study

This thesis describes the design, implementation, and application of an acoustic front-end. Such front-ends constitute the core of automatic speech recognition systems. The front-end whose development is reported here has been designed for speaker-independent large vocabulary recognition. The emphasis of this thesis is more one of design than of application. This work exploits the current state-of-the-art in speech recognition research, for example, the use of Hidden Markov Models. It describes the steps taken to build a speaker-independent large vocabulary system from signal processing, through pattern matching, to language modelling. An acoustic front-end can be considered as a multi-stage process, each of which requires the specification of many parameters. Some parameters have fundamental consequences for the ultimate application of the front-end. Therefore, a major part of this thesis is concerned with their analysis and specification. Experiments were carried out to determine the characteristics of individual parameters, the results of which were then used to motivate particular parameter settings. The thesis concludes with some applications that point out, not only the power of the resulting acoustic front-end, but also its limitations

Glasgow Theses Service

Arquitecturas y métodos en sistemas de reconocimiento automático de habla de gran vocabulario

Author: Macías Guarasa Javier
Publication venue: E.T.S.I. Telecomunicación (UPM)
Publication date: 01/01/2001
Field of study

La tesis que se presenta en este documento, se enmarca en el área del Reconocimiento Automático de Habla y específicamente en el diseño de sistemas de reconocimiento de gran vocabulario. En todos los casos, la tecnología de base en lo que se refiere al modelado, la aportan los modelos ocultos de Markov que, hoy por hoy, representan el paradigma de modelado dominante. En concreto, se utilizarán técnicas de modelado discreto y semicontinuo, dependiente e independiente del contexto. En primer lugar, y a partir de una clasificación de alternativas arquitecturales en el diseño de sistemas de reconocimiento se hace un estudio teórico de la formulación del comportamiento de arquitecturas multi-módulo, tanto en coste computacional como en tasa de reconocimiento, definiendo una metodología de diseño para determinar la adecuación de módulos particulares de cara a su uso conjunto, que es validada con la experimentación correspondiente. Igualmente, se hace énfasis en el estudio y evaluación de algunas de las alternativas de compresión del espacio de búsqueda, estableciendo relaciones de compromiso entre coste y tasa, que es el binomio decisivo a la hora de abordar el diseño de sistemas en tiempo real. Se presentan estudios sobre distintas estrategias de organización del espacio de búsqueda orientadas a exploración y búsqueda con algoritmos de programación dinámica: árboles y grafos, deterministas y no deterministas, proponiendo soluciones prometedoras para incrementar la tasa de inclusión obtenible sobre estructuras de grafo (en las que la compresión del espacio de búsqueda produce peores resultados que con la búsqueda lineal o en árbol). Especialmente importante es el trabajo sobre estimación de listas variables de preselección, analizando métodos paramétricos y no paramétricos, centrándonos en el uso de redes neuronales como mecanismo estimador. Se ha propuesto una metodología de selección de parámetros de entrada, topologías y métodos de codificación, en base a su potencia discriminativa en una tarea simplificada. Dicha propuesta que ha sido ampliamente evaluada y comparada con el enfoque tradicional de uso de listas fijas, mostrando la consistente mejora tanto en tasa como en coste computacional conseguible con el uso de redes neuronales. Dicho estudio sobre listas variables ha sido extendido de forma natural al problema de estimación de fiabilidad de hipótesis, habiéndose aprovechando estos resultados, de nuevo, para la estimación de longitudes de listas, obteniendo también buenos resultados. En lo que respecta al repertorio de unidades de reconocimiento y a la composición de los diccionarios usados (en cuanto al uso de múltiples pronunciaciones), se aplican, evalúan y comparan métodos dirigidos por datos y basados en conocimiento. En el apartado de introducción de variantes de pronunciación se ha discutido ampliamente la problemática de contar con bases de datos representativas y haciendo énfasis en la importancia de atender y evaluar las mejoras marginales obtenidas con algunos de estos métodos. La evaluación de los resultados es planteada cuidadosamente, sobre dos tareas radicalmente distintas: habla telefónica independiente del locutor y habla aislada dependiente, ambas usando gran vocabulario (hasta 10000 palabras), lo que permite obtener conclusiones y claves de diseño para cada una de ellas, con lo que se consigue una generalización más fundamentada de su bondades o perjuicios. En este sentido se aplican análisis de validez y relevancia estadística que pongan en su justo sitio las mejoras o degradaciones observadas. En los procesos de evaluación se han propuesto nuevas métricas y mecanismos originales de comparación

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Archivo Digital UPM

Dificultades de comprensión lingüística oral, propuesta de mejora utilizando las nuevas tecnologías diálogo hombre-máquina mediante instrucciones expresadas en lenguaje natural

Author: Reyzábal Manso María Isabel
Publication venue: Universidad Complutense de Madrid, Servicio de Publicaciones
Publication date: 01/01/2006
Field of study

Tesis de la Universidad Complutense de Madrid, Facultad de Psicología, Departamento de Psicología Evolutiva y de la Educación, leída el 21-12-2001En esta tesis exponemos los elementos que intervienen en la comprensión lingüística. Nuestro recorrido abarca desde la encefalización hasta el estado más reciente de los Sistemas de Tecnología del Habla, detallando los modelos de especificación lingüística y gestión computacional actuales. Defendemos la hipótesis innatista del lenguaje y la prioridad semántica. Para probarlo realizamos pruebas con alumnos de Educación Secundaria, el grupo experimental presentaba dificultades de comprensión lingüística. Así mismo, mostramos el primer paso de cómo se origina el "arco reflejo de la comprensión lingüística artificial". Proponemos un modelo de procesamiento de la comprensión lingüística oral, y entre las conclusiones destaca el empleo de las mismas estrategias para comprender por parte de los dos grupos de alumnos, por lo tanto, en sujetos normales la comprensión sería cualitativamente igual, además, constatamos que corresponde al analizador semántico las mejores prestaciones en tecnología del habla. Finalmente, creamos una propuesta para mejorar la comprensión lingüística oral mediante las nuevas tecnologías.Sección Deptal. de Investigación y Psicología en Educación (Psicología)Fac. de PsicologíaTRUEpu

Docta Complutense

Acoustic-phonetic modeling in the SPICOS system

Author: Ney Hermann
Noll Andreas
Publication venue: 'Institute of Electrical and Electronics Engineers (IEEE)'
Publication date: 01/01/1994
Field of study