1 research outputs found
Aportación a la extracción paramétrica en reconocimiento de voz robusto basada en la aplicación de conocimiento de fonética acústica
This thesis is based on the following hypothesis: the introduction of direct
knowledge from the acoustic-phonetic field to the speech recognition problem,
especially in the feature extraction step, may constitute a solid base of analysis for the
determination of the behavior and capabilities of those systems and their improvement,
as well.
Most of the complexity of this Ph.D. thesis comes from the different subjects
related with the speech processing área. The application of acoustic-phonetic
information to the speech recognition research área implies a deep knowledge of both
subjects.
The research carried out in this work has been divided in two main parts: analysis
of the current feature extraction methods and a study of several possible procedures
about the incorporation of phonetic-acoustic knowledge to those systems.
Abundant recognition and related quality measure results are presented for 50
different parameter extraction models.
Details about the real-time implementation on a DSP platform (TMS3230C31-60)
of two different parameter extraction models are presented.
Finally, a set of computer tools developed for building and testing new speech
recognition systems has been produced. Besides, the application of several results from
this work can be extended to other speech processing áreas, such as computer assisted
language learning, linguistic rehabilitation, etc.---ABSTRACT---La hipótesis en la que se basa el desarrollo de esta tesis, se centra en la suposición
de que la aportación de conocimiento directo, proveniente del campo de la fonética
acústica, al problema del reconocimiento automático de la voz, en concreto a la etapa de
extracción de características, puede constituir una base sólida con la que poder analizar
el comportamiento y capacidad de discriminación de dichos sistemas, así como una
forma de mejorar sus prestaciones.
Parte de la complejidad que presenta esta tesis doctoral, viene motivada por las
diferentes disciplinas que están relacionadas con el área de procesamiento de la voz. La
aplicación de información fonética-acústica al campo de investigación del
reconocimiento del habla requiere un amplio conocimiento de ambas materias.
Las investigaciones desarrolladas en este trabajo se han dividido en dos bloques
fundamentales: análisis de los métodos actuales de extracción de rasgos fonéticos y un
estudio de algunas posibles formas de incorporación de conocimiento fonético-acústico
a dichos sistemas.
En esta tesis se ofrecen abundantes resultados relativos a tasas de reconocimiento
y medidas acerca de la calidad de este proceso, para un total de 50 modelos de
extracción de parámetros.
Así mismo se incluyen los detalles de la implementación en tiempo real para una
plataforma DSP, en concreto TMS320C31-60, de dos diferentes modelos de extracción
de rasgos.
Además, se ha desarrollado un conjunto de las herramientas informáticas que
pueden servir de base para construir y validar de forma sencilla, nuevos sistemas de
reconocimiento. La aplicación de algunos de los resultados del trabajo puede extenderse
también a otras áreas del tratamiento de la voz, tales como la enseñanza de una segunda
lengua, logopedia, etc