2 research outputs found
Arquitecturas y métodos en sistemas de reconocimiento automático de habla de gran vocabulario
La tesis que se presenta en este documento, se enmarca en el área del Reconocimiento
Automático de Habla y especÃficamente en el diseño de sistemas de reconocimiento de gran
vocabulario. En todos los casos, la tecnologÃa de base en lo que se refiere al modelado, la aportan los
modelos ocultos de Markov que, hoy por hoy, representan el paradigma de modelado dominante. En
concreto, se utilizarán técnicas de modelado discreto y semicontinuo, dependiente e independiente del
contexto.
En primer lugar, y a partir de una clasificación de alternativas arquitecturales en el diseño de
sistemas de reconocimiento se hace un estudio teórico de la formulación del comportamiento de
arquitecturas multi-módulo, tanto en coste computacional como en tasa de reconocimiento, definiendo
una metodologÃa de diseño para determinar la adecuación de módulos particulares de cara a su uso
conjunto, que es validada con la experimentación correspondiente.
Igualmente, se hace énfasis en el estudio y evaluación de algunas de las alternativas de
compresión del espacio de búsqueda, estableciendo relaciones de compromiso entre coste y tasa, que
es el binomio decisivo a la hora de abordar el diseño de sistemas en tiempo real. Se presentan estudios
sobre distintas estrategias de organización del espacio de búsqueda orientadas a exploración y
búsqueda con algoritmos de programación dinámica: árboles y grafos, deterministas y no
deterministas, proponiendo soluciones prometedoras para incrementar la tasa de inclusión obtenible
sobre estructuras de grafo (en las que la compresión del espacio de búsqueda produce peores resultados
que con la búsqueda lineal o en árbol). Especialmente importante es el trabajo sobre estimación de
listas variables de preselección, analizando métodos paramétricos y no paramétricos, centrándonos en
el uso de redes neuronales como mecanismo estimador. Se ha propuesto una metodologÃa de selección
de parámetros de entrada, topologÃas y métodos de codificación, en base a su potencia discriminativa
en una tarea simplificada. Dicha propuesta que ha sido ampliamente evaluada y comparada con el
enfoque tradicional de uso de listas fijas, mostrando la consistente mejora tanto en tasa como en coste
computacional conseguible con el uso de redes neuronales. Dicho estudio sobre listas variables ha sido
extendido de forma natural al problema de estimación de fiabilidad de hipótesis, habiéndose
aprovechando estos resultados, de nuevo, para la estimación de longitudes de listas, obteniendo
también buenos resultados.
En lo que respecta al repertorio de unidades de reconocimiento y a la composición de los
diccionarios usados (en cuanto al uso de múltiples pronunciaciones), se aplican, evalúan y comparan
métodos dirigidos por datos y basados en conocimiento. En el apartado de introducción de variantes de
pronunciación se ha discutido ampliamente la problemática de contar con bases de datos
representativas y haciendo énfasis en la importancia de atender y evaluar las mejoras marginales
obtenidas con algunos de estos métodos.
La evaluación de los resultados es planteada cuidadosamente, sobre dos tareas radicalmente
distintas: habla telefónica independiente del locutor y habla aislada dependiente, ambas usando gran
vocabulario (hasta 10000 palabras), lo que permite obtener conclusiones y claves de diseño para cada
una de ellas, con lo que se consigue una generalización más fundamentada de su bondades o perjuicios.
En este sentido se aplican análisis de validez y relevancia estadÃstica que pongan en su justo sitio las
mejoras o degradaciones observadas. En los procesos de evaluación se han propuesto nuevas métricas
y mecanismos originales de comparación