1 research outputs found

    Extracción de características mediante redes neuronales multicapa para reconocimiento de idioma

    Full text link
    Este Trabajo Fin de Grado tiene como objetivo estudiar la utilización de características bottleneck extraídas de una red neuronal profunda entrenada para reconocimiento del habla, y reemplazar con ellas a las tradicionales características acústicas MFCC como parámetros de entrada a un sistema de reconocimiento automático de idioma UBM/Ivector. Para abordar esto, se implementará en primer lugar un sistema de reconocimiento de idioma siguiendo la aproximación clásica UBM/i-vector, basado en características acústicas MFCC que servirá como sistema de referencia. Después se entrenarán cuatro redes neuronales profundas con el objetivo de extraer características bottleneck que capturen información a cuatro niveles diferentes de abstracción y finalmente se implementarán cuatro sistemas de reconocimiento de idioma que usen estas características. La base de datos que se usará para el entrenamiento de las redes neuronales será Switchboard, y para el entrenamiento del sistema de reconocimiento de idioma UBM/ivector se hará uso de los audios proporcionados por el National Institute of Standards and Technology (NIST) para el Plan de Evaluación de Reconocimiento de Idioma de 2015 (LRE15). Las principales herramientas con las que se trabajarán son: Kaldi para la implementación de los sistemas de reconocimiento de idioma, Theano para el entrenamiento de las redes neuronales y extracción de características bottleneck, y también se hará uso de Matlab para generar los modelos, conseguir las puntuaciones (scores) y realizar la evaluación de los sistemas. Para evaluar la mejora que pueda suponer el uso de estas características bottleneck en reconocimiento de idioma, se compararán los resultados obtenidos en los cuatro sistemas que usen estas características con los resultados obtenidos con el sistema de referencia basado en MFCC. El rendimiento de los sistemas se medirá según el porcentaje de acierto en la predicción de idioma de los segmentos de evaluación en distintas pruebas previstas. A su vez, se hará una comparativa entre estos sistemas que emplean distintas características de entrada siguiendo la métrica del Equal Error Rate (EER) obtenido en cada uno de ellos.This Bachelor Thesis has the objective of studying the use of bottleneck features extracted from a deep neural network trained for speech recognition in order to replace the traditional MFCC acoustic features as input parameters for an automatic UBM/i-vector language recognition system. To do so, in the first place a language recognition system with a classical UBM/i-vector approach –based on acoustic features MFCC which works as reference system– will be implemented. After that, four deep neural networks will be implemented with the purpose of extracting bottleneck features that collect information in four different abstraction levels. Finally, four language recognition systems that us this features will be implemented. The database that will be used for the neural networks training will be Switchboard, and for the UBM/i-vector language recognition system audio recordings provided by the National Institute of Standards and Technology (NIST) for the 2015 NIST Language Recognition Evaluation Plan (LRE15) will be used. The main tools we will be working with are: Kaldi for the language recognition system implementation, Theano for the neural networks training and bottleneck features extraction. Matlab will also be used to generate models, get the scores and perform the systems evaluations. To evaluate the improvement, these bottleneck features can mean in language recognition, the obtained results will be compared in the four systems that use these features with those obtained with the referral system based on MFCC. The systems’ performance will be measured according to the success rate in the language prediction of the evaluation segments over various tests. Moreover, these systems with different input features will be compared following the Equal Error Rate (EER) obtained from each of them
    corecore