thesis

Reconocimiento automático de idioma mediante redes neuronales

Abstract

En este Trabajo Fin de Grado se presenta una comparación entre el rendimiento de cinco sistemas diferentes basados en redes neuronales compuestas principalmente por capas Long Short Term Memory (LSTM), para la tarea de la clasificación automática de idioma a través de secuencias de voz de 3 segundos. Para ello se ha utilizado la base de datos proporcionada por el National Institute of Standards and Technology (NIST) Language Recognition Evaluation (LRE) en 2009, de la cual se ha extraído información correspondiente a 8 idiomas objetivos que cuentan con una cantidad de datos igual o superior a 200 horas. Las características de entrada empleadas en los sistemas han sido MFCC, MFCC junto con sus derivadas tanto de primer como de segundo orden y bottlenecks extraídos de una red entrenada para clasificación de unidades fonéticas. La metodología seguida en el proceso del diseño de los diferentes experimentos ha sido empezar con un modelo simple y posteriormente ir aumentando la complejidad según los resultados obtenidos. Para la implementación de cada una de las redes se ha hecho uso principalmente de las librerías Keras y TensorFlow, las cuales son ampliamente utilizadas actualmente en el desarrollo de sistemas de machine learning. Keras actúa por encima de TensorFlow y permite una rápida experimentación a alto nivel y la posibilidad de ejecutar programas sobre GPUs. La evaluación del rendimiento se ha realizado a través de las medidas de accuracy y Cavg, las cuales permiten obtener una medida de referencia adecuada en problemas de clasificación de clases balanceadas como es el caso presente en este trabajo. El punto más relevante que se ha podido extraer a través de la realización de los diferentes experimentos ha sido que al utilizar los bottlenecks mencionados anteriormente como características de entrada, se ha conseguido una mejora relativa muy considerable (~36%) en comparación con los MFCC para la tarea de la identificación de idioma. La arquitectura que ha alcanzado un mejor rendimiento ha sido la compuesta por dos capas ocultas LSTM y una capa feed-forward a continuación, cada una de ellas compuesta por 512 unidades

    Similar works