2 research outputs found
Reconocimiento autom谩tico de idioma mediante redes neuronales
En este Trabajo Fin de Grado se presenta una comparaci贸n entre el rendimiento de cinco
sistemas diferentes basados en redes neuronales compuestas principalmente por capas
Long Short Term Memory (LSTM), para la tarea de la clasificaci贸n autom谩tica de idioma a
trav茅s de secuencias de voz de 3 segundos.
Para ello se ha utilizado la base de datos proporcionada por el National Institute of
Standards and Technology (NIST) Language Recognition Evaluation (LRE) en 2009, de la
cual se ha extra铆do informaci贸n correspondiente a 8 idiomas objetivos que cuentan con una
cantidad de datos igual o superior a 200 horas.
Las caracter铆sticas de entrada empleadas en los sistemas han sido MFCC, MFCC junto con
sus derivadas tanto de primer como de segundo orden y bottlenecks extra铆dos de una red
entrenada para clasificaci贸n de unidades fon茅ticas.
La metodolog铆a seguida en el proceso del dise帽o de los diferentes experimentos ha sido
empezar con un modelo simple y posteriormente ir aumentando la complejidad seg煤n los
resultados obtenidos.
Para la implementaci贸n de cada una de las redes se ha hecho uso principalmente de las
librer铆as Keras y TensorFlow, las cuales son ampliamente utilizadas actualmente en el
desarrollo de sistemas de machine learning. Keras act煤a por encima de TensorFlow y
permite una r谩pida experimentaci贸n a alto nivel y la posibilidad de ejecutar programas
sobre GPUs.
La evaluaci贸n del rendimiento se ha realizado a trav茅s de las medidas de accuracy y Cavg,
las cuales permiten obtener una medida de referencia adecuada en problemas de
clasificaci贸n de clases balanceadas como es el caso presente en este trabajo.
El punto m谩s relevante que se ha podido extraer a trav茅s de la realizaci贸n de los diferentes
experimentos ha sido que al utilizar los bottlenecks mencionados anteriormente como
caracter铆sticas de entrada, se ha conseguido una mejora relativa muy considerable (~36%)
en comparaci贸n con los MFCC para la tarea de la identificaci贸n de idioma. La arquitectura
que ha alcanzado un mejor rendimiento ha sido la compuesta por dos capas ocultas LSTM
y una capa feed-forward a continuaci贸n, cada una de ellas compuesta por 512 unidades