2 research outputs found

    Reconocimiento autom谩tico de idioma mediante redes neuronales

    Full text link
    En este Trabajo Fin de Grado se presenta una comparaci贸n entre el rendimiento de cinco sistemas diferentes basados en redes neuronales compuestas principalmente por capas Long Short Term Memory (LSTM), para la tarea de la clasificaci贸n autom谩tica de idioma a trav茅s de secuencias de voz de 3 segundos. Para ello se ha utilizado la base de datos proporcionada por el National Institute of Standards and Technology (NIST) Language Recognition Evaluation (LRE) en 2009, de la cual se ha extra铆do informaci贸n correspondiente a 8 idiomas objetivos que cuentan con una cantidad de datos igual o superior a 200 horas. Las caracter铆sticas de entrada empleadas en los sistemas han sido MFCC, MFCC junto con sus derivadas tanto de primer como de segundo orden y bottlenecks extra铆dos de una red entrenada para clasificaci贸n de unidades fon茅ticas. La metodolog铆a seguida en el proceso del dise帽o de los diferentes experimentos ha sido empezar con un modelo simple y posteriormente ir aumentando la complejidad seg煤n los resultados obtenidos. Para la implementaci贸n de cada una de las redes se ha hecho uso principalmente de las librer铆as Keras y TensorFlow, las cuales son ampliamente utilizadas actualmente en el desarrollo de sistemas de machine learning. Keras act煤a por encima de TensorFlow y permite una r谩pida experimentaci贸n a alto nivel y la posibilidad de ejecutar programas sobre GPUs. La evaluaci贸n del rendimiento se ha realizado a trav茅s de las medidas de accuracy y Cavg, las cuales permiten obtener una medida de referencia adecuada en problemas de clasificaci贸n de clases balanceadas como es el caso presente en este trabajo. El punto m谩s relevante que se ha podido extraer a trav茅s de la realizaci贸n de los diferentes experimentos ha sido que al utilizar los bottlenecks mencionados anteriormente como caracter铆sticas de entrada, se ha conseguido una mejora relativa muy considerable (~36%) en comparaci贸n con los MFCC para la tarea de la identificaci贸n de idioma. La arquitectura que ha alcanzado un mejor rendimiento ha sido la compuesta por dos capas ocultas LSTM y una capa feed-forward a continuaci贸n, cada una de ellas compuesta por 512 unidades
    corecore