2 research outputs found
Segmentación no supervisada de señales de audio y voz
Este Trabajo de Fin de Grado se encuentra dentro del campo de la segmentación de audio, en concreto se comparan varias técnicas de segmentación no supervisada sobre aplicaciones tanto de segmentación de audio como de segmentación de locutores, de manera que pueda detectarse cualquier tipo de cambios, sean producidos por fragmentos de audio de diferente naturaleza o por distintos locutores. Esta etapa del procesado del audio resulta fundamental, ya que la correcta segmentación inicial del audio permitirá a etapas posteriores en diferentes aplicaciones clasificar y catalogar los diferentes tramos del audio con mayor facilidad y precisión.
El proyecto se ha realizado sobre la base de datos de AlbayzÃn 2014, que contiene 24 ficheros de en torno a 4 horas de duración cada uno (aproximadamente 100 horas de audio en total), realizando un nuevo etiquetado mediante la combinación de un etiquetado según los cambios de clase acústica (entre música, voz y ruido) y otro etiquetado según los cambios de locutor, generando un etiquetado tanto de segmentación como de diarización.
Se ha partido de las caracterÃsticas tÃmbricas MFCC-SDC extraÃdas con tres detectores GMM-UBM diseñados para detectar música, voz y ruido respectivamente [1]. Sobre estas caracterÃsticas, se han aplicado diferentes métodos de segmentación (el Criterio de Información Bayesiano y la Razón de Verosimilitud Generalizada), implementados con una ventana temporal de tamaño fijo.
La medición de los resultados obtenidos se ha realizado tanto mediante la evaluación habitual de los errores de inserción y borrado, tanto como con una medida experimental basada en las distancias entre los puntos de cambio reales y los puntos de cambio detectados por los distintos algoritmos llamada Diarization Error Rate (DER), originalmente pensada para evaluar únicamente la diarización de locutores en ficheros de audio, pero aquà empleada sobre la segmentación en general