thesis

Implementación y evaluación de un sistema QbE-STD (Query-by-Example Spoken Term Detection)

Abstract

Con el fin de extraer información y reconocer palabras clave en los ficheros de audio presentes en medios de comunicación e Internet, surgen los sistemas QbE-STD (Query-by- Example Spoken Term Detecion). Los sistemas QbE-STD tratan, por un lado de buscar un ejemplo de un objeto o parte de él en otro objeto (QbE), y por otro de encontrar palabras o secuencias de ellas en archivos de audio (STD). En este Trabajo Fin de Máster se ha desarrollado un sistema QbE-STD independiente del idioma cuya entrada o query está basada en términos hablados, lo que permite a un usuario realizar una búsqueda en un repositorio de audio emitiendo con su voz el término a buscar. Como técnica de representación del habla se han empleado los llamados posteriorgramas fonéticos, obtenidos mediante los decodificadores fonéticos desarrollados por la Universidad de Tecnología de Brno (BUT). Para la detección de los términos de búsqueda en los repositorios de audio se ha utilizado el algoritmo Subsequence Dynamic Time Warping (S-DTW). Además de desarrollar un sistema QbE-STD que sirva como punto de partida para futuras vías de trabajo del grupo AUDIAS1, se han incluido distintas técnicas y aportaciones con el objetivo de intentar mejorar los resultados obtenidos. Entre estas técnicas se encuentra la selección de unidades fonéticas o la fusión de idiomas. Para el desarrollo de la solución y la realización de las pruebas se han utilizado los audios pertenecientes a las evaluaciones Albayzin 2016 y 2018 Search on Speech. Los resultados obtenidos se han podido contrastar con otros sistemas publicados, ya que para el cálculo de la precisión se ha empleado un procedimiento de evaluación oficial propuesto por el instituto de tecnología NIST y ampliamente utilizado. Los valores de precisión alcanzados demuestran que mediante el sistema básico se obtienen unos resultados competitivos y semejantes a los de otras implementaciones de este tipo.In order to extract information and recognize key words in the audio files belonging to media and Internet, QbE-STD (Query-by-Example Spoken Term Detection) systems are developed. QbE-STD systems have as purpose, on the one hand, to search for an example of an object or part of it in another object (QbE), and on the other, to find words or sequences of them in audio files (STD). In this Master Thesis, a language-independent QbE-STD system has been developed, whose input or query is based on spoken terms, which allows an user to perform a search in an audio repository by saying the search term with his/her own voice. As a technique of speech representation, phonetic posteriorgrams have been used, obtained through the phonetic decoders developed by the Brno University of Technology (BUT). The Subsequence Dynamic Time Warping (S-DTW) algorithm has been used to detect the search terms in the audio repositories. In addition to developing a QbE-STD system that will be used as a first point for future investigation of AUDIAS2 group, different techniques and contributions have been included in order to try to improve the achieved results. Among these techniques, the phonetic units selection or the languages fusion have been implemented. In the development and test phases, the audios belonging to the Albayzin 2016 and 2018 Search on Speech evaluation have been used. The achieved results have been compared with other published systems, because of the use of an official evaluation procedure proposed by NIST technology has been implemented to obtain accuracy. The precision values obtained show that competitive results have been achieved through the basic system, and these are similar to those of other implementations of this type

    Similar works

    Full text

    thumbnail-image

    Available Versions