Con el fin de extraer información y reconocer palabras clave en los ficheros de audio
presentes en medios de comunicación e Internet, surgen los sistemas QbE-STD (Query-by-
Example Spoken Term Detecion).
Los sistemas QbE-STD tratan, por un lado de buscar un ejemplo de un objeto o parte de
él en otro objeto (QbE), y por otro de encontrar palabras o secuencias de ellas en archivos
de audio (STD).
En este Trabajo Fin de Máster se ha desarrollado un sistema QbE-STD independiente del
idioma cuya entrada o query está basada en términos hablados, lo que permite a un usuario
realizar una búsqueda en un repositorio de audio emitiendo con su voz el término a buscar.
Como técnica de representación del habla se han empleado los llamados posteriorgramas
fonéticos, obtenidos mediante los decodificadores fonéticos desarrollados por la Universidad
de Tecnología de Brno (BUT).
Para la detección de los términos de búsqueda en los repositorios de audio se ha utilizado
el algoritmo Subsequence Dynamic Time Warping (S-DTW).
Además de desarrollar un sistema QbE-STD que sirva como punto de partida para futuras
vías de trabajo del grupo AUDIAS1, se han incluido distintas técnicas y aportaciones con el
objetivo de intentar mejorar los resultados obtenidos. Entre estas técnicas se encuentra la
selección de unidades fonéticas o la fusión de idiomas.
Para el desarrollo de la solución y la realización de las pruebas se han utilizado los audios
pertenecientes a las evaluaciones Albayzin 2016 y 2018 Search on Speech.
Los resultados obtenidos se han podido contrastar con otros sistemas publicados, ya que
para el cálculo de la precisión se ha empleado un procedimiento de evaluación oficial
propuesto por el instituto de tecnología NIST y ampliamente utilizado.
Los valores de precisión alcanzados demuestran que mediante el sistema básico se
obtienen unos resultados competitivos y semejantes a los de otras implementaciones de este
tipo.In order to extract information and recognize key words in the audio files belonging to
media and Internet, QbE-STD (Query-by-Example Spoken Term Detection) systems are
developed.
QbE-STD systems have as purpose, on the one hand, to search for an example of an object
or part of it in another object (QbE), and on the other, to find words or sequences of them in
audio files (STD).
In this Master Thesis, a language-independent QbE-STD system has been developed,
whose input or query is based on spoken terms, which allows an user to perform a search in
an audio repository by saying the search term with his/her own voice.
As a technique of speech representation, phonetic posteriorgrams have been used,
obtained through the phonetic decoders developed by the Brno University of Technology
(BUT).
The Subsequence Dynamic Time Warping (S-DTW) algorithm has been used to detect
the search terms in the audio repositories.
In addition to developing a QbE-STD system that will be used as a first point for future
investigation of AUDIAS2 group, different techniques and contributions have been included
in order to try to improve the achieved results. Among these techniques, the phonetic units
selection or the languages fusion have been implemented.
In the development and test phases, the audios belonging to the Albayzin 2016 and 2018
Search on Speech evaluation have been used.
The achieved results have been compared with other published systems, because of the
use of an official evaluation procedure proposed by NIST technology has been implemented
to obtain accuracy.
The precision values obtained show that competitive results have been achieved through
the basic system, and these are similar to those of other implementations of this type