2 research outputs found

    An analysis of the short utterance problem for speaker characterization

    Get PDF
    Speaker characterization has always been conditioned by the length of the evaluated utterances. Despite performing well with large amounts of audio, significant degradations in performance are obtained when short utterances are considered. In this work we present an analysis of the short utterance problem providing an alternative point of view. From our perspective the performance in the evaluation of short utterances is highly influenced by the phonetic similarity between enrollment and test utterances. Both enrollment and test should contain similar phonemes to properly discriminate, being degraded otherwise. In this study we also interpret short utterances as incomplete long utterances where some acoustic units are either unbalanced or just missing. These missing units are responsible for the speaker representations to be unreliable. These unreliable representations are biased with respect to the reference counterparts, obtained from long utterances. These undesired shifts increase the intra-speaker variability, causing a significant loss of performance. According to our experiments, short utterances (3-60 s) can perform as accurate as if long utterances were involved by just reassuring the phonetic distributions. This analysis is determined by the current embedding extraction approach, based on the accumulation of local short-time information. Thus it is applicable to most of the state-of-the-art embeddings, including traditional i-vectors and Deep Neural Network (DNN) xvectors

    Advances in Subspace-based Solutions for Diarization in the Broadcast Domain

    Get PDF
    La motivaci贸n de esta tesis es la necesidad de soluciones robustas al problema de diarizaci贸n. Estas t茅cnicas de diarizaci贸n deben proporcionar valor a帽adido a la creciente cantidad disponible de datos multimedia mediante la precisa discriminaci贸n de los locutores presentes en la se帽al de audio. Desafortunadamente, hasta tiempos recientes este tipo de tecnolog铆as solamente era viable en condiciones restringidas, quedando por tanto lejos de una soluci贸n general. Las razones detr谩s de las limitadas prestaciones de los sistemas de diarizaci贸n son m煤ltiples. La primera causa a tener en cuenta es la alta complejidad de la producci贸n de la voz humana, en particular acerca de los procesos fisiol贸gicos necesarios para incluir las caracter铆sticas discriminativas de locutor en la se帽al de voz. Esta complejidad hace del proceso inverso, la estimaci贸n de dichas caracter铆sticas a partir del audio, una tarea ineficiente por medio de las t茅cnicas actuales del estado del arte. Consecuentemente, en su lugar deber谩n tenerse en cuenta aproximaciones. Los esfuerzos en la tarea de modelado han proporcionado modelos cada vez m谩s elaborados, aunque no buscando la explicaci贸n 煤ltima de naturaleza fisiol贸gica de la se帽al de voz. En su lugar estos modelos aprenden relaciones entre la se帽ales ac煤sticas a partir de un gran conjunto de datos de entrenamiento. El desarrollo de modelos aproximados genera a su vez una segunda raz贸n, la variabilidad de dominio. Debido al uso de relaciones aprendidas a partir de un conjunto de entrenamiento concreto, cualquier cambio de dominio que modifique las condiciones ac煤sticas con respecto a los datos de entrenamiento condiciona las relaciones asumidas, pudiendo causar fallos consistentes en los sistemas.Nuestra contribuci贸n a las tecnolog铆as de diarizaci贸n se ha centrado en el entorno de radiodifusi贸n. Este dominio es actualmente un entorno todav铆a complejo para los sistemas de diarizaci贸n donde ninguna simplificaci贸n de la tarea puede ser tenida en cuenta. Por tanto, se deber谩 desarrollar un modelado eficiente del audio para extraer la informaci贸n de locutor y como inferir el etiquetado correspondiente. Adem谩s, la presencia de m煤ltiples condiciones ac煤sticas debido a la existencia de diferentes programas y/o g茅neros en el domino requiere el desarrollo de t茅cnicas capaces de adaptar el conocimiento adquirido en un determinado escenario donde la informaci贸n est谩 disponible a aquellos entornos donde dicha informaci贸n es limitada o sencillamente no disponible.Para este prop贸sito el trabajo desarrollado a lo largo de la tesis se ha centrado en tres subtareas: caracterizaci贸n de locutor, agrupamiento y adaptaci贸n de modelos. La primera subtarea busca el modelado de un fragmento de audio para obtener representaciones precisas de los locutores involucrados, poniendo de manifiesto sus propiedades discriminativas. En este 谩rea se ha llevado a cabo un estudio acerca de las actuales estrategias de modelado, especialmente atendiendo a las limitaciones de las representaciones extra铆das y poniendo de manifiesto el tipo de errores que pueden generar. Adem谩s, se han propuesto alternativas basadas en redes neuronales haciendo uso del conocimiento adquirido. La segunda tarea es el agrupamiento, encargado de desarrollar estrategias que busquen el etiquetado 贸ptimo de los locutores. La investigaci贸n desarrollada durante esta tesis ha propuesto nuevas estrategias para estimar el mejor reparto de locutores basadas en t茅cnicas de subespacios, especialmente PLDA. Finalmente, la tarea de adaptaci贸n de modelos busca transferir el conocimiento obtenido de un conjunto de entrenamiento a dominios alternativos donde no hay datos para extraerlo. Para este prop贸sito los esfuerzos se han centrado en la extracci贸n no supervisada de informaci贸n de locutor del propio audio a diarizar, sinedo posteriormente usada en la adaptaci贸n de los modelos involucrados.<br /
    corecore