45 research outputs found

    Meta-learning with Latent Space Clustering in Generative Adversarial Network for Speaker Diarization

    Full text link
    The performance of most speaker diarization systems with x-vector embeddings is both vulnerable to noisy environments and lacks domain robustness. Earlier work on speaker diarization using generative adversarial network (GAN) with an encoder network (ClusterGAN) to project input x-vectors into a latent space has shown promising performance on meeting data. In this paper, we extend the ClusterGAN network to improve diarization robustness and enable rapid generalization across various challenging domains. To this end, we fetch the pre-trained encoder from the ClusterGAN and fine-tune it by using prototypical loss (meta-ClusterGAN or MCGAN) under the meta-learning paradigm. Experiments are conducted on CALLHOME telephonic conversations, AMI meeting data, DIHARD II (dev set) which includes challenging multi-domain corpus, and two child-clinician interaction corpora (ADOS, BOSCC) related to the autism spectrum disorder domain. Extensive analyses of the experimental data are done to investigate the effectiveness of the proposed ClusterGAN and MCGAN embeddings over x-vectors. The results show that the proposed embeddings with normalized maximum eigengap spectral clustering (NME-SC) back-end consistently outperform Kaldi state-of-the-art z-vector diarization system. Finally, we employ embedding fusion with x-vectors to provide further improvement in diarization performance. We achieve a relative diarization error rate (DER) improvement of 6.67% to 53.93% on the aforementioned datasets using the proposed fused embeddings over x-vectors. Besides, the MCGAN embeddings provide better performance in the number of speakers estimation and short speech segment diarization as compared to x-vectors and ClusterGAN in telephonic data.Comment: Submitted to IEEE/ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSIN

    A Review of Deep Learning Techniques for Speech Processing

    Full text link
    The field of speech processing has undergone a transformative shift with the advent of deep learning. The use of multiple processing layers has enabled the creation of models capable of extracting intricate features from speech data. This development has paved the way for unparalleled advancements in speech recognition, text-to-speech synthesis, automatic speech recognition, and emotion recognition, propelling the performance of these tasks to unprecedented heights. The power of deep learning techniques has opened up new avenues for research and innovation in the field of speech processing, with far-reaching implications for a range of industries and applications. This review paper provides a comprehensive overview of the key deep learning models and their applications in speech-processing tasks. We begin by tracing the evolution of speech processing research, from early approaches, such as MFCC and HMM, to more recent advances in deep learning architectures, such as CNNs, RNNs, transformers, conformers, and diffusion models. We categorize the approaches and compare their strengths and weaknesses for solving speech-processing tasks. Furthermore, we extensively cover various speech-processing tasks, datasets, and benchmarks used in the literature and describe how different deep-learning networks have been utilized to tackle these tasks. Additionally, we discuss the challenges and future directions of deep learning in speech processing, including the need for more parameter-efficient, interpretable models and the potential of deep learning for multimodal speech processing. By examining the field's evolution, comparing and contrasting different approaches, and highlighting future directions and challenges, we hope to inspire further research in this exciting and rapidly advancing field

    ECAPA-TDNN Embeddings for Speaker Diarization

    Full text link
    Learning robust speaker embeddings is a crucial step in speaker diarization. Deep neural networks can accurately capture speaker discriminative characteristics and popular deep embeddings such as x-vectors are nowadays a fundamental component of modern diarization systems. Recently, some improvements over the standard TDNN architecture used for x-vectors have been proposed. The ECAPA-TDNN model, for instance, has shown impressive performance in the speaker verification domain, thanks to a carefully designed neural model. In this work, we extend, for the first time, the use of the ECAPA-TDNN model to speaker diarization. Moreover, we improved its robustness with a powerful augmentation scheme that concatenates several contaminated versions of the same signal within the same training batch. The ECAPA-TDNN model turned out to provide robust speaker embeddings under both close-talking and distant-talking conditions. Our results on the popular AMI meeting corpus show that our system significantly outperforms recently proposed approaches

    Advances in Subspace-based Solutions for Diarization in the Broadcast Domain

    Get PDF
    La motivaci贸n de esta tesis es la necesidad de soluciones robustas al problema de diarizaci贸n. Estas t茅cnicas de diarizaci贸n deben proporcionar valor a帽adido a la creciente cantidad disponible de datos multimedia mediante la precisa discriminaci贸n de los locutores presentes en la se帽al de audio. Desafortunadamente, hasta tiempos recientes este tipo de tecnolog铆as solamente era viable en condiciones restringidas, quedando por tanto lejos de una soluci贸n general. Las razones detr谩s de las limitadas prestaciones de los sistemas de diarizaci贸n son m煤ltiples. La primera causa a tener en cuenta es la alta complejidad de la producci贸n de la voz humana, en particular acerca de los procesos fisiol贸gicos necesarios para incluir las caracter铆sticas discriminativas de locutor en la se帽al de voz. Esta complejidad hace del proceso inverso, la estimaci贸n de dichas caracter铆sticas a partir del audio, una tarea ineficiente por medio de las t茅cnicas actuales del estado del arte. Consecuentemente, en su lugar deber谩n tenerse en cuenta aproximaciones. Los esfuerzos en la tarea de modelado han proporcionado modelos cada vez m谩s elaborados, aunque no buscando la explicaci贸n 煤ltima de naturaleza fisiol贸gica de la se帽al de voz. En su lugar estos modelos aprenden relaciones entre la se帽ales ac煤sticas a partir de un gran conjunto de datos de entrenamiento. El desarrollo de modelos aproximados genera a su vez una segunda raz贸n, la variabilidad de dominio. Debido al uso de relaciones aprendidas a partir de un conjunto de entrenamiento concreto, cualquier cambio de dominio que modifique las condiciones ac煤sticas con respecto a los datos de entrenamiento condiciona las relaciones asumidas, pudiendo causar fallos consistentes en los sistemas.Nuestra contribuci贸n a las tecnolog铆as de diarizaci贸n se ha centrado en el entorno de radiodifusi贸n. Este dominio es actualmente un entorno todav铆a complejo para los sistemas de diarizaci贸n donde ninguna simplificaci贸n de la tarea puede ser tenida en cuenta. Por tanto, se deber谩 desarrollar un modelado eficiente del audio para extraer la informaci贸n de locutor y como inferir el etiquetado correspondiente. Adem谩s, la presencia de m煤ltiples condiciones ac煤sticas debido a la existencia de diferentes programas y/o g茅neros en el domino requiere el desarrollo de t茅cnicas capaces de adaptar el conocimiento adquirido en un determinado escenario donde la informaci贸n est谩 disponible a aquellos entornos donde dicha informaci贸n es limitada o sencillamente no disponible.Para este prop贸sito el trabajo desarrollado a lo largo de la tesis se ha centrado en tres subtareas: caracterizaci贸n de locutor, agrupamiento y adaptaci贸n de modelos. La primera subtarea busca el modelado de un fragmento de audio para obtener representaciones precisas de los locutores involucrados, poniendo de manifiesto sus propiedades discriminativas. En este 谩rea se ha llevado a cabo un estudio acerca de las actuales estrategias de modelado, especialmente atendiendo a las limitaciones de las representaciones extra铆das y poniendo de manifiesto el tipo de errores que pueden generar. Adem谩s, se han propuesto alternativas basadas en redes neuronales haciendo uso del conocimiento adquirido. La segunda tarea es el agrupamiento, encargado de desarrollar estrategias que busquen el etiquetado 贸ptimo de los locutores. La investigaci贸n desarrollada durante esta tesis ha propuesto nuevas estrategias para estimar el mejor reparto de locutores basadas en t茅cnicas de subespacios, especialmente PLDA. Finalmente, la tarea de adaptaci贸n de modelos busca transferir el conocimiento obtenido de un conjunto de entrenamiento a dominios alternativos donde no hay datos para extraerlo. Para este prop贸sito los esfuerzos se han centrado en la extracci贸n no supervisada de informaci贸n de locutor del propio audio a diarizar, sinedo posteriormente usada en la adaptaci贸n de los modelos involucrados.<br /
    corecore