2,703 research outputs found
Speaker segmentation and clustering
This survey focuses on two challenging speech processing topics, namely: speaker segmentation and speaker clustering. Speaker segmentation aims at finding speaker change points in an audio stream, whereas speaker clustering aims at grouping speech segments based on speaker characteristics. Model-based, metric-based, and hybrid speaker segmentation algorithms are reviewed. Concerning speaker clustering, deterministic and probabilistic algorithms are examined. A comparative assessment of the reviewed algorithms is undertaken, the algorithm advantages and disadvantages are indicated, insight to the algorithms is offered, and deductions as well as recommendations are given. Rich transcription and movie analysis are candidate applications that benefit from combined speaker segmentation and clustering. © 2007 Elsevier B.V. All rights reserved
Integration of speech biometrics in a phone payment system: text-independent speaker verification
Integration of a speaker recognition system in a payment system by phone.Nowadays, the integration of biometrics in security systems is a prominent research
and application field. Also, it is clear that speech is the most common form of
communication, which makes a swell candidate. While using speech as a biometric,
one could say there are two types of systems that should be analyzed: those systems
which do know what the speaker is going to say upon verification and those that
do not. This degree thesis offers an overview of both systems, focusing on those
that do not know what the speaker is going to say beforehand, also known as textindependent
systems. To be able to determine which would be the best approach
to integrate speech biometrics into a security system, both types of systems are
compared; and two methodologies are also analyzed for the text-independent system.
To conclude, one of those methodologies is implemented in a software library which
allows the creation a text-independent speaker verification system.En l’actualitat, la integració de biometries en els sistemes de seguretat és una branca
d’investigació i aplicacions prominent. A més a més, la veu és un dels mitjans més
comuns de comunicació, cosa que fa que sigui una bona candidata per a aquests
sistemes. Si prenem la parla com a biometria, es pot dir que hi ha dos tipus de
sistemes bastant diferenciats a analitzar: aquells sistemes els quals saben el que dirÃ
la persona que s’intenta verificar i aquells que no saben el que dirà . Aquest treball
ofereix una visió à mplia dels dos tipus de sistemes, centrant-se en els sistemes on no
es sap el que es dirà , també coneguts com sistemes de text independent. Per decidir
quin seria la millor manera d’integrar la parla com a biometria en un sistema de
seguretat, es comparen ambdós sistemes i, en el cas del sistema de text independent,
es comparen també dues metodologies diferents. Per acabar, s’implementa una
d’aquestes metodologies a unes llibreries de software per dur a terme un sistema de
verificació de locutor amb text independent.En la actualidad, la integración de biometrÃas en los sistemas de seguridad es una rama de investigación y de aplicaciones prominente. Además, está claro que la voz es el medio más común de comunicación y es por eso que es una buena candidata. Usando el habla como biometrÃa, se podrÃa decir que hay dos tipos de sistemas diferentes a analizar: aquellos sistemas que saben de antemano aquello que va a decir el locutor que intenta verificarse y aquellos que no lo saben. Este trabajo ofrece una visión amplia de los dos tipos de sistemas, centrándose en los sistemas donde aquello que se va a decir no se sabe, también conocidos como sistemas de texto independiente. Para decir cuál serÃa la mejor manera de integrar el habla como biometrÃa en un sistema de seguridad se comparan ambos sistemas y, en el caso del sistema de texto independiente, se comparan también dos metodologÃas diferentes. Para finalizar, se implementa una de estas últimas en unas librerÃas de software para poder llevar a cabo un sistema de verificación de locutor de texto independiente
End-to-end Online Speaker Diarization with Target Speaker Tracking
This paper proposes an online target speaker voice activity detection system
for speaker diarization tasks, which does not require a priori knowledge from
the clustering-based diarization system to obtain the target speaker
embeddings. By adapting the conventional target speaker voice activity
detection for real-time operation, this framework can identify speaker
activities using self-generated embeddings, resulting in consistent performance
without permutation inconsistencies in the inference phase. During the
inference process, we employ a front-end model to extract the frame-level
speaker embeddings for each coming block of a signal. Next, we predict the
detection state of each speaker based on these frame-level speaker embeddings
and the previously estimated target speaker embedding. Then, the target speaker
embeddings are updated by aggregating these frame-level speaker embeddings
according to the predictions in the current block. Our model predicts the
results for each block and updates the target speakers' embeddings until
reaching the end of the signal. Experimental results show that the proposed
method outperforms the offline clustering-based diarization system on the
DIHARD III and AliMeeting datasets. The proposed method is further extended to
multi-channel data, which achieves similar performance with the
state-of-the-art offline diarization systems.Comment: Submitted to IEEE/ACM Transactions on Audio, Speech, and Language
Processin
Métodos discriminativos para la optimización de modelos en la Verificación del Hablante
La creciente necesidad de sistemas de autenticación seguros ha motivado el interés de algoritmos efectivos de Verificación de Hablante (VH). Dicha necesidad de algoritmos de alto rendimiento, capaces de obtener tasas de error bajas, ha abierto varias ramas de investigación. En este trabajo proponemos investigar, desde un punto de vista discriminativo, un conjunto de metodologÃas para mejorar el desempeño del estado del arte de los sistemas de VH. En un primer enfoque investigamos la optimización de los hiper-parámetros para explÃcitamente considerar el compromiso entre los errores de falsa aceptación y falso rechazo. El objetivo de la optimización se puede lograr maximizando el área bajo la curva conocida como ROC (Receiver Operating Characteristic) por sus siglas en inglés. Creemos que esta optimización de los parámetros no debe de estar limitada solo a un punto de operación y una estrategia más robusta es optimizar los parámetros para incrementar el área bajo la curva, AUC (Area Under the Curve por sus siglas en inglés) de modo que todos los puntos sean maximizados. Estudiaremos cómo optimizar los parámetros utilizando la representación matemática del área bajo la curva ROC basada en la estadÃstica de Wilcoxon Mann Whitney (WMW) y el cálculo adecuado empleando el algoritmo de descendente probabilÃstico generalizado. Además, analizamos el efecto y mejoras en métricas como la curva detection error tradeoff (DET), el error conocido como Equal Error Rate (EER) y el valor mÃnimo de la función de detección de costo, minimum value of the detection cost function (minDCF) todos ellos por sue siglas en inglés. En un segundo enfoque, investigamos la señal de voz como una combinación de atributos que contienen información del hablante, del canal y el ruido. Los sistemas de verificación convencionales entrenan modelos únicos genéricos para todos los casos, y manejan las variaciones de estos atributos ya sea usando análisis de factores o no considerando esas variaciones de manera explÃcita. Proponemos una nueva metodologÃa para particionar el espacio de los datos de acuerdo a estas carcterÃsticas y entrenar modelos por separado para cada partición. Las particiones se pueden obtener de acuerdo a cada atributo. En esta investigación mostraremos como entrenar efectivamente los modelos de manera discriminativa para maximizar la separación entre ellos. Además, el diseño de algoritimos robustos a las condiciones de ruido juegan un papel clave que permite a los sistemas de VH operar en condiciones reales. Proponemos extender nuestras metodologÃas para mitigar los efectos del ruido en esas condiciones. Para nuestro primer enfoque, en una situación donde el ruido se encuentre presente, el punto de operación puede no ser solo un punto, o puede existir un corrimiento de forma impredecible. Mostraremos como nuestra metodologÃa de maximización del área bajo la curva ROC es más robusta que la usada por clasificadores convencionales incluso cuando el ruido no está explÃcitamente considerado. Además, podemos encontrar ruido a diferentes relación señal a ruido (SNR) que puede degradar el desempeño del sistema. AsÃ, es factible considerar una descomposición eficiente de las señales de voz que tome en cuenta los diferentes atributos como son SNR, el ruido y el tipo de canal. Consideramos que en lugar de abordar el problema con un modelo unificado, una descomposición en particiones del espacio de caracterÃsticas basado en atributos especiales puede proporcionar mejores resultados. Esos atributos pueden representar diferentes canales y condiciones de ruido. Hemos analizado el potencial de estas metodologÃas que permiten mejorar el desempeño del estado del arte de los sistemas reduciendo el error, y por otra parte controlar los puntos de operación y mitigar los efectos del ruido
Recommended from our members
Biologically inspired speaker verification
Speaker verification is an active research problem that has been addressed using a variety of different classification techniques. However, in general, methods inspired by the human auditory system tend to show better verification performance than other methods. In this thesis three biologically inspired speaker verification algorithms are presented
Automatic speaker recognition: modelling, feature extraction and effects of clinical environment
Speaker recognition is the task of establishing identity of an individual based on his/her voice. It has a significant potential as a convenient biometric method for telephony applications and does not require sophisticated or dedicated hardware. The Speaker Recognition task is typically achieved by two-stage signal processing: training and testing. The training process calculates speaker-specific feature parameters from the speech. The features are used to generate statistical models of different speakers. In the testing phase, speech samples from unknown speakers are compared with the models and classified. Current state of the art speaker recognition systems use the Gaussian mixture model (GMM) technique in combination with the Expectation Maximization (EM) algorithm to build the speaker models. The most frequently used features are the Mel Frequency Cepstral Coefficients (MFCC). This thesis investigated areas of possible improvements in the field of speaker recognition. The identified drawbacks of the current speaker recognition systems included: slow convergence rates of the modelling techniques and feature’s sensitivity to changes due aging of speakers, use of alcohol and drugs, changing health conditions and mental state. The thesis proposed a new method of deriving the Gaussian mixture model (GMM) parameters called the EM-ITVQ algorithm. The EM-ITVQ showed a significant improvement of the equal error rates and higher convergence rates when compared to the classical GMM based on the expectation maximization (EM) method. It was demonstrated that features based on the nonlinear model of speech production (TEO based features) provided better performance compare to the conventional MFCCs features. For the first time the effect of clinical depression on the speaker verification rates was tested. It was demonstrated that the speaker verification results deteriorate if the speakers are clinically depressed. The deterioration process was demonstrated using conventional (MFCC) features. The thesis also showed that when replacing the MFCC features with features based on the nonlinear model of speech production (TEO based features), the detrimental effect of the clinical depression on speaker verification rates can be reduced
- …