36 research outputs found

    Efficient speaker recognition for mobile devices

    Get PDF

    Exploring I-vector based speaker age estimation

    Get PDF

    A speaker classification framework for non-intrusive user modeling : speech-based personalization of in-car services

    Get PDF
    Speaker Classification, i.e. the automatic detection of certain characteristics of a person based on his or her voice, has a variety of applications in modern computer technology and artificial intelligence: As a non-intrusive source for user modeling, it can be employed for personalization of human-machine interfaces in numerous domains. This dissertation presents a principled approach to the design of a novel Speaker Classification system for automatic age and gender recognition which meets these demands. Based on literature studies, methods and concepts dealing with the underlying pattern recognition task are developed. The final system consists of an incremental GMM-SVM supervector architecture with several optimizations. An extensive data-driven experiment series explores the parameter space and serves as evaluation of the component. Further experiments investigate the language-independence of the approach. As an essential part of this thesis, a framework is developed that implements all tasks associated with the design and evaluation of Speaker Classification in an integrated development environment that is able to generate efficient runtime modules for multiple platforms. Applications from the automotive field and other domains demonstrate the practical benefit of the technology for personalization, e.g. by increasing local danger warning lead time for elderly drivers.Die Sprecherklassifikation, also die automatische Erkennung bestimmter Merkmale einer Person anhand ihrer Stimme, besitzt eine Vielzahl von Anwendungsmöglichkeiten in der modernen Computertechnik und Künstlichen Intelligenz: Als nicht-intrusive Wissensquelle für die Benutzermodellierung kann sie zur Personalisierung in vielen Bereichen eingesetzt werden. In dieser Dissertation wird ein fundierter Ansatz zum Entwurf eines neuartigen Sprecherklassifikationssystems zur automatischen Bestimmung von Alter und Geschlecht vorgestellt, welches diese Anforderungen erfüllt. Ausgehend von Literaturstudien werden Konzepte und Methoden zur Behandlung des zugrunde liegenden Mustererkennungsproblems entwickelt, welche zu einer inkrementell arbeitenden GMM-SVM-Supervector-Architektur mit diversen Optimierungen führen. Eine umfassende datengetriebene Experimentalreihe dient der Erforschung des Parameterraumes und zur Evaluierung der Komponente. Weitere Studien untersuchen die Sprachunabhängigkeit des Ansatzes. Als wesentlicher Bestandteil der Arbeit wird ein Framework entwickelt, das alle im Zusammenhang mit Entwurf und Evaluierung von Sprecherklassifikation anfallenden Aufgaben in einer integrierten Entwicklungsumgebung implementiert, welche effiziente Laufzeitmodule für verschiedene Plattformen erzeugen kann. Anwendungen aus dem Automobilbereich und weiteren Domänen demonstrieren den praktischen Nutzen der Technologie zur Personalisierung, z.B. indem die Vorlaufzeit von lokalen Gefahrenwarnungen für ältere Fahrer erhöht wird

    Robust speaker diarization for meetings

    Get PDF
    Aquesta tesi doctoral mostra la recerca feta en l'àrea de la diarització de locutor per a sales de reunions. En la present s'estudien els algorismes i la implementació d'un sistema en diferit de segmentació i aglomerat de locutor per a grabacions de reunions a on normalment es té accés a més d'un micròfon per al processat. El bloc més important de recerca s'ha fet durant una estada al International Computer Science Institute (ICSI, Berkeley, Caligornia) per un període de dos anys.La diarització de locutor s'ha estudiat força per al domini de grabacions de ràdio i televisió. La majoria dels sistemes proposats utilitzen algun tipus d'aglomerat jeràrquic de les dades en grups acústics a on de bon principi no se sap el número de locutors òptim ni tampoc la seva identitat. Un mètode molt comunment utilitzat s'anomena "bottom-up clustering" (aglomerat de baix-a-dalt), amb el qual inicialment es defineixen molts grups acústics de dades que es van ajuntant de manera iterativa fins a obtenir el nombre òptim de grups tot i acomplint un criteri de parada. Tots aquests sistemes es basen en l'anàlisi d'un canal d'entrada individual, el qual no permet la seva aplicació directa per a reunions. A més a més, molts d'aquests algorisms necessiten entrenar models o afinar els parameters del sistema usant dades externes, el qual dificulta l'aplicabilitat d'aquests sistemes per a dades diferents de les usades per a l'adaptació.La implementació proposada en aquesta tesi es dirigeix a solventar els problemes mencionats anteriorment. Aquesta pren com a punt de partida el sistema existent al ICSI de diarització de locutor basat en l'aglomerat de "baix-a-dalt". Primer es processen els canals de grabació disponibles per a obtindre un sol canal d'audio de qualitat major, a més dínformació sobre la posició dels locutors existents. Aleshores s'implementa un sistema de detecció de veu/silenci que no requereix de cap entrenament previ, i processa els segments de veu resultant amb una versió millorada del sistema mono-canal de diarització de locutor. Aquest sistema ha estat modificat per a l'ús de l'informació de posició dels locutors (quan es tingui) i s'han adaptat i creat nous algorismes per a que el sistema obtingui tanta informació com sigui possible directament del senyal acustic, fent-lo menys depenent de les dades de desenvolupament. El sistema resultant és flexible i es pot usar en qualsevol tipus de sala de reunions pel que fa al nombre de micròfons o la seva posició. El sistema, a més, no requereix en absolute dades d´entrenament, sent més senzill adaptar-lo a diferents tipus de dades o dominis d'aplicació. Finalment, fa un pas endavant en l'ús de parametres que siguin mes robusts als canvis en les dades acústiques. Dos versions del sistema es van presentar amb resultats excel.lents a les evaluacions de RT05s i RT06s del NIST en transcripció rica per a reunions, a on aquests es van avaluar amb dades de dos subdominis diferents (conferencies i reunions). A més a més, es fan experiments utilitzant totes les dades disponibles de les evaluacions RT per a demostrar la viabilitat dels algorisms proposats en aquesta tasca.This thesis shows research performed into the topic of speaker diarization for meeting rooms. It looks into the algorithms and the implementation of an offline speaker segmentation and clustering system for a meeting recording where usually more than one microphone is available. The main research and system implementation has been done while visiting the International Computes Science Institute (ICSI, Berkeley, California) for a period of two years. Speaker diarization is a well studied topic on the domain of broadcast news recordings. Most of the proposed systems involve some sort of hierarchical clustering of the data into clusters, where the optimum number of speakers of their identities are unknown a priory. A very commonly used method is called bottom-up clustering, where multiple initial clusters are iteratively merged until the optimum number of clusters is reached, according to some stopping criterion. Such systems are based on a single channel input, not allowing a direct application for the meetings domain. Although some efforts have been done to adapt such systems to multichannel data, at the start of this thesis no effective implementation had been proposed. Furthermore, many of these speaker diarization algorithms involve some sort of models training or parameter tuning using external data, which impedes its usability with data different from what they have been adapted to.The implementation proposed in this thesis works towards solving the aforementioned problems. Taking the existing hierarchical bottom-up mono-channel speaker diarization system from ICSI, it first uses a flexible acoustic beamforming to extract speaker location information and obtain a single enhanced signal from all available microphones. It then implements a train-free speech/non-speech detection on such signal and processes the resulting speech segments with an improved version of the mono-channel speaker diarization system. Such system has been modified to use speaker location information (then available) and several algorithms have been adapted or created new to adapt the system behavior to each particular recording by obtaining information directly from the acoustics, making it less dependent on the development data.The resulting system is flexible to any meetings room layout regarding the number of microphones and their placement. It is train-free making it easy to adapt to different sorts of data and domains of application. Finally, it takes a step forward into the use of parameters that are more robust to changes in the acoustic data. Two versions of the system were submitted with excellent results in RT05s and RT06s NIST Rich Transcription evaluations for meetings, where data from two different subdomains (lectures and conferences) was evaluated. Also, experiments using the RT datasets from all meetings evaluations were used to test the different proposed algorithms proving their suitability to the task.Postprint (published version

    Autenticación Biométrica basada en interacción con pantalla táctil

    Full text link
    La gran popularidad de los smarthphones y el incremento en su uso para aplicaciones diariamente ha provocado que lleven información sensible, como los detalles de nuestras cuentas bancarias, contraseñas o correos electrónicos. Motivados por las limitaciones en seguridad de los sistemas tradicionales (por ejemplo, códigos PIN, patrones secretos), que pueden romperse fácilmente, se han desarrollado nuevos métodos usando biometrías para autenticar a los usuarios. Uno de estos métodos es la autenticación continua, en la cual un usuario es autenticado de forma pasiva, haciendo uso de sus biometrías. De esta manera, se garantiza la seguridad más allá del punto de acceso, asegurando que la persona que usa el dispositivo es la misma que se inscribió. Entre estos métodos para autenticación continua, este trabajo se centra en el uso de la interacción habitual de los usuarios con la pantalla táctil. Cada persona se comporta de forma diferente al deslizar los dedos por la pantalla. Teniendo en cuenta la frecuencia con la cual se efectúan las distintas operaciones, hábitos característicos, como la fuerza, el ritmo o el ángulo usados dan como resultado patrones discriminativos que se pueden usar para autenticar a los usuarios. En el presente trabajo se exploran dos enfoques distintos para la autenticación basada en interacción con pantalla táctil: discriminativo basado en máquinas vector-soporte, y estadístico basado en mezclas de Gaussianas. Adicionalmente, se estudia un sistema basado en la fusión de los dos anteriores. La base de datos usada para el análisis se compone de datos táctiles de las operaciones más comunes, como por ejemplo los trazos hechos al deslizar un dedo por la pantalla, obtenidos de 190 sujetos. Se utiliza como referencia un artículo de la literatura, mejorando sus resultados. Usando bloques de diez trazos para la autenticación, se obtienen tasas de Equal Error Rate entre el 8% y el 22% para diferentes operaciones táctiles. Aunque el enfoque estadístico obtiene resultados ligeramente peores que las máquinas vector-soporte, es capaz de autenticar usuarios que tienen mal rendimiento en el otro sistema debido a la gran variabilidad intra-usuario. De esta forma, al fusionar los sistemas éstos se complementan entre sí. El rendimiento en distintas operaciones muestra que algunos gestos contienen más información del usuario y son más discriminativos que otros (en particular, los trazos horizontales son más discriminativos que los verticales). Los resultados experimentales muestran que las biometrías táctiles son lo suficientemente discriminativas para reconocimiento de personas y que son un método prometedor para la autenciación activa.The great popularity of smartphones and the increase in their use in everyday applications has led to sensitive information being carried in them, such as our bank account details, passwords or emails. Motivated by the limited security of traditional systems (i.e. PIN codes, secret patterns), which can be easily broken, new methods using biometrics to authenticate users have been developed. One of these methods is active authentication, where the user is passively being authenticated in the background, based in his biometrics. This way, security in guaranteed beyond the entry point, ensuring that the person who uses the device is the same user who enrolled. Among the methods for active authentication, this work studies the users’ normal interaction with touchscreens. Every person behaves differently when swiping their fingers on a touchscreen. Giventhefrequencyinwhichtouchoperationsareperformed, characteristichabits, like the strength, rhythm or angle used result in discriminative patterns that can be used to authenticate users. In the present work, we explore two recognition approaches for authentication based on touchscreen interaction: discriminative based on Support Vector Machines, and statistical based on adapted Gaussian Mixture Models. Additionally, a system based on the fusion of the two previous systems is studied. The database used for the analysis consists of touch data from the most common operations, i.e., swipes made with one finger on the screen, collected from 190 subjects. An article in the literature is used as a reference, improving its results. Using blocks of ten strokes for authentication, Equal Error Rates between 8% and 22% are obtained for different kind of touch operations. While the statistical approach obtains slightly worse performance than Support Vector Machines, it is capable of authenticating users who obtain bad performances with the other system because of large intra-user variability. That way, both systems complement each other when fusing them. The performance across different kinds of touch operations shows that some gestures hold more user-specific information and are more discriminative than others (in particular, horizontal swipes appear to be more discriminative than verticalones). Theexperimentalresultsshowthattouchbiometricshaveenoughdiscriminability for person recognition and that they are a promising method for active authentication
    corecore