8 research outputs found

    Zweistufige kontextsensitive Sprecherklassifikation am Beispiel von Alter und Geschlecht

    Get PDF
    In der vorliegenden Dissertation wird ein zweistufiger Ansatz zur Sprecherklassifikation am Beispiel Alter und Geschlecht vorgestellt. Dazu werden zunächst die Ergebnisse umfangreicher Korpusanalysen präsentiert, die als Referenzbasis humanwissenschaftlicher Studien geeignet sind. Es wird gezeigt, dass die Modelle, die mithilfe dieser Daten trainiert wurden, in der Lage sind, die genannten Sprechereigenschaften mit einer Genauigkeit zu erkennen, die teilweise das Fünffache des jeweiligen Zufallsniveaus beträgt. Darüber hinaus zeichnet sich der vorgestellte Ansatz vor allen Dingen durch die so genannte Zweite Ebene aus, auf der mithilfe von Dynamischen Bayesschen Netzen eine Fusion multipler Klassifikationsergebnisse unter Berücksichtigung des auditiven Kontextes erfolgt. In der Arbeit wird außerdem ein konkretes Sprecherklassifikationssystem beschrieben, welches für das Anwendungsszenario von mobilen, sprachbasierten Dialogsystemen entwickelt worden ist.This dissertation describes a two-layered speaker classification approach on the example of age and gender. First of all, the results of comprehensive corpus analyses are presented that are suitable to serve as a reference basis for further studies in human sciences. It is showed, that the models which are trained using these data are able to recognize the above mentioned characteristics with an accuracy that is up to five times better than the respective chance level. In addition, the presented approach distinguishes itself by the so called Second Layer, on which a context sensitive fusion of multiple classification results is accomplished using Dynamic Bayesian Networks. The dissertation also describes a concrete speaker classification system which was developed for the application scenario of mobile spoken dialog systems

    Prosodic and other Long-Term Features for Speaker Diarization

    Full text link

    Die Rolle phonetischer Information in der Sprechererkennung

    Get PDF
    Die gesprochene Sprache enthält neben den phonetischen bzw. lexikalischen Informationen, die den Inhalt einer Äußerung ausmachen, auch Informationen über den Sprecher. Beide Informationstypen interagieren miteinander, was dazu führt, dass manche Segmente mehr Informationen über einen Sprecher enthalten als andere und dass Wissen über den Sprecher dabei helfen kann, die phonetischen Informationen besser zu verarbeiten und somit eine Äußerung besser zu verstehen. Außerdem stellt sich die Frage, wie diese Informationen im Hinblick auf ein Sprachwahrnehmungsmodell (abstraktionistisch vs. exemplarbasiert) integriert werden. Von diesem Stand ausgehend wird in dieser Arbeit der Einfluss der Segmente, insbesondere der Konsonanten, auf die Sprecherdiskrimination bzw. -identifikation untersucht. Dafür werden zunächst einige akustische Merkmale ausgewählter Konsonanten des Deutschen in einem Sprachkorpus analysiert. Es werden die ersten vier spektralen Momente der Laute gemessen und deren Sprecherspezifität bestimmt. Vor allem die Nasale /m/ und /n/ sowie die Frikative /f/ und /s/ offenbarten viele sprecherspezifische Merkmale. Aufgrund der Annahme, dass sich diese akustisch gemessenen Merkmale auch perzeptiv in irgendeiner Form manifestieren müssen, wurde ein Sprecherdiskriminationsexperiment mit Hörern durchgeführt. In beiden Experimenten war das Sprachmaterial eine /aKa/- Sequenz. Im ersten Experiment enthielt der gesamte Stimulus Sprecherinformationen, während im zweiten Experiment nur der (statische Teil vom) Konsonant, aber nicht die Vokaletransitionen Sprecherinformationen enthielt. In beiden Untersuchungen zeigen sich Unterschiede in der Sprecherspezifität zwischen den verschiedenen Artikulationsmodi und -stellen, wobei die durchschnittliche Sprecherdiskriminationsrate im zweiten Experiment deutlich geringer ist als im ersten. Die Ergebnisse lassen darauf schließen, dass Nasale und Plosive viele ihrer Informationen in den Vokaltransitionen enthalten, während die Frikative mehr Informationen im (statischen Bereich des) Konsonanten besitzen. Da die phonetischen und Sprecherinformationen miteinander interagieren, wurde im letzten Teil der Arbeit die zeitliche Koordination der Verarbeitung beider Informationstypen mittels eines Visual-World Eye-Tracking Experiments untersucht. Die Ergebnisse zeigen, dass die Hörer das Target mit großer Sicherheit identifizierten, aber dass mit steigender Anzahl an Sprechern (2 vs. 4 Sprecher) die Schwierigkeit der Targetidentifikation steigt. Im Fall von verschieden geschlechtlichen Sprechern wird zuerst das Geschlecht und dann der einzelne Sprecher erkannt. Außerdem wird nachgewiesen, dass die Sprecherinformationen tendenziell sogar früher verarbeitet werden als die phonetischen Informationen und selbst dann Verwendung finden, wenn phonetische Informationen allein zur Targetidentifikation ausreichend sind. In phonetisch ambigen Fällen werden die Sprecherinformationen verwendet, um diese Ambiguität zu verringern. Die Ergebnisse unterstreichen die Bedeutung von Sprecherinformationen in der Verarbeitung gesprochener Sprache und sprechen somit eher für ein episodisches, exemplarbasiertes Modell der Sprachwahrnehmung, welches Sprecherinformationen bereits zu einem frühen Zeitpunkt im Sprachverarbeitungsprozess integriert

    Die Rolle phonetischer Information in der Sprechererkennung

    Get PDF
    Die gesprochene Sprache enthält neben den phonetischen bzw. lexikalischen Informationen, die den Inhalt einer Äußerung ausmachen, auch Informationen über den Sprecher. Beide Informationstypen interagieren miteinander, was dazu führt, dass manche Segmente mehr Informationen über einen Sprecher enthalten als andere und dass Wissen über den Sprecher dabei helfen kann, die phonetischen Informationen besser zu verarbeiten und somit eine Äußerung besser zu verstehen. Außerdem stellt sich die Frage, wie diese Informationen im Hinblick auf ein Sprachwahrnehmungsmodell (abstraktionistisch vs. exemplarbasiert) integriert werden. Von diesem Stand ausgehend wird in dieser Arbeit der Einfluss der Segmente, insbesondere der Konsonanten, auf die Sprecherdiskrimination bzw. -identifikation untersucht. Dafür werden zunächst einige akustische Merkmale ausgewählter Konsonanten des Deutschen in einem Sprachkorpus analysiert. Es werden die ersten vier spektralen Momente der Laute gemessen und deren Sprecherspezifität bestimmt. Vor allem die Nasale /m/ und /n/ sowie die Frikative /f/ und /s/ offenbarten viele sprecherspezifische Merkmale. Aufgrund der Annahme, dass sich diese akustisch gemessenen Merkmale auch perzeptiv in irgendeiner Form manifestieren müssen, wurde ein Sprecherdiskriminationsexperiment mit Hörern durchgeführt. In beiden Experimenten war das Sprachmaterial eine /aKa/- Sequenz. Im ersten Experiment enthielt der gesamte Stimulus Sprecherinformationen, während im zweiten Experiment nur der (statische Teil vom) Konsonant, aber nicht die Vokaletransitionen Sprecherinformationen enthielt. In beiden Untersuchungen zeigen sich Unterschiede in der Sprecherspezifität zwischen den verschiedenen Artikulationsmodi und -stellen, wobei die durchschnittliche Sprecherdiskriminationsrate im zweiten Experiment deutlich geringer ist als im ersten. Die Ergebnisse lassen darauf schließen, dass Nasale und Plosive viele ihrer Informationen in den Vokaltransitionen enthalten, während die Frikative mehr Informationen im (statischen Bereich des) Konsonanten besitzen. Da die phonetischen und Sprecherinformationen miteinander interagieren, wurde im letzten Teil der Arbeit die zeitliche Koordination der Verarbeitung beider Informationstypen mittels eines Visual-World Eye-Tracking Experiments untersucht. Die Ergebnisse zeigen, dass die Hörer das Target mit großer Sicherheit identifizierten, aber dass mit steigender Anzahl an Sprechern (2 vs. 4 Sprecher) die Schwierigkeit der Targetidentifikation steigt. Im Fall von verschieden geschlechtlichen Sprechern wird zuerst das Geschlecht und dann der einzelne Sprecher erkannt. Außerdem wird nachgewiesen, dass die Sprecherinformationen tendenziell sogar früher verarbeitet werden als die phonetischen Informationen und selbst dann Verwendung finden, wenn phonetische Informationen allein zur Targetidentifikation ausreichend sind. In phonetisch ambigen Fällen werden die Sprecherinformationen verwendet, um diese Ambiguität zu verringern. Die Ergebnisse unterstreichen die Bedeutung von Sprecherinformationen in der Verarbeitung gesprochener Sprache und sprechen somit eher für ein episodisches, exemplarbasiertes Modell der Sprachwahrnehmung, welches Sprecherinformationen bereits zu einem frühen Zeitpunkt im Sprachverarbeitungsprozess integriert

    Eingebettete dynamische Bayessche Netze n-ter Ordnung

    Get PDF
    Das Ziel dieser Arbeit war die Konzeption, die Realisation und die Anwendung eines Systems, das eingebettete Systeme mit geringer Rechenleistung und wenig Arbeitsspeicher mit der Fähigkeit ausstattet, probabilistische Prozesse verarbeiten zu können. Die Grundlage für dieses System bildet der differentielle Ansatz von Darwiche zur Lösung Bayesscher Netze, der ein Bayessches Netz in ein multivariates Polynom umwandelt und dann auswertet. Diesen Ansatz von Darwiche haben wir so erweitert, dass nun auch die speziellen Bedürfnisse dynamischer Bayesscher Netze berücksichtigt werden. Aufbauend auf dieser theoretischen Ausarbeitung wurde eine Anwendung mit dem Namen JavaDBN entwickelt, die dynamische Bayessche Netze in spezielle Polynome umwandelt und für diese Quellcode generiert. Dieser Quellcode führt die Berechnungen für die Auswertung des Polynoms und das Anhängen neuer Zeitscheiben mit dem gleichzeitigen Rollup bei konstantem Speicherverbrauch durch. Für die Modellierung dynamischer Bayesscher Netze spezifizieren wir neue Modellierungsstrukturen im Zusammenhang mit der Benutzermodellierung und der Sensorverarbeitung und führen damit den Begriff der dynamischen Bayesschen Netze n-ter Ordnung ein.The aim of this work was the conception, realisation and application of a system that enables embedded systems with low computing power andmemory to execute probabilistic processes. The foundation of this system is the differential approach by Darwiche used to solve Bayesian networks, which converts a Bayesian network into a multivariate polynomial and then evaluates it. We extended this approach, such that it also fulfils the specialized requirements of dynamic Bayesian networks. Based on this theoretical elaboration, an application called JavaDBN was developed to convert dynamic Bayesian networks into specific polynomials and generate their networks'; source code. This source code executes the computations for the evaluation of the polynomials and for the addition of new time slices with simultaneous roll-up with constant space requirements. To model dynamic Bayesian networks, we specified new modelling structures for the domains of user modelling and sensor processing and introduce the term of dynamic Bayesian networks of n-th order

    Zweistufige kontextsensitive Sprecherklassifikation am Beispiel von Alter und Geschlecht

    No full text
    In der vorliegenden Dissertation wird ein zweistufiger Ansatz zur Sprecherklassifikation am Beispiel Alter und Geschlecht vorgestellt. Dazu werden zunächst die Ergebnisse umfangreicher Korpusanalysen präsentiert, die als Referenzbasis humanwissenschaftlicher Studien geeignet sind. Es wird gezeigt, dass die Modelle, die mithilfe dieser Daten trainiert wurden, in der Lage sind, die genannten Sprechereigenschaften mit einer Genauigkeit zu erkennen, die teilweise das Fünffache des jeweiligen Zufallsniveaus beträgt. Darüber hinaus zeichnet sich der vorgestellte Ansatz vor allen Dingen durch die so genannte Zweite Ebene aus, auf der mithilfe von Dynamischen Bayesschen Netzen eine Fusion multipler Klassifikationsergebnisse unter Berücksichtigung des auditiven Kontextes erfolgt. In der Arbeit wird außerdem ein konkretes Sprecherklassifikationssystem beschrieben, welches für das Anwendungsszenario von mobilen, sprachbasierten Dialogsystemen entwickelt worden ist.This dissertation describes a two-layered speaker classification approach on the example of age and gender. First of all, the results of comprehensive corpus analyses are presented that are suitable to serve as a reference basis for further studies in human sciences. It is showed, that the models which are trained using these data are able to recognize the above mentioned characteristics with an accuracy that is up to five times better than the respective chance level. In addition, the presented approach distinguishes itself by the so called Second Layer, on which a context sensitive fusion of multiple classification results is accomplished using Dynamic Bayesian Networks. The dissertation also describes a concrete speaker classification system which was developed for the application scenario of mobile spoken dialog systems

    A speaker classification framework for non-intrusive user modeling : speech-based personalization of in-car services

    Get PDF
    Speaker Classification, i.e. the automatic detection of certain characteristics of a person based on his or her voice, has a variety of applications in modern computer technology and artificial intelligence: As a non-intrusive source for user modeling, it can be employed for personalization of human-machine interfaces in numerous domains. This dissertation presents a principled approach to the design of a novel Speaker Classification system for automatic age and gender recognition which meets these demands. Based on literature studies, methods and concepts dealing with the underlying pattern recognition task are developed. The final system consists of an incremental GMM-SVM supervector architecture with several optimizations. An extensive data-driven experiment series explores the parameter space and serves as evaluation of the component. Further experiments investigate the language-independence of the approach. As an essential part of this thesis, a framework is developed that implements all tasks associated with the design and evaluation of Speaker Classification in an integrated development environment that is able to generate efficient runtime modules for multiple platforms. Applications from the automotive field and other domains demonstrate the practical benefit of the technology for personalization, e.g. by increasing local danger warning lead time for elderly drivers.Die Sprecherklassifikation, also die automatische Erkennung bestimmter Merkmale einer Person anhand ihrer Stimme, besitzt eine Vielzahl von Anwendungsmöglichkeiten in der modernen Computertechnik und Künstlichen Intelligenz: Als nicht-intrusive Wissensquelle für die Benutzermodellierung kann sie zur Personalisierung in vielen Bereichen eingesetzt werden. In dieser Dissertation wird ein fundierter Ansatz zum Entwurf eines neuartigen Sprecherklassifikationssystems zur automatischen Bestimmung von Alter und Geschlecht vorgestellt, welches diese Anforderungen erfüllt. Ausgehend von Literaturstudien werden Konzepte und Methoden zur Behandlung des zugrunde liegenden Mustererkennungsproblems entwickelt, welche zu einer inkrementell arbeitenden GMM-SVM-Supervector-Architektur mit diversen Optimierungen führen. Eine umfassende datengetriebene Experimentalreihe dient der Erforschung des Parameterraumes und zur Evaluierung der Komponente. Weitere Studien untersuchen die Sprachunabhängigkeit des Ansatzes. Als wesentlicher Bestandteil der Arbeit wird ein Framework entwickelt, das alle im Zusammenhang mit Entwurf und Evaluierung von Sprecherklassifikation anfallenden Aufgaben in einer integrierten Entwicklungsumgebung implementiert, welche effiziente Laufzeitmodule für verschiedene Plattformen erzeugen kann. Anwendungen aus dem Automobilbereich und weiteren Domänen demonstrieren den praktischen Nutzen der Technologie zur Personalisierung, z.B. indem die Vorlaufzeit von lokalen Gefahrenwarnungen für ältere Fahrer erhöht wird

    Context-based multimodal interpretation : an integrated approach to multimodal fusion and discourse processing

    Get PDF
    This thesis is concerned with the context-based interpretation of verbal and nonverbal contributions to interactions in multimodal multiparty dialogue systems. On the basis of a detailed analysis of context-dependent multimodal discourse phenomena, a comprehensive context model is developed. This context model supports the resolution of a variety of referring and elliptical expressions as well as the processing and reactive generation of turn-taking signals and the identification of the intended addressee(s) of a contribution. A major goal of this thesis is the development of a generic component for multimodal fusion and discourse processing. Based on the integration of this component into three distinct multimodal dialogue systems, the generic applicability of the approach is shown.Diese Dissertation befasst sich mit der kontextbasierten Interpretation von verbalen und nonverbalen Gesprächsbeiträgen im Rahmen von multimodalen Dialogsystemen. Im Rahmen dieser Arbeit wird, basierend auf einer detaillierten Analyse multimodaler Diskursphänomene, ein umfassendes Modell des Gesprächskontextes erarbeitet. Dieses Modell soll sowohl die Verarbeitung einer Vielzahl von referentiellen und elliptischen Ausdrücken, als auch die Erzeugung reaktiver Aktionen wie sie für den Sprecherwechsel benötigt werden unterstützen. Ein zentrales Ziel dieser Arbeit ist die Entwicklung einer generischen Komponente zur multimodalen Fusion und Diskursverarbeitung. Anhand der Integration dieser Komponente in drei unterschiedliche Dialogsysteme soll der generische Charakter dieser Komponente gezeigt werden
    corecore