4 research outputs found

    Zweistufige kontextsensitive Sprecherklassifikation am Beispiel von Alter und Geschlecht

    Get PDF
    In der vorliegenden Dissertation wird ein zweistufiger Ansatz zur Sprecherklassifikation am Beispiel Alter und Geschlecht vorgestellt. Dazu werden zunächst die Ergebnisse umfangreicher Korpusanalysen präsentiert, die als Referenzbasis humanwissenschaftlicher Studien geeignet sind. Es wird gezeigt, dass die Modelle, die mithilfe dieser Daten trainiert wurden, in der Lage sind, die genannten Sprechereigenschaften mit einer Genauigkeit zu erkennen, die teilweise das Fünffache des jeweiligen Zufallsniveaus beträgt. Darüber hinaus zeichnet sich der vorgestellte Ansatz vor allen Dingen durch die so genannte Zweite Ebene aus, auf der mithilfe von Dynamischen Bayesschen Netzen eine Fusion multipler Klassifikationsergebnisse unter Berücksichtigung des auditiven Kontextes erfolgt. In der Arbeit wird außerdem ein konkretes Sprecherklassifikationssystem beschrieben, welches für das Anwendungsszenario von mobilen, sprachbasierten Dialogsystemen entwickelt worden ist.This dissertation describes a two-layered speaker classification approach on the example of age and gender. First of all, the results of comprehensive corpus analyses are presented that are suitable to serve as a reference basis for further studies in human sciences. It is showed, that the models which are trained using these data are able to recognize the above mentioned characteristics with an accuracy that is up to five times better than the respective chance level. In addition, the presented approach distinguishes itself by the so called Second Layer, on which a context sensitive fusion of multiple classification results is accomplished using Dynamic Bayesian Networks. The dissertation also describes a concrete speaker classification system which was developed for the application scenario of mobile spoken dialog systems

    Collaborative Human-Machine Communication: User- and situation-oriented design of automotive Speech Dialog Systems

    Get PDF
    Diese Arbeit adressiert die Implementation zwischenmenschlicher Dialogprinzipien im Rahmen der Gestaltung automotiver Sprachdialogsystemen (SDS). Der Transfer der kollaborativen Strategien, insbesondere die kontinuierliche, nutzer- und situationsabhängige Vermittlung von Feedback soll Gegenstand von empirischen Untersuchungen sein. Obwohl in den letzten Jahrzehnten deutliche Verbesserungen der Spracherkennungstechnologie erreicht werden konnten, übernehmen aktuelle SDS die kooperative Verantwortung des Empfängers, dem Sprecher Indizien über die eigenen Verstehensprozesse zu präsentieren und den gemeinsamen Aufwand zu minimieren, nur unzureichend. Die vorliegende Dissertation diskutiert nicht-technische Lösungsansätze, die die Anpassung des Systemverhaltens an bestehende Kommunikationsprozesse vorsehen, um die Koordination der Wissensstände zwischen Mensch und Maschine zu ermöglichen. Drei verschiedene Grounding-Elemente wurden auf die Mensch-Maschine-Interaktion angewendet. Zunächst wurde ein System implementiert, welches visuelle Repräsentationen der Dialoginhalte und -zustände bot. In einer zweiten Umsetzung wurde ein flexibles System Grounding Criterion in Anlehnung an menschliches Rückfrageverhalten umgesetzt, so dass das System nur dann eine Bestätigungsanfrage erbat, wenn es sich unsicher war. Das dritte System adressierte Angleichungsprozesse in dem die Systemausgabe syntaktisch und lexikalisch an die Nutzereingabe angepasst wurde. Um den Einfluss dieser drei Umsetzungen auf Gebrauchstauglichkeitsbeurteilungen zu untersuchen, wurden umfangreiche Nutzerstudien im Fahrsimulator durchgeführt. Die Ergebnisse der empirischen Untersuchungen zeigen, dass die Anpassung von SDS an bestehende Kommunikationsstrategien zu erhöhter Nutzerzufriedenheit führen kann. Die Implementation eines flexiblen Grounding Criterions stellte dabei den erfolgreichsten Transfer von zwischenmenschlichen Dialogstrategien auf den Mensch-Maschine-Dialog dar.This work addresses the evaluation of speech dialog systems (SDS) that make use of collaborative strategies from human dialog by providing continuous and appropriate feedback whilst showing adaptive interaction structures. Users’ experience with today’s spoken dialog systems is characterized by interaction structures which do not meet their expectations. The fact that users feel uncomfortable while interacting with current systems can be explained as failed grounding processes, in which users lack evidence to coordinate their knowledge states with the SDS. This thesis proposes solutions of how to overcome difficulties with in-vehicle speech dialog systems from a non-technical point of view by adapting the system behavior to existing communication strategies. Three different grounding strategies were applied to the human machine dialog. Firstly, a system was implemented that gave visual representation of the dialog content and processes. Secondly, a flexible system grounding criterion was realized, so that the system only asked for confirmation if it was insecure, similar to what humans do. The third implementation was concerned with alignment strategies namely by adapting the system’s output syntactically and lexically towards the users’ input. User studies were conducted to examine the impact of these three implementations on usability ratings. While driving the simulator, subjects were using the different SDS for several tasks concerning the address book. The results of the evaluations show, that adapting the SDS to existing communication strategies can lead to improved user satisfaction despite the persisting shortcomings of state-of-the-art speech technology. The implementation of a flexible grounding criterion, which could enhance the efficiency and effectiveness of the interaction, was thereby the most successful transfer from human communication strategies to human machine dialog

    Grundlagen der Informationswissenschaft

    Get PDF
    corecore