499 research outputs found

    Exploring I-vector based speaker age estimation

    Get PDF

    A speaker classification framework for non-intrusive user modeling : speech-based personalization of in-car services

    Get PDF
    Speaker Classification, i.e. the automatic detection of certain characteristics of a person based on his or her voice, has a variety of applications in modern computer technology and artificial intelligence: As a non-intrusive source for user modeling, it can be employed for personalization of human-machine interfaces in numerous domains. This dissertation presents a principled approach to the design of a novel Speaker Classification system for automatic age and gender recognition which meets these demands. Based on literature studies, methods and concepts dealing with the underlying pattern recognition task are developed. The final system consists of an incremental GMM-SVM supervector architecture with several optimizations. An extensive data-driven experiment series explores the parameter space and serves as evaluation of the component. Further experiments investigate the language-independence of the approach. As an essential part of this thesis, a framework is developed that implements all tasks associated with the design and evaluation of Speaker Classification in an integrated development environment that is able to generate efficient runtime modules for multiple platforms. Applications from the automotive field and other domains demonstrate the practical benefit of the technology for personalization, e.g. by increasing local danger warning lead time for elderly drivers.Die Sprecherklassifikation, also die automatische Erkennung bestimmter Merkmale einer Person anhand ihrer Stimme, besitzt eine Vielzahl von Anwendungsmöglichkeiten in der modernen Computertechnik und Künstlichen Intelligenz: Als nicht-intrusive Wissensquelle für die Benutzermodellierung kann sie zur Personalisierung in vielen Bereichen eingesetzt werden. In dieser Dissertation wird ein fundierter Ansatz zum Entwurf eines neuartigen Sprecherklassifikationssystems zur automatischen Bestimmung von Alter und Geschlecht vorgestellt, welches diese Anforderungen erfüllt. Ausgehend von Literaturstudien werden Konzepte und Methoden zur Behandlung des zugrunde liegenden Mustererkennungsproblems entwickelt, welche zu einer inkrementell arbeitenden GMM-SVM-Supervector-Architektur mit diversen Optimierungen führen. Eine umfassende datengetriebene Experimentalreihe dient der Erforschung des Parameterraumes und zur Evaluierung der Komponente. Weitere Studien untersuchen die Sprachunabhängigkeit des Ansatzes. Als wesentlicher Bestandteil der Arbeit wird ein Framework entwickelt, das alle im Zusammenhang mit Entwurf und Evaluierung von Sprecherklassifikation anfallenden Aufgaben in einer integrierten Entwicklungsumgebung implementiert, welche effiziente Laufzeitmodule für verschiedene Plattformen erzeugen kann. Anwendungen aus dem Automobilbereich und weiteren Domänen demonstrieren den praktischen Nutzen der Technologie zur Personalisierung, z.B. indem die Vorlaufzeit von lokalen Gefahrenwarnungen für ältere Fahrer erhöht wird

    Multimedia Context Awareness for Smart Mobile Environments

    Get PDF
    openNowadays the development of the IoT framework and the resulting huge number of smart connected devices opens the door to exploit the presence of multiple smart nodes to accomplish a variety of tasks. Multimedia context awareness, together with the concept of ambient intelligence, is tightly related to the IoT framework, and it can be applied to a large number of smart scenarios. In this thesis, the aim is to study and analyze the role of context awareness in different applications related to smart mobile environments, such as future smart spaces and connected cities. Indeed, this research work focuses on different aspects of ambient intelligence, such as audio-awareness and wireless-awareness. In particular, this thesis tackles two main research topics: the first one, related to the framework of audio-awareness, concerns a multiple observations approach for smart speaker recognition in mobile environments; the second one, tied to the concept of wireless-awareness, regards Unmanned Aerial Vehicle (UAV) detection based on WiFi statistical fingerprint analysis.openXXXI CICLO - SC. E TECN. ING. ELETTR. E DELLE TEL. - Ambienti cognitivi interattiviGaribotto, Chiar

    The Last Decade of HCI Research on Children and Voice-based Conversational Agents

    Get PDF
    Voice-based Conversational Agents (CAs) are increasingly being used by children. Through a review of 38 research papers, this work maps trends, themes, and methods of empirical research on children and CAs in HCI research over the last decade. A thematic analysis of the research found that work in this domain focuses on seven key topics: ascribing human-like qualities to CAs, CAs’ support of children’s learning, the use and role of CAs in the home and family context, CAs’ support of children’s play, children’s storytelling with CA, issues concerning the collection of information revealed by CAs, and CAs designed for children with differing abilities. Based on our findings, we identify the needs to account for children's intersectional identities and linguistic and cultural diversity and theories from multiple disciples in the design of CAs, develop heuristics for child-centric interaction with CAs, to investigate implications of CAs on social cognition and interpersonal relationships, and to examine and design for multi-party interactions with CAs for different domains and contexts

    Conversational agents with personality

    Get PDF
    Conversational agents (CAs) such as voice assistants and chatbots have permeated people's everyday lives. When interacting with these CAs, people automatically attribute a personality to them regardless of whether the CA designer intended it or not. This personality attribution fundamentally influences people's interaction behaviour and attitude towards the CA. By deliberately shaping the CA personality, designers have the opportunity to steer these automatic personality attributions in a desired direction. However, little information is available on how to design such a desired personality impression for a CA. Furthermore, in inter-human interaction, there is no such thing as a perfect personality. Nonetheless, today's commercial CAs have adopted a one-size-fits-all approach to their personality design, ignoring the potential benefits of adaptation. These two insights, namely (1) that users assign a personality to CAs and (2) that there is no such thing as a perfect personality, motivate the vision of this thesis: To improve the interaction between users and CAs by deliberately imbuing CAs with personality and tailoring them to user preferences. This dissertation pursues two primary goals to realise this vision: (1) to develop methods to imbue CAs with personality systematically and (2) to examine user preferences for CA personalities. To achieve the first goal, I introduce two approaches to imbue CAs with personality based on two underlying personality descriptions. The first approach adopts the human Big Five personality model as the theoretical basis for describing CA personality. This adoption allows me to transfer behaviour cues associated with human personality traits compiled from the psycholinguistic literature and my work to synthesise three levels of Agreeableness and Extraversion implemented in fully functional text-based CAs. An empirical evaluation of users' perceptions of these CAs after interacting with them demonstrates that human behaviour cues may be used to synthesise Agreeableness. However, they are insufficient to elicit the impression of low Extraversion or paint a complete picture of CA personality. Due to this insufficiency, I develop a second approach in which I explore whether the human Big Five model can be used to describe CA personality. To this end, I apply the psycholexical approach, which yields ten personality dimensions that do not correspond with the human Big Five model. Consequently, I propose these ten dimensions as an alternative comprehensive way to describe CA personality and introduce a new method, Enactment-based Dialogue Design, to synthesise personality based on these ten dimensions. To achieve the second goal, I present two approaches to examine user preferences for CA personality. Using a deductive approach, I investigate whether users prefer low, average, or high levels of four different personality dimensions in a CA in the context of different use cases. These investigations show that users have very individual preferences for the dimensions Extraversion and Social-Entertaining, whereas the majority prefer CAs that have a medium or high level of Agreeableness and a low level of Confrontational. I find the deductive approach to be useful for capturing users' evaluation of a personality-imbued CA, but it is not effective in collecting user requirements and visions of a perfect CA. The second inductive approach, however, furnishes a novel pragmatic method to better engage users in developing CA personalities. In this context, I also examine the influence of users’ personalities on their preferences for CA personality, but the effects are minimal. In summary, this thesis makes the following contributions to imbuing CAs with personality: (1) theoretical clarity on the necessity of dedicated personality descriptions for CAs, (2) a set of verbal cues associated with human personality implemented in fully functional text-based CA artefacts, (3) an exploration of two methods for synthesising personality in CAs, and (4) a new method for eliciting users' vision of the perfect CA. I consolidate these methods into a user-centred design process for developing CAs with personality. Furthermore, I provide empirical evidence of diverging user preferences and discuss overarching patterns which CA designers may use to tailor their CA personalities to individual users. Finally, this thesis proposes a research agenda for future work, which addresses the challenges that emerged from the presented work.Conversational Agents (CAs) wie Sprachassistenten und Chatbots sind aus dem Alltag der Menschen nicht mehr wegzudenken. In der Interaktion mit CAs schreiben Benutzer:innen ihnen automatisch eine Persönlichkeit zu, unabhängig davon, ob die CA-Designer:innen dies beabsichtigten oder nicht. Diese Persönlichkeitszuschreibung beeinflusst grundlegend das Interaktionsverhalten und die Einstellung der Benutzer:innen gegenüber den CAs. Eine bewusste Gestaltung der CA-Persönlichkeit erlaubt Designer:innen, diese automatischen Persönlichkeitszuschreibungen in eine gewünschte Richtung zu lenken. Jedoch gibt es nur wenige Informationen darüber, wie eine solche gewünschte Persönlichkeit für einen CA gestaltet werden kann. Darüber hinaus gibt es in der zwischenmenschlichen Interaktion nicht die eine perfekte CA-Persönlichkeit, die allen Benutzer:innen gleichermaßen gefällt. Nichtsdestotrotz sind heutige kommerzielle CAs lediglich mit einer Persönlichkeit für alle Benutzer:innen ausgestattet und lassen somit die potenziellen Vorteile einer Anpassung an individuelle Präferenzen außer Acht. Diese beiden Erkenntnisse, (1) dass Benutzer:innen CAs eine Persönlichkeit zuweisen und (2) dass es die eine perfekte Persönlichkeit nicht gibt, motivieren die Vision dieser Arbeit: Die Interaktion zwischen Benutzer:innen und CAs zu verbessern, indem CAs gezielt mit einer Persönlichkeit ausgestattet und an die Präferenzen der Benutzer:innen angepasst werden. Um diese Vision zu realisieren, verfolgt die vorliegende Dissertation zwei primäre Ziele: (1) die Entwicklung von Methoden, um CAs systematisch eine Persönlichkeit zu verleihen und (2) die Untersuchung von Präferenzen der Benutzer:innen für CA-Persönlichkeiten. Um das erste Ziel zu erreichen, stelle ich zwei Ansätze zur Ausstattung von CAs mit Persönlichkeit vor, die auf der jeweiligen zugrunde liegenden Persönlichkeitsbeschreibung basieren. In dem ersten Ansatz verwende ich das menschliche Big Five Persönlichkeitsmodell als theoretische Grundlage für die Beschreibung von CA-Persönlichkeit. Diese Annahme ermöglicht es, Verhaltenshinweise, die mit menschlichen Persönlichkeitsmerkmalen assoziiert sind, in der psycholinguistischen Literatur sowie meiner eigenen Arbeit zu identifizieren. Diese Verhaltenshinweise übertrage ich dann auf CAs, um jeweils drei Ausprägungen von Verträglichkeit und Extraversion zu synthetisieren, die in vollständig funktionsfähigen text-basierten CAs implementiert sind. Eine empirische Untersuchung der Wahrnehmung dieser text-basierten CAs deutet darauf hin, dass menschliche Verhaltenshinweise genutzt werden können, um Verträglichkeit zu synthetisieren. Sie sind jedoch unzureichend, um den Eindruck von niedriger Extraversion zu vermitteln sowie die Persönlichkeit von CAs vollständig abzubilden. Aufgrund der mangelnden Eignung der menschlichen Persönlichkeitsbeschreibung entwickle ich einen zweiten Ansatz, in dem ich untersuche, ob das menschliche Big Five Modell für die Beschreibung von CA-Persönlichkeit genutzt werden kann. Zu diesem Zweck wende ich den psycholexikalischen Ansatz an, aus dem zehn Persönlichkeitsdimensionen hervorgehen, die nicht mit dem menschlichen Big Five Modell übereinstimmen. Folglich schlage ich diese zehn Dimensionen als eine alternative und vollständige Möglichkeit zur Beschreibung von CA-Persönlichkeit vor. Außerdem führe ich eine neue Methode, genannt Inszenierung-basiertes Dialogdesign, ein, die es ermöglicht, Persönlichkeit auf Grundlage dieser zehn Dimensionen zu synthetisieren. Um das zweite Ziel zu erreichen, stelle ich zwei Ansätze zur Untersuchung der Präferenzen von Benutzer:innen für CA-Persönlichkeit vor. In einem deduktiven Ansatz untersuche ich zunächst, ob Benutzer:innen eine niedrige, durchschnittliche oder hohe Ausprägung von vier verschiedenen Persönlichkeitsdimensionen in einem CA im Kontext unterschiedlicher Anwendungsfälle bevorzugen. Diese Untersuchungen zeigen, dass die Benutzer:innen sehr individuelle Präferenzen für die Dimensionen Extraversion und Sozial-Unterhaltend haben, während die Mehrheit CAs bevorzugt, die eine mittlere oder hohe Ausprägung in Verträglichkeit sowie eine niedrige Ausprägung in Konfrontativ aufweisen. Obgleich der deduktive Ansatz nützlich für die Evaluierung von CA-Prototypen ist, ermöglicht dieser es nicht, Bedürfnisse und Vorstellungen der Benutzer:innen einzufangen. Im zweiten, induktiven Ansatz präsentiere ich daher eine neue pragmatische Methode, um die Benutzer:innen besser in die Entwicklung von CA-Persönlichkeiten einzubinden. In diesem Zusammenhang untersuche ich darüber hinaus den Einfluss der Persönlichkeit der Benutzer:innen auf ihre Präferenzen für die CA-Persönlichkeit, finde jedoch nur einen begrenzten Effekt. Zusammenfassend leistet die vorliegende Arbeit die folgenden wissenschaftlichen Beiträge zur Ausstattung von CAs mit Persönlichkeit: (1) Theoretische Klarheit über die Notwendigkeit dedizierter Persönlichkeitsbeschreibungen für CAs, (2) eine Sammlung verbaler Verhaltenshinweise, die mit menschlicher Persönlichkeit assoziiert sind und in voll funktionsfähigen CA-Artefakten implementiert sind, (3) eine Exploration von zwei Methoden zur Synthese von Persönlichkeit in CAs und (4) eine neue Methode, um die Vision eines perfekten CAs von Benutzer:innen zu eruieren. Ich führe diese Methoden in einem benutzungszentrierten Designprozess für die Entwicklung von CA-Persönlichkeiten zusammen. Darüber hinaus liefere ich empirische Belege für divergierende Präferenzen der Benutzer:innen für CA-Persönlichkeit und erörtere übergreife Muster, die CA-Designer:innen anwenden können, um ihre CA-Persönlichkeiten auf individuelle Benutzer:innen zuzuschneiden. Abschließend wird eine Forschungsagenda für zukünftige Arbeiten präsentiert, welche die Herausforderungen diskutiert, die sich aus den vorgestellten Arbeiten ergeben

    Robust Dialog Management Through A Context-centric Architecture

    Get PDF
    This dissertation presents and evaluates a method of managing spoken dialog interactions with a robust attention to fulfilling the human user’s goals in the presence of speech recognition limitations. Assistive speech-based embodied conversation agents are computer-based entities that interact with humans to help accomplish a certain task or communicate information via spoken input and output. A challenging aspect of this task involves open dialog, where the user is free to converse in an unstructured manner. With this style of input, the machine’s ability to communicate may be hindered by poor reception of utterances, caused by a user’s inadequate command of a language and/or faults in the speech recognition facilities. Since a speech-based input is emphasized, this endeavor involves the fundamental issues associated with natural language processing, automatic speech recognition and dialog system design. Driven by ContextBased Reasoning, the presented dialog manager features a discourse model that implements mixed-initiative conversation with a focus on the user’s assistive needs. The discourse behavior must maintain a sense of generality, where the assistive nature of the system remains constant regardless of its knowledge corpus. The dialog manager was encapsulated into a speech-based embodied conversation agent platform for prototyping and testing purposes. A battery of user trials was performed on this agent to evaluate its performance as a robust, domain-independent, speech-based interaction entity capable of satisfying the needs of its users
    corecore