212 research outputs found
On the development of an automatic voice pleasantness classification and intensity estimation system
In the last few years, the number of systems and devices that use voice based interaction has grown significantly. For a continued use of these systems, the interface must be reliable and pleasant in order to provide an optimal user experience. However there are currently very few studies that try to evaluate how pleasant is a voice from a perceptual point of view when the final application is a speech based interface. In this paper we present an objective definition for voice pleasantness based on the composition of a representative feature subset and a new automatic voice pleasantness classification and intensity estimation system. Our study is based on a database composed by European Portuguese female voices but the methodology can be extended to male voices or to other languages. In the objective performance evaluation the system achieved a 9.1% error rate for voice pleasantness classification and a 15.7% error rate for voice pleasantness intensity estimation.Work partially supported by ERDF funds, the Spanish Government (TEC2009-14094-C04-04), and Xunta de Galicia (CN2011/019, 2009/062
A survey on perceived speaker traits: personality, likability, pathology, and the first challenge
The INTERSPEECH 2012 Speaker Trait Challenge aimed at a unified test-bed for perceived speaker traits – the first challenge of this kind: personality in the five OCEAN personality dimensions, likability of speakers, and intelligibility of pathologic speakers. In the present article, we give a brief overview of the state-of-the-art in these three fields of research and describe the three sub-challenges in terms of the challenge conditions, the baseline results provided by the organisers, and a new openSMILE feature set, which has been used for computing the baselines and which has been provided to the participants. Furthermore, we summarise the approaches and the results presented by the participants to show the various techniques that are currently applied to solve these classification tasks
I hear you eat and speak: automatic recognition of eating condition and food type, use-cases, and impact on ASR performance
We propose a new recognition task in the area of computational paralinguistics: automatic recognition of eating conditions in speech, i. e., whether people are eating while speaking, and what they are eating. To this end, we introduce the audio-visual iHEARu-EAT database featuring 1.6 k utterances of 30 subjects (mean age: 26.1 years, standard deviation: 2.66 years, gender balanced, German speakers), six types of food (Apple, Nectarine, Banana, Haribo Smurfs, Biscuit, and Crisps), and read as well as spontaneous speech, which is made publicly available for research purposes. We start with demonstrating that for automatic speech recognition (ASR), it pays off to know whether speakers are eating or not. We also propose automatic classification both by brute-forcing of low-level acoustic features as well as higher-level features related to intelligibility, obtained from an Automatic Speech Recogniser. Prediction of the eating condition was performed with a Support Vector Machine (SVM) classifier employed in a leave-one-speaker-out evaluation framework. Results show that the binary prediction of eating condition (i. e., eating or not eating) can be easily solved independently of the speaking condition; the obtained average recalls are all above 90%. Low-level acoustic features provide the best performance on spontaneous speech, which reaches up to 62.3% average recall for multi-way classification of the eating condition, i. e., discriminating the six types of food, as well as not eating. The early fusion of features related to intelligibility with the brute-forced acoustic feature set improves the performance on read speech, reaching a 66.4% average recall for the multi-way classification task. Analysing features and classifier errors leads to a suitable ordinal scale for eating conditions, on which automatic regression can be performed with up to 56.2% determination coefficient
The Perception of Emotion from Acoustic Cues in Natural Speech
Knowledge of human perception of emotional speech is imperative for the development of emotion in speech recognition systems and emotional speech synthesis. Owing to the fact that there is a growing trend towards research on spontaneous, real-life data, the aim of the present thesis is to examine human perception of emotion in naturalistic speech. Although there are many available emotional speech corpora, most contain simulated expressions. Therefore, there remains a compelling need to obtain naturalistic speech corpora that are appropriate and freely available for research. In that regard, our initial aim was to acquire suitable naturalistic material and examine its emotional content based on listener perceptions. A web-based listening tool was developed to accumulate ratings based on large-scale listening groups. The emotional content present in the speech material was demonstrated by performing perception tests on conveyed levels of Activation and Evaluation. As a result, labels were determined that signified the emotional content, and thus contribute to the construction of a naturalistic emotional speech corpus. In line with the literature, the ratings obtained from the perception tests suggested that Evaluation (or hedonic valence) is not identified as reliably as Activation is. Emotional valence can be conveyed through both semantic and prosodic information, for which the meaning of one may serve to facilitate, modify, or conflict with the meaning of the other—particularly with naturalistic speech. The subsequent experiments aimed to investigate this concept by comparing ratings from perception tests of non-verbal speech with verbal speech. The method used to render non-verbal speech was low-pass filtering, and for this, suitable filtering conditions were determined by carrying out preliminary perception tests. The results suggested that nonverbal naturalistic speech provides sufficiently discernible levels of Activation and Evaluation. It appears that the perception of Activation and Evaluation is affected by low-pass filtering, but that the effect is relatively small. Moreover, the results suggest that there is a similar trend in agreement levels between verbal and non-verbal speech. To date it still remains difficult to determine unique acoustical patterns for hedonic valence of emotion, which may be due to inadequate labels or the incorrect selection of acoustic parameters. This study has implications for the labelling of emotional speech data and the determination of salient acoustic correlates of emotion
Recommended from our members
Acoustic-Prosodic Entrainment in Human-Human and Human-Computer Dialogue
Entrainment (sometimes called adaptation or alignment) is the tendency of human speakers to adapt to or imitate characteristics of their interlocutors' behavior. This work focuses on entrainment on acoustic-prosodic features. Acoustic-prosodic entrainment has been extensively studied but is not well understood. In particular, it is difficult to compare the results of different studies, since entrainment is usually measured in different ways, reflect- ing disparate conceptualizations of the phenomenon. In the first part of this thesis, we look for evidence of entrainment on a variety of acoustic-prosodic features according to various conceptualizations, and show that human speakers of both Standard American English and Mandarin Chinese entrain to each other globally and locally, in synchrony, and that this entrainment can be constant or convergent. We explore the relationship between entrainment and gender and show that entrainment on some acoustic-prosodic features is related to social behavior and dialogue coordination. In addition, we show that humans entrain in a novel domain, backchannel-inviting cues, and propose and test a novel hypothesis: that entrainment will be stronger in the case of an outlier feature value. In the second part of the thesis, we describe a method for flexibly and dynamically entraining a TTS voice to multiple acoustic-prosodic features of a user's input utterances, and show in an exploratory study that users prefer an entraining avatar to one that does not entrain, are more likely to ask its advice, and choose more positive adjectives to describe its voice.
This work introduces a coherent view of entrainment in both familiar and novel domains. Our results add to the body of knowledge of entrainment in human-human conversations and propose new directions for making use of that knowledge to enhance human-computer interactions
Recommended from our members
Identifying Speaker State from Multimodal Cues
Automatic identification of speaker state is essential for spoken language understanding, with broad potential in various real-world applications. However, most existing work has focused on recognizing a limited set of emotional states using cues from a single modality. This thesis describes my research that addresses these limitations and challenges associated with speaker state identification by studying a wide range of speaker states, including emotion and sentiment, humor, and charisma, using features from speech, text, and visual modalities.
The first part of this thesis focuses on emotion and sentiment recognition in speech. Emotion and sentiment recognition is one of the most studied topics in speaker state identification and has gained increasing attention in speech research recently, with extensive emotional speech models and datasets published every year. However, most work focuses only on recognizing a set of discrete emotions in high-resource languages such as English, while in real-life conversations, emotion is changing continuously and exists in all spoken languages. To address the mismatch, we propose a deep neural network model to recognize continuous emotion by combining inputs from raw waveform signals and spectrograms. Experimental results on two datasets show that the proposed model achieves state-of-the-art results by exploiting both waveforms and spectrograms as input. Due to the higher number of existing textual sentiment models than speech models in low-resource languages, we also propose a method to bootstrap sentiment labels from text transcripts and use these labels to train a sentiment classifier in speech. Utilizing the speaker state information shared across modalities, we extend speech sentiment recognition from high-resource languages to low-resource languages. Moreover, using the natural verse-level alignment in the audio Bibles across different languages, we also explore cross-lingual and cross-modality sentiment transfer.
In the second part of the thesis, we focus on recognizing humor, whose expression is related to emotion and sentiment but has very different characteristics. Unlike emotion and sentiment that can be identified by crowdsourced annotators, humorous expressions are highly individualistic and cultural-specific, making it hard to obtain reliable labels. This results in the lack of data annotated for humor, and thus we propose two different methods to automatically and reliably label humor. First, we develop a framework for generating humor labels on videos, by learning from extensive user-generated comments. We collect and analyze 100 videos, building multimodal humor detection models using speech, text, and visual features, which achieves an F1-score of 0.76. In addition to humorous videos, we also develop another framework for generating humor labels on social media posts, by learning from user reactions to Facebook posts. We collect 785K posts with humor and non-humor scores and build models to detect humor with performance comparable to human labelers.
The third part of the thesis focuses on charisma, a commonly found but less studied speaker state with unique challenges -- the definition of charisma varies a lot among perceivers, and the perception of charisma also varies with speakers' and perceivers' different demographic backgrounds. To better understand charisma, we conduct the first gender-balanced study of charismatic speech, including speakers and raters from diverse backgrounds. We collect personality and demographic information from the rater as well as their own speech, and examine individual differences in the perception and production of charismatic speech. We also extend the work to politicians' speech by collecting speaker trait ratings on representative speech segments of politicians and study how the genre, gender, and the rater's political stance influence the charisma ratings of the segments
A Study of Accomodation of Prosodic and Temporal Features in Spoken Dialogues in View of Speech Technology Applications
Inter-speaker accommodation is a well-known property of human speech and human interaction in general. Broadly it refers to the behavioural patterns of two (or more) interactants and the effect of the (verbal and non-verbal) behaviour of each to that of the other(s). Implementation of thisbehavior in spoken dialogue systems is desirable as an improvement on the naturalness of humanmachine interaction. However, traditional qualitative descriptions of accommodation phenomena do not provide sufficient information for such an implementation. Therefore, a quantitativedescription of inter-speaker accommodation is required. This thesis proposes a methodology of monitoring accommodation during a human or humancomputer dialogue, which utilizes a moving average filter over sequential frames for each speaker. These frames are time-aligned across the speakers, hence the name Time Aligned Moving Average (TAMA). Analysis of spontaneous human dialogue recordings by means of the TAMA methodology reveals ubiquitous accommodation of prosodic features (pitch, intensity and speech rate) across interlocutors, and allows for statistical (time series) modeling of the behaviour, in a way which is meaningful for implementation in spoken dialogue system (SDS) environments.In addition, a novel dialogue representation is proposed that provides an additional point of view to that of TAMA in monitoring accommodation of temporal features (inter-speaker pause length and overlap frequency). This representation is a percentage turn distribution of individual speakercontributions in a dialogue frame which circumvents strict attribution of speaker-turns, by considering both interlocutors as synchronously active. Both TAMA and turn distribution metrics indicate that correlation of average pause length and overlap frequency between speakers can be attributed to accommodation (a debated issue), and point to possible improvements in SDS “turntaking” behaviour. Although the findings of the prosodic and temporal analyses can directly inform SDS implementations, further work is required in order to describe inter-speaker accommodation sufficiently, as well as to develop an adequate testing platform for evaluating the magnitude ofperceived improvement in human-machine interaction. Therefore, this thesis constitutes a first step towards a convincingly useful implementation of accommodation in spoken dialogue systems
The impact of vocal expressions on the understanding of affective states in others
Ein wichtiger Aspekt des täglichen sozialen Lebens ist das Erkennen von emotionalen Zuständen in unserem Gegenüber. Unsere Emotionen und Intentionen teilen wir nicht nur durch sprachliche Äußerungen mit, sondern auch über die Mimik, Körpersprache und den Tonfall in der Stimme. Diese nichtverbalen, emotionalen Ausdrücke sind Bestandteile einer Emotion, zu denen darüber hinaus das subjektive Empfinden, die Handlungsbereitschaft und die damit zusammenhängenden physiologischen Reaktionen gehören. Obwohl die emotionale Kommunikation schon seit Jahrzehnten im Fokus der Wissenschaft liegt, ist noch unklar, welche Bestandteile einer Emotion genau kommuniziert und wie diese Informationen verarbeitet werden. Zudem spielen emotionale Ausdrücke eine wichtige Rolle in sozialen Interaktionen und werden häufig bewusst verwendet, um sozial-angepasstes Verhalten zu zeigen. Damit ist ihre Reliabilität, die tatsächliche Gefühlswelt des Gegenübers wiederzugeben, fraglich. Das Erkennen von Emotionsausdrücken, die auf empfunden Emotionen basieren ist jedoch von enormer Wichtigkeit für die nachfolgenden Handlungen. Deswegen sollte die Fähigkeit, empfundene von gespielten Emotionen unterscheiden zu können, essentiell sein. Da vokale Ausdrücke durch Einflüsse des autonomen Nervensystems auf den Vokaltrakt gebildet werden, sind diese als besonders vielversprechend anzusehen, um zugrundeliegende emotionale Zustände aufzudecken.
Die Erkennung von Emotionen im Gegenüber ist nicht unveränderlich, sondern hängt unter anderem auch von der Beziehung zwischen dem Sprecher und dem Zuhörer ab. So konnte in einer früheren Studie gezeigt werden, dass bei Personen, die derselben Gruppe angehören, Emotionen besser erkannt werden konnten. Dieser Effekt lässt sich einerseits mit einer Aufmerksamkeitsverschiebung hin zu Personen mit erhöhter sozialer Relevanz deuten. Andererseits gibt es Erklärungsansätze, die auf eine erhöhte Bereitschaft für empathische Reaktionen hinweisen. Erfolgreiches Verstehen von Emotionen wird in der Forschungsliteratur eng mit dem Spiegeln oder dem Simulieren der wahrgenommen Emotion verknüpft. Die affektiven Neurowissenschaften zeigten bisher ein gemeinsames neuronales Netzwerk, welches aktiv ist, wenn Personen eine Emotion bei anderen wahrnehmen oder selber empfinden. Die neurale Aktivität in diesem Netzwerk wird zudem von der sozialen Relevanz der Person beeinflusst, welche die Emotion zeigt. Welches Ausmaß das Wiederspiegeln einer Emotion auf der Verhaltensebene hat um eine Emotion zu erkennen ist hingegen noch ungeklärt. Auch die Frage nach dem Einfluss des Sprechers auf die empathische Reaktion ist noch nicht abschließend geklärt.
In dieser Arbeit untersuchte ich vokale Emotionsausdrücke und versuchte zunächst das Verhältnis zwischen gespielten und spontanen Ausdrücken zu verstehen. Anschließend konzentrierte ich mich auf die Frage, welche Bedeutung das Teilen einer Emotion und die Relevanz des Sprechers auf die Emotionserkennung haben. Im ersten Teil dieser Arbeit verglich ich die Wahrnehmung von spontanen und gespielten vokalen Ausdrücken in einer interkulturellen Studie. Im Gegensatz zu spontanen Ausdrücken wurde angenommen, dass gespielte Ausdrücke vermehrt auf sozialen Codes basieren und daher von Hörern anderer Kulturen als der Herkunftskultur weniger akkurat erkannt werden. Alternativ könnte die Emotionserkennung beider Bedingungen universell sein. Dieser interkulturelle Vergleich wurde anhand von 80 spontanen Emotionsausdrücken durchgeführt, die von Menschen aufgenommen wurden, welche sich in emotionalen Situationen befanden. Die gespielten Stimuli bestanden aus den nachgespielten Szenen, die von professionellen Schauspielern eingesprochen worden. Kurze Sequenzen dieser Ausdrücke wurden Versuchspersonen in Deutschland, Rumänien und Indonesien vorgespielt. Die Versuchspersonen erhielten die Aufgabe anzugeben, welche Emotion dargestellt wurde und ob der Ausdruck gespielt oder echt war. Im Ganzen konnten die Versuchspersonen nur unzureichend angeben, inwieweit ein Ausdruck gespielt war. Deutsche Hörer waren in beiden Aufgaben besser als die Hörer der anderen Kulturen. Dieser Vorteil war unabhängig von der Authentizität des Stimulus. Die Emotionserkennung zeigte ein vergleichbares Muster in allen Kulturen, was für eine universelle Grundlage der Emotionserkennung spricht. Die Erkennungsraten im Allgemeinen waren schwach ausgeprägt und ob ein Ausdruck gespielt oder echt war, beeinflusste lediglich die Erkennung von den Emotionen Ärger und Trauer. Ärger wurde besser erkannt wenn er gespielt war und Trauer wenn sie echt war.
Der zweite Teil meiner Arbeit beschäftigte sich mit der Ursache für die oben erwähnten Unterschiede in der Emotionserkennung und untersuchte, welchen Einfluss Schauspieltraining auf die Glaubwürdigkeit der Emotionsdarstellung hat. Zu diesem Zweck erweiterte ich den Stimulus-Korpus um Emotionsausdrücke, die von schauspiel-unerfahrenen Sprechern eingesprochen wurden. Zusätzlich zu der Bewertungsstudie führte ich eine akustische Analyse der Sprachaufnahmen durch. Es wurde vorhergesagt, dass professionelle Schauspieler besser geeignet seien als schauspiel-unerfahrene Sprecher, um glaubwürdig Emotionsausdrücke zu generieren. Diese Vorhersage konnte jedoch nicht bestätigt werden. Die Ausdrücke der professionellen Schauspieler wurden im Gegenteil sogar häufiger als gespielt wahrgenommen als die der unerfahrenen Sprecher. Für die professionellen Sprecher konnte ich das Muster in der Emotionserkennung, welches sich in der interkulturellen Studie zeigte, replizieren. Die Ausdrücke der unerfahrenen Sprecher hingegen wichen nur in den geringeren Erkennungsraten für Trauer von den spontanen Ausdrücken ab. Der Haupteffekt der akustischen Analyse bestand in einer lebhafteren Sprachmelodie der gespielten Ausdrücke.
Im dritten Teil der Arbeit untersuchte ich den Prozess der Emotionserkennung. Zu diesem Zweck manipulierte ich in einem Experiment die biographische Ähnlichkeit zwischen fiktiven Sprechern und dem Hörer. Auf Grund der höheren Relevanz eines ähnlichen Sprechers, sollten emotionale Ausdrücke in der ähnlichen Bedingung besser erkannt werden als in der unähnlichen. Um den Einfluss des gemeinsamen Erlebens einer Emotion auf die Emotionserkennung festzustellen, zeichnete ich außerdem die Hautleitfähigkeit und die Pupillenveränderung auf, welches beides Marker für Reaktionen des autonomen Nervensystems sind. Währenddessen wurden den Versuchspersonen ärgerliche, freudige und neutrale vokale Ausdrücke präsentiert, welche sie zu bewerten hatten. Ähnlichkeit hatte weder einen Einfluss auf die Emotionserkennung noch auf die peripher-physiologischen Messungen. Die Versuchspersonen zeigten keine Reaktionen der Hautleitfähigkeit auf vokale Ausdrücke. Die Pupille hingegen reagierte emotionsabhängig. Diese Befunde deuten darauf hin, dass die affektive Verarbeitung nicht das gesamte autonome Nervensystem miteinschließt, zumindest nicht, wenn lediglich die Stimme verarbeitet wird. Das Teilen einer Emotion scheint demnach kein notweniger Bestandteil des Verstehens oder der Erkennung zu sein. Die Ähnlichkeit zwischen Sprecher und Hörer könnte die Emotionsverarbeitung in einer lebensnahen Umgebung beeinflussen, in der eine persönliche Verbindung zwischen beiden Interaktionspartnern möglich ist, nicht hingegen in einer mehrheitlich artifiziellen Manipulation. Empathische Reaktionen brauchen um wirksam zu werden einen ganzheitlicheren Ansatz.
Meine Arbeit konzentrierte sich auf das Verständnis von emotionaler Kommunikation in Bezug auf vokale Emotionsausdrücke und konnte zeigen, dass das bewusste Hören einzelner, kontextfreier Emotionsausdrücke nicht ausreichend ist um auf tatsächliche emotionale Zustände rückschließen zu können. Dies wird durch die fehlende Differenzierung von gespielten und spontanen Emotionsausdrücken deutlich. Darüber hinaus konnte ich aufzeigen, dass vokale Emotionsausdrücke im Hörer keine starken Reaktionen des autonomen Nervensystems auslösen. Die Kommunikation mittels vokaler emotionaler Ausdrücke scheint daher vermehrt auf kognitiven als auf affektiven Prozessen zu basieren
- …