212 research outputs found

    On the development of an automatic voice pleasantness classification and intensity estimation system

    Get PDF
    In the last few years, the number of systems and devices that use voice based interaction has grown significantly. For a continued use of these systems, the interface must be reliable and pleasant in order to provide an optimal user experience. However there are currently very few studies that try to evaluate how pleasant is a voice from a perceptual point of view when the final application is a speech based interface. In this paper we present an objective definition for voice pleasantness based on the composition of a representative feature subset and a new automatic voice pleasantness classification and intensity estimation system. Our study is based on a database composed by European Portuguese female voices but the methodology can be extended to male voices or to other languages. In the objective performance evaluation the system achieved a 9.1% error rate for voice pleasantness classification and a 15.7% error rate for voice pleasantness intensity estimation.Work partially supported by ERDF funds, the Spanish Government (TEC2009-14094-C04-04), and Xunta de Galicia (CN2011/019, 2009/062

    A survey on perceived speaker traits: personality, likability, pathology, and the first challenge

    Get PDF
    The INTERSPEECH 2012 Speaker Trait Challenge aimed at a unified test-bed for perceived speaker traits – the first challenge of this kind: personality in the five OCEAN personality dimensions, likability of speakers, and intelligibility of pathologic speakers. In the present article, we give a brief overview of the state-of-the-art in these three fields of research and describe the three sub-challenges in terms of the challenge conditions, the baseline results provided by the organisers, and a new openSMILE feature set, which has been used for computing the baselines and which has been provided to the participants. Furthermore, we summarise the approaches and the results presented by the participants to show the various techniques that are currently applied to solve these classification tasks

    I hear you eat and speak: automatic recognition of eating condition and food type, use-cases, and impact on ASR performance

    Get PDF
    We propose a new recognition task in the area of computational paralinguistics: automatic recognition of eating conditions in speech, i. e., whether people are eating while speaking, and what they are eating. To this end, we introduce the audio-visual iHEARu-EAT database featuring 1.6 k utterances of 30 subjects (mean age: 26.1 years, standard deviation: 2.66 years, gender balanced, German speakers), six types of food (Apple, Nectarine, Banana, Haribo Smurfs, Biscuit, and Crisps), and read as well as spontaneous speech, which is made publicly available for research purposes. We start with demonstrating that for automatic speech recognition (ASR), it pays off to know whether speakers are eating or not. We also propose automatic classification both by brute-forcing of low-level acoustic features as well as higher-level features related to intelligibility, obtained from an Automatic Speech Recogniser. Prediction of the eating condition was performed with a Support Vector Machine (SVM) classifier employed in a leave-one-speaker-out evaluation framework. Results show that the binary prediction of eating condition (i. e., eating or not eating) can be easily solved independently of the speaking condition; the obtained average recalls are all above 90%. Low-level acoustic features provide the best performance on spontaneous speech, which reaches up to 62.3% average recall for multi-way classification of the eating condition, i. e., discriminating the six types of food, as well as not eating. The early fusion of features related to intelligibility with the brute-forced acoustic feature set improves the performance on read speech, reaching a 66.4% average recall for the multi-way classification task. Analysing features and classifier errors leads to a suitable ordinal scale for eating conditions, on which automatic regression can be performed with up to 56.2% determination coefficient

    The Perception of Emotion from Acoustic Cues in Natural Speech

    Get PDF
    Knowledge of human perception of emotional speech is imperative for the development of emotion in speech recognition systems and emotional speech synthesis. Owing to the fact that there is a growing trend towards research on spontaneous, real-life data, the aim of the present thesis is to examine human perception of emotion in naturalistic speech. Although there are many available emotional speech corpora, most contain simulated expressions. Therefore, there remains a compelling need to obtain naturalistic speech corpora that are appropriate and freely available for research. In that regard, our initial aim was to acquire suitable naturalistic material and examine its emotional content based on listener perceptions. A web-based listening tool was developed to accumulate ratings based on large-scale listening groups. The emotional content present in the speech material was demonstrated by performing perception tests on conveyed levels of Activation and Evaluation. As a result, labels were determined that signified the emotional content, and thus contribute to the construction of a naturalistic emotional speech corpus. In line with the literature, the ratings obtained from the perception tests suggested that Evaluation (or hedonic valence) is not identified as reliably as Activation is. Emotional valence can be conveyed through both semantic and prosodic information, for which the meaning of one may serve to facilitate, modify, or conflict with the meaning of the other—particularly with naturalistic speech. The subsequent experiments aimed to investigate this concept by comparing ratings from perception tests of non-verbal speech with verbal speech. The method used to render non-verbal speech was low-pass filtering, and for this, suitable filtering conditions were determined by carrying out preliminary perception tests. The results suggested that nonverbal naturalistic speech provides sufficiently discernible levels of Activation and Evaluation. It appears that the perception of Activation and Evaluation is affected by low-pass filtering, but that the effect is relatively small. Moreover, the results suggest that there is a similar trend in agreement levels between verbal and non-verbal speech. To date it still remains difficult to determine unique acoustical patterns for hedonic valence of emotion, which may be due to inadequate labels or the incorrect selection of acoustic parameters. This study has implications for the labelling of emotional speech data and the determination of salient acoustic correlates of emotion

    A Study of Accomodation of Prosodic and Temporal Features in Spoken Dialogues in View of Speech Technology Applications

    Get PDF
    Inter-speaker accommodation is a well-known property of human speech and human interaction in general. Broadly it refers to the behavioural patterns of two (or more) interactants and the effect of the (verbal and non-verbal) behaviour of each to that of the other(s). Implementation of thisbehavior in spoken dialogue systems is desirable as an improvement on the naturalness of humanmachine interaction. However, traditional qualitative descriptions of accommodation phenomena do not provide sufficient information for such an implementation. Therefore, a quantitativedescription of inter-speaker accommodation is required. This thesis proposes a methodology of monitoring accommodation during a human or humancomputer dialogue, which utilizes a moving average filter over sequential frames for each speaker. These frames are time-aligned across the speakers, hence the name Time Aligned Moving Average (TAMA). Analysis of spontaneous human dialogue recordings by means of the TAMA methodology reveals ubiquitous accommodation of prosodic features (pitch, intensity and speech rate) across interlocutors, and allows for statistical (time series) modeling of the behaviour, in a way which is meaningful for implementation in spoken dialogue system (SDS) environments.In addition, a novel dialogue representation is proposed that provides an additional point of view to that of TAMA in monitoring accommodation of temporal features (inter-speaker pause length and overlap frequency). This representation is a percentage turn distribution of individual speakercontributions in a dialogue frame which circumvents strict attribution of speaker-turns, by considering both interlocutors as synchronously active. Both TAMA and turn distribution metrics indicate that correlation of average pause length and overlap frequency between speakers can be attributed to accommodation (a debated issue), and point to possible improvements in SDS “turntaking” behaviour. Although the findings of the prosodic and temporal analyses can directly inform SDS implementations, further work is required in order to describe inter-speaker accommodation sufficiently, as well as to develop an adequate testing platform for evaluating the magnitude ofperceived improvement in human-machine interaction. Therefore, this thesis constitutes a first step towards a convincingly useful implementation of accommodation in spoken dialogue systems

    The impact of vocal expressions on the understanding of affective states in others

    Get PDF
    Ein wichtiger Aspekt des täglichen sozialen Lebens ist das Erkennen von emotionalen Zuständen in unserem Gegenüber. Unsere Emotionen und Intentionen teilen wir nicht nur durch sprachliche Äußerungen mit, sondern auch über die Mimik, Körpersprache und den Tonfall in der Stimme. Diese nichtverbalen, emotionalen Ausdrücke sind Bestandteile einer Emotion, zu denen darüber hinaus das subjektive Empfinden, die Handlungsbereitschaft und die damit zusammenhängenden physiologischen Reaktionen gehören. Obwohl die emotionale Kommunikation schon seit Jahrzehnten im Fokus der Wissenschaft liegt, ist noch unklar, welche Bestandteile einer Emotion genau kommuniziert und wie diese Informationen verarbeitet werden. Zudem spielen emotionale Ausdrücke eine wichtige Rolle in sozialen Interaktionen und werden häufig bewusst verwendet, um sozial-angepasstes Verhalten zu zeigen. Damit ist ihre Reliabilität, die tatsächliche Gefühlswelt des Gegenübers wiederzugeben, fraglich. Das Erkennen von Emotionsausdrücken, die auf empfunden Emotionen basieren ist jedoch von enormer Wichtigkeit für die nachfolgenden Handlungen. Deswegen sollte die Fähigkeit, empfundene von gespielten Emotionen unterscheiden zu können, essentiell sein. Da vokale Ausdrücke durch Einflüsse des autonomen Nervensystems auf den Vokaltrakt gebildet werden, sind diese als besonders vielversprechend anzusehen, um zugrundeliegende emotionale Zustände aufzudecken. Die Erkennung von Emotionen im Gegenüber ist nicht unveränderlich, sondern hängt unter anderem auch von der Beziehung zwischen dem Sprecher und dem Zuhörer ab. So konnte in einer früheren Studie gezeigt werden, dass bei Personen, die derselben Gruppe angehören, Emotionen besser erkannt werden konnten. Dieser Effekt lässt sich einerseits mit einer Aufmerksamkeitsverschiebung hin zu Personen mit erhöhter sozialer Relevanz deuten. Andererseits gibt es Erklärungsansätze, die auf eine erhöhte Bereitschaft für empathische Reaktionen hinweisen. Erfolgreiches Verstehen von Emotionen wird in der Forschungsliteratur eng mit dem Spiegeln oder dem Simulieren der wahrgenommen Emotion verknüpft. Die affektiven Neurowissenschaften zeigten bisher ein gemeinsames neuronales Netzwerk, welches aktiv ist, wenn Personen eine Emotion bei anderen wahrnehmen oder selber empfinden. Die neurale Aktivität in diesem Netzwerk wird zudem von der sozialen Relevanz der Person beeinflusst, welche die Emotion zeigt. Welches Ausmaß das Wiederspiegeln einer Emotion auf der Verhaltensebene hat um eine Emotion zu erkennen ist hingegen noch ungeklärt. Auch die Frage nach dem Einfluss des Sprechers auf die empathische Reaktion ist noch nicht abschließend geklärt. In dieser Arbeit untersuchte ich vokale Emotionsausdrücke und versuchte zunächst das Verhältnis zwischen gespielten und spontanen Ausdrücken zu verstehen. Anschließend konzentrierte ich mich auf die Frage, welche Bedeutung das Teilen einer Emotion und die Relevanz des Sprechers auf die Emotionserkennung haben. Im ersten Teil dieser Arbeit verglich ich die Wahrnehmung von spontanen und gespielten vokalen Ausdrücken in einer interkulturellen Studie. Im Gegensatz zu spontanen Ausdrücken wurde angenommen, dass gespielte Ausdrücke vermehrt auf sozialen Codes basieren und daher von Hörern anderer Kulturen als der Herkunftskultur weniger akkurat erkannt werden. Alternativ könnte die Emotionserkennung beider Bedingungen universell sein. Dieser interkulturelle Vergleich wurde anhand von 80 spontanen Emotionsausdrücken durchgeführt, die von Menschen aufgenommen wurden, welche sich in emotionalen Situationen befanden. Die gespielten Stimuli bestanden aus den nachgespielten Szenen, die von professionellen Schauspielern eingesprochen worden. Kurze Sequenzen dieser Ausdrücke wurden Versuchspersonen in Deutschland, Rumänien und Indonesien vorgespielt. Die Versuchspersonen erhielten die Aufgabe anzugeben, welche Emotion dargestellt wurde und ob der Ausdruck gespielt oder echt war. Im Ganzen konnten die Versuchspersonen nur unzureichend angeben, inwieweit ein Ausdruck gespielt war. Deutsche Hörer waren in beiden Aufgaben besser als die Hörer der anderen Kulturen. Dieser Vorteil war unabhängig von der Authentizität des Stimulus. Die Emotionserkennung zeigte ein vergleichbares Muster in allen Kulturen, was für eine universelle Grundlage der Emotionserkennung spricht. Die Erkennungsraten im Allgemeinen waren schwach ausgeprägt und ob ein Ausdruck gespielt oder echt war, beeinflusste lediglich die Erkennung von den Emotionen Ärger und Trauer. Ärger wurde besser erkannt wenn er gespielt war und Trauer wenn sie echt war. Der zweite Teil meiner Arbeit beschäftigte sich mit der Ursache für die oben erwähnten Unterschiede in der Emotionserkennung und untersuchte, welchen Einfluss Schauspieltraining auf die Glaubwürdigkeit der Emotionsdarstellung hat. Zu diesem Zweck erweiterte ich den Stimulus-Korpus um Emotionsausdrücke, die von schauspiel-unerfahrenen Sprechern eingesprochen wurden. Zusätzlich zu der Bewertungsstudie führte ich eine akustische Analyse der Sprachaufnahmen durch. Es wurde vorhergesagt, dass professionelle Schauspieler besser geeignet seien als schauspiel-unerfahrene Sprecher, um glaubwürdig Emotionsausdrücke zu generieren. Diese Vorhersage konnte jedoch nicht bestätigt werden. Die Ausdrücke der professionellen Schauspieler wurden im Gegenteil sogar häufiger als gespielt wahrgenommen als die der unerfahrenen Sprecher. Für die professionellen Sprecher konnte ich das Muster in der Emotionserkennung, welches sich in der interkulturellen Studie zeigte, replizieren. Die Ausdrücke der unerfahrenen Sprecher hingegen wichen nur in den geringeren Erkennungsraten für Trauer von den spontanen Ausdrücken ab. Der Haupteffekt der akustischen Analyse bestand in einer lebhafteren Sprachmelodie der gespielten Ausdrücke. Im dritten Teil der Arbeit untersuchte ich den Prozess der Emotionserkennung. Zu diesem Zweck manipulierte ich in einem Experiment die biographische Ähnlichkeit zwischen fiktiven Sprechern und dem Hörer. Auf Grund der höheren Relevanz eines ähnlichen Sprechers, sollten emotionale Ausdrücke in der ähnlichen Bedingung besser erkannt werden als in der unähnlichen. Um den Einfluss des gemeinsamen Erlebens einer Emotion auf die Emotionserkennung festzustellen, zeichnete ich außerdem die Hautleitfähigkeit und die Pupillenveränderung auf, welches beides Marker für Reaktionen des autonomen Nervensystems sind. Währenddessen wurden den Versuchspersonen ärgerliche, freudige und neutrale vokale Ausdrücke präsentiert, welche sie zu bewerten hatten. Ähnlichkeit hatte weder einen Einfluss auf die Emotionserkennung noch auf die peripher-physiologischen Messungen. Die Versuchspersonen zeigten keine Reaktionen der Hautleitfähigkeit auf vokale Ausdrücke. Die Pupille hingegen reagierte emotionsabhängig. Diese Befunde deuten darauf hin, dass die affektive Verarbeitung nicht das gesamte autonome Nervensystem miteinschließt, zumindest nicht, wenn lediglich die Stimme verarbeitet wird. Das Teilen einer Emotion scheint demnach kein notweniger Bestandteil des Verstehens oder der Erkennung zu sein. Die Ähnlichkeit zwischen Sprecher und Hörer könnte die Emotionsverarbeitung in einer lebensnahen Umgebung beeinflussen, in der eine persönliche Verbindung zwischen beiden Interaktionspartnern möglich ist, nicht hingegen in einer mehrheitlich artifiziellen Manipulation. Empathische Reaktionen brauchen um wirksam zu werden einen ganzheitlicheren Ansatz. Meine Arbeit konzentrierte sich auf das Verständnis von emotionaler Kommunikation in Bezug auf vokale Emotionsausdrücke und konnte zeigen, dass das bewusste Hören einzelner, kontextfreier Emotionsausdrücke nicht ausreichend ist um auf tatsächliche emotionale Zustände rückschließen zu können. Dies wird durch die fehlende Differenzierung von gespielten und spontanen Emotionsausdrücken deutlich. Darüber hinaus konnte ich aufzeigen, dass vokale Emotionsausdrücke im Hörer keine starken Reaktionen des autonomen Nervensystems auslösen. Die Kommunikation mittels vokaler emotionaler Ausdrücke scheint daher vermehrt auf kognitiven als auf affektiven Prozessen zu basieren
    corecore