95 research outputs found
Vers des Agents Conversationnels Animés dotés d'émotions et d'attitudes sociales
International audienceIn this article, we propose an architecture of a socio-affective Embodied Conversational Agent (ECA). The different computational models of the architecture enable an ECA to express emotions and social attitudes during an interaction with a user. Based on corpora of actors expressing emotions, models have been defined to compute the emotional facial expressions of an ECA and the characteristics of its corporal movements. A user-perceptive approach has been used to design models to define how an ECA should adapt its non-verbal behavior according to the social attitude the ECA wants to display and the behavior of its interlocutor. The emotions and the social attitudes to express are computed by cognitive models presented in this article.Dans cet article, nous proposons une architecture d'un Agent Conversationnel Animé (ACA) socio-affectif. Les différents modèles computationnels sous-jacents à cette architecture, permettant de donner la capacité à un ACA d'exprimer des émotions et des attitudes sociales durant son interaction avec l'utilisateur, sont présentés. A partir de corpus d'individus exprimant des émotions, des modèles permettant de calculer l'expression faciale émotionnelle d'un ACA ainsi que les caractéristiques de ses mouvements du corps ont été définis. Fondés sur une approche centrée sur la perception de l'utilisateur, des modèles permettant de calculer comment un ACA doit adapter son comportement non-verbal suivant l'attitude sociale qu'il souhaite exprimer et suivant le comportement de son interlocuteur ont été construits. Le calcul des émotions et des attitudes sociales à exprimer est réalisé par des modèles cognitifs présentés dans cet article
Emotions, behaviour and belief regulation in an intelligent guide with attitude
Abstract unavailable please refer to PD
Learning Icelandic in Virtual Reykjavik: Simulating real-life conversations with embodied conversational agents using multimodal clarification requests
Þessi doktorsritgerð er hluti af verkefninu Icelandic Language and Culture Training in
Virtual Reykjavik, þrívíddartölvuleik sem gerir þeim sem eru að læra íslensku sem annað
mál kleift að æfa tal og hlustun. Markmið verkefnisins var að búa til tölvuleik með
sýndarspjallverum (e. embodied conversational agents) sem byggju yfir raunsærri
fjölþættri hegðun, með það langtímamarkmið að styðja við hagnýta kennslu á íslensku máli
og menningu þar sem mál úr raunverulegum samskiptum er notað. Markmið
doktorsverkefnisins beindist að því að rannsaka raunveruleg yrt og óyrt atriði í
skýringarbeiðnum meðal Íslendinga (e. clarification requests, CRs). Lögð voru til sex
fjölþætt líkön af skýringarbeiðnum sem áttu að stuðla að raunhæfari samspili manna og
sýndarspjallvera í Virtual Reykjavik. Þróun doktorsritgerðar fór fram í þremur lotum. Fyrst
var gerð stutt könnun til að komast að því hvaða væntingar notendur hefðu til Virtual
Reykjavik-þrívíddarforritsins. Nemendurnir sögðust eiga í erfiðleikum með að æfa sig í að
tala íslensku við þá sem hafa íslensku að móðurmáli og kynnu því að meta að fá
sýndarnámsumhverfi til að æfa sig í tali. Kennslufræðilegur grunnur Virtual Reykjavik
tekur mið af samskiptaaðferðum, námi á grundvelli verkefna og leikja og fjölþættum og
einstaklingsmiðuðum aðferðum í tungumálanámi. Sýndarspjallverur Virtual Reykjavik búa
yfir fjölþættri hegðun sem er í samræmi við íslenska menningu. Með því að taka þátt í
leiknum komast notendur í tæri við íslenskt mál og menningu í sýndarnámsveruleika áður
en þeir eiga samskipti við Íslendinga.
Meginviðfang rannsóknarinnar var samskiptaþátturinn skýringarbeiðni (CR) en
nauðsynlegt var að afmarka rannsóknina við einn samskiptaþátt svo unnt væri að nota
fjölþætta greiningu sem dugði til að forrita sýndarverurnar. Skýringarbeiðni er ein
algengasta tegund segða í samtölum (Purver, 2004). Hún hjálpar til við að skýra það sem
áður hefur verið sagt en sem viðmælandi hefur af einhverjum sökum ekki skilið og stuðlar
þannig að góðu samtalsflæði. Af þessum sökum eru skýringarbeiðnir mjög mikilvægar til
þess að ná fram raunsæjum samskiptum milli notanda og sýndarspjallveru í kerfum eins
og okkar sem sameina sjálfvirka talgreiningu og samtöl sem skipulögð eru fyrir fram. Í
næstu lotu rannsóknarinnar var málgögnum safnað til þess að greina yrta og óyrta þætti í
mismunandi tegundum af skýringarbeiðnum. Vegna þess hversu flókið talmál er og
fjölbreytileg samtöl geta verið var aðeins safnað samtölum þar sem ókunnugir spurðu til
vegar í miðbæ Reykjavíkur. Þetta endurspeglaðist svo í þeim verkefnum sem nemendur þyrftu að leysa í Virtual Reykjavik. Þar spyrja þeir sýndarspjallverur til vegar í miðbæ
Reykjavíkur og verurnar nota skýringaraðferðir til að vísa til vegar á sem raunsæjastan
hátt. Þó ber ekki að líta svo á að þetta sé tæmandi rannsókn á eðli skýringarbeiðna heldur
fjölþætt lýsing á skýringarbeiðnum, notkun þeirra í sérstökum samræðuaðstæðum í
leiknum og beitingu þeirra til að líkja eftir mannlegri hegðun.
Sex mismunandi fjölþættar skýringarbeiðnategundir voru búnar til á grundvelli
gagnagrunns með myndbandsupptökum af raunverulegum samtölum milli fólks með
íslensku að móðurmáli og fólks sem ekki hefur íslensku að móðurmáli. Þetta voru í heild
165 upptökur, 1.59.02 klst. á lengd, 108 pör fólks þar sem annar aðilinn hefur íslensku að
móðurmáli en hinn ekki og 57 pör þar sem báðir aðilar hafa íslensku að móðurmáli,
karlmenn og konur. Aldur þeirra sem höfðu íslensku að móðurmáli var á bilinu 18–70 ár
og meðalaldurinn u.þ.b. 35 ár en þeir sem ekki höfðu íslensku að móðurmáli voru á
aldrinum 20–40 ára og meðalaldur þar u.þ.b. 30 ár. Úr þessum gagnagrunni var búinn til
fjölþættur stofn skýringarbeiðna sem samanstóð af yrtum og óyrtum gögnum fyrir hverja
tegund af skýringarbeiðni. Myndbandsupptökur voru greindar með ELAN merkingar- og
skýringapakkanum. Í hverri greiningu var fjölþættum gögnum lýst. Fjölþættri nálgun við
tungumál og fjölþættri greiningu á samskiptum var beitt til að greina yrta og óyrta þætti
skýringarbeiðna. Vegna takmarka á umfangi rannsóknarinnar voru aðeins tvær gerðir
beiðna notaðar, úrfelling og innskotsaðferð.
Að lokum var framkvæmd notendakönnun til að komast að því hvernig nemendur
skynjuðu fjölþætta hegðun sýndarspjallveranna í leiknum og hvort þeir tækju eftir þessum
tveimur tegundum skýringarbeiðna í honum. Nemendum þótti innskotsaðferðin vera
eðlilegust þótt þeim hefði fundist henni stundum vera beitt dálítið ruddalega eða hún verið
notuð of mikið af sýndarspjallverunum. Það hversu spjallverurnar notuðu mikið
skýringarbeiðnirnar var ekki mælt þar sem einblínt var á nemendur sem notendur í þessari
frumútgáfu leiksins. Könnunin leiddi í ljós fjölda möguleika til að betrumbæta fjölþætta
hegðun spjallveranna í framtíðarútgáfum leiksins. Sérstaklega bentu notendur á að ákveðin
svipbrigði og að spjallverurnar gætu ekki brosað gerði það að verkum að þær virkuðu
„óhugnanlegar“.
Í stuttu máli eru færð rök fyrir því í ritgerðinni að þrívíddartölvuleikir nýtist vel til
að kenna íslenska tungu og menningu, með sérstakri áherslu á að æfa talmálsfærni. Fjallað
er um og stutt með kennslufræðilegum kenningum hvernig bæta megi námsupplifun og
kalla fram alvörusamskipti í sýndarveruleika með raunsærri og fjölþættri hegðun
spjallvera. Skoðaðar voru sex skýringaraðferðir sem fólk með íslensku að móðurmáli
notaði til að vísa til vegar, annars vegar af fólki með íslensku að móðurmáli og hins vegar
þeim sem ekki hafa íslensku að móðurmáli. Í ritgerðinni er einnig bent á hugsanlegar nýjar
rannsóknir í sambandi við skýringarbeiðnir og Virtual Reykjavik. Skoða mætti frekar
fjölþættar skýringarbeiðnir í samtölum við aðrar aðstæður og í öðrum tungumálum. Slíkt
myndi gagnast við að betrumbæta þær skýringarbeiðnir sem sýndarspjallverur í Virtual
Reykjavik nota. Ágætis byrjun á áframhaldandi vinnu væri að framkvæma nýja könnun
með fullkomnari leiðbeiningum, námsefni og stoðbúnaði, talgreinikerfi sem virkar á allan
hátt í Virtual Reykjavik og með sýndarspjallverum sem byggju yfir fleiri eiginleikum, gætu
t.d. brosað.This thesis forms part of the project Icelandic Language and Culture Training in Virtual Reykjavik, a 3D computer game that enables learners of Icelandic to practise oral language and listening. The aim of the project was to build a computer game populated with embodied conversational agents (ECAs) endowed with realistic multimodal behaviour, with a long-term goal of supporting authentic teaching of Icelandic language and culture. The part of the project reported in this thesis focused on examining human verbal and non-verbal features in clarification requests (CRs). Six multimodal CR models were suggested for implementation, with the intention of promoting a more realistic human-agent interaction in Virtual Reykjavik. The research took place in three phases. First, a small survey was carried out, eliciting learners’ expectations from Virtual Reykjavik. It informed about learners’ expectations of a 3D application. Learners reported difficulties in practising spoken Icelandic with native speakers in real life and for this reason said they would appreciate a virtual learning environment for practising oral language. The pedagogical foundation of Virtual Reykjavik considers the communicative approach in language instruction, task- and game-based learning, and multimodal and individual language learning approaches. Virtual Reykjavik was populated with ECAs endowed with multimodal behaviour that is authentic to Icelandic culture. Engaging in the game provided learners with an opportunity to experience Icelandic language as it is spoken in the target culture but in a virtual learning environment, and prior to engaging with speakers in the real world.
The communicative function CR was chosen as the main object of multimodal analysis, in order to narrow down the focus to a specific topic in natural language research. CR is one of the most commonly used utterance-types in spoken conversations (Purver, 2004); it helps to clarify what has previously been said but for whatever reason not understood by the recipient, and as such facilitates smooth conversational flow. For these reasons, CR is very important in achieving a realistic human-agent interaction in systems, like ours, which combine automatic speech recognition and pre-planned dialogues. In this second phase, natural language data was collected in order to analyse the verbal and non-verbal features in various types of CRs. Due to the complexity of spoken language and a wide range of possible conversational scenarios, data were collected only during first encounters asking for directions to a location in central Reykjavik. This in turn reflected the same task learners would need to do in Virtual Reykjavik - they would ask agents for directions in central Virtual Reykjavik and the agents would use clarification strategies in an authentic way. It should, however, not be seen as an exhaustive treatise about the nature of CRs but rather as a multimodal description of CRs, their use in a particular conversational scenario in the game, and their application to the development of human-like behaviour. Based on a database of video recordings of real-life conversations between native and non-native speakers of Icelandic, six different multimodal CR types were characterised. (165 recordings with total recorded time 1 hour, 59 minutes and 2 seconds; 108 native-non-native speaker pairs and 57 native-native speaker pairs, men and women; ages of native speakers between 18-70 with average age approximately 35 years, and ages of non-native speakers between 20-40 with average age approximately 30 years). Out of this database, a multimodal corpus of CRs was created, consisting of verbal and non-verbal data for each type of CR. Video recordings were analysed using the ELAN tagging and annotation package. Each analysis consisted of a description of multimodal data. The multimodal approach to language and the multimodal interaction analysis were used to analyse the verbal and non-verbal features of CRs. Due to resource constraints, only two types, the Ellipsis and the Fragment (Interjection Strategy), were implemented.
Finally, a user response study was conducted in order to find out how learners perceived multimodal behaviour of ECAs in the game, and whether surveyed learners noticed the two implemented CRs. Learners perceived the CR Fragment (Interjection Strategy) as the most natural, despite its being perceived as slightly rude or used too frequently by the ECAs. The frequency of use of CRs by the ECAs was not measured, since the focus was on learners as users of this game prototype. The study revealed many possibilities for improving the multimodal behaviour of ECAs which could be implemented in future versions. In particular, certain facial expressions, and their lack of ability to smile, were commonly perceived by learners as “creepy”.
In summary, this thesis presents the rationale for building a 3D computer game for teaching Icelandic language and culture, with a focus on practising oral language skills. It presents pedagogical background for including authentic features into the multimodal behaviour of ECAs in a computer game to achieve a more realistic human-agent interaction, and thus to contribute to an improved learning experience in an online virtual learning environment. Six clarification strategies used by native speakers of Icelandic were observed when they were approached by other native and non-native speakers asking for directions. The thesis also outlines points for future work on CRs and Virtual Reykjavik. Exploration of multimodal CRs in other conversational settings and languages would be useful for further improving ECA CRs used in Virtual Reykjavik. A good starting point for a continuation would be to conduct a new study with more complete instructions, learning materials and scaffolding, a fully functioning speech recognition system in Virtual Reykjavik, and ECAs endowed with additional features including smiling.RANNÍ
Computational and Psycho-Physiological Investigations of Musical Emotions
The ability of music to stir human emotions is a well known fact (Gabrielsson & Lindstrom.
2001). However, the manner in which music contributes to those experiences remains
obscured. One of the main reasons is the large number of syndromes that characterise
emotional experiences. Another is their subjective nature: musical emotions can be
affected by memories, individual preferences and attitudes, among other factors (Scherer
& Zentner, 2001). But can the same music induce similar affective experiences in all
listeners, somehow independently of acculturation or personal bias? A considerable
corpus of literature has consistently reported that listeners agree rather strongly about
what type of emotion is expressed in a particular piece or even in particular moments or
sections (Juslin & Sloboda, 2001). Those studies suggest that music features encode
important characteristics of affective experiences, by suggesting the influence of various
structural factors of music on emotional expression. Unfortunately, the nature of these
relationships is complex, and it is common to find rather vague and contradictory
descriptions.
This thesis presents a novel methodology to analyse the dynamics of emotional
responses to music. It consists of a computational investigation, based on spatiotemporal
neural networks sensitive to structural aspects of music, which "mimic" human affective
responses to music and permit to predict new ones. The dynamics of emotional
responses to music are investigated as computational representations of perceptual
processes (psychoacoustic features) and self-perception of physiological activation
(peripheral feedback). Modelling and experimental results provide evidence suggesting
that spatiotemporal patterns of sound resonate with affective features underlying
judgements of subjective feelings. A significant part of the listener's affective response
is predicted from the a set of six psychoacoustic features of sound - tempo, loudness,
multiplicity (texture), power spectrum centroid (mean pitch), sharpness (timbre) and
mean STFT flux (pitch variation) - and one physiological variable - heart rate. This work
contributes to new evidence and insights to the study of musical emotions, with particular
relevance to the music perception and emotion research communities
- …