149 research outputs found
A Study of Prosodic Entrainment and Social Factors in Mandarin Conversations
In conversations, interlocutors usually adopt prosody to that of their partner, and they become similar in prosodic production for successful communication. This phenomenon of prosodic entrainment is related to complex factors. This study aims to explore the relationship between prosodic entrainment and social factors. Two analyses are accomplished: the analysis of prosodic entrainment and gender, and the analysis of prosodic entrainment and role. In terms of prosodic entrainment and gender, it is found that the most prosodic features are entrained in female-male conversations, and the least in male-male conversations. In terms of prosodic entrainment and roles, it is found that different roles have influence on the entrainment degree, and information givers entrain more to followers in conversation
The Influence of Conversation Role on Prosodic Entrainment in Mandarin Interactions
The aim of this study is to find out how conversation role affects prosodic entrainment in Mandarin interactions. Tongji Games Corpus are adopted for this study, in which two interlocutors play unequal roles in Picture Ordering Games (information giver and information follower), and equal roles in Picture Classifying Games. Based on this corpus, two tests are conducted in this study, the Role Influence Test and Role Direction Test. In the analysis of Role Influence Test, it is found that the entrainment degree in Picture Ordering Games is significantly bigger than that in the Picture Classifying Games. In the analysis of Role Direction Test, it is found that information givers entrain more to followers in conversation. These findings provide evidences that conversation roles, as one type of the social factors, have influence on the degree and direction of prosodic entrainment in Mandarin interactions
Recommended from our members
Acoustic-Prosodic Entrainment in Human-Human and Human-Computer Dialogue
Entrainment (sometimes called adaptation or alignment) is the tendency of human speakers to adapt to or imitate characteristics of their interlocutors' behavior. This work focuses on entrainment on acoustic-prosodic features. Acoustic-prosodic entrainment has been extensively studied but is not well understood. In particular, it is difficult to compare the results of different studies, since entrainment is usually measured in different ways, reflect- ing disparate conceptualizations of the phenomenon. In the first part of this thesis, we look for evidence of entrainment on a variety of acoustic-prosodic features according to various conceptualizations, and show that human speakers of both Standard American English and Mandarin Chinese entrain to each other globally and locally, in synchrony, and that this entrainment can be constant or convergent. We explore the relationship between entrainment and gender and show that entrainment on some acoustic-prosodic features is related to social behavior and dialogue coordination. In addition, we show that humans entrain in a novel domain, backchannel-inviting cues, and propose and test a novel hypothesis: that entrainment will be stronger in the case of an outlier feature value. In the second part of the thesis, we describe a method for flexibly and dynamically entraining a TTS voice to multiple acoustic-prosodic features of a user's input utterances, and show in an exploratory study that users prefer an entraining avatar to one that does not entrain, are more likely to ask its advice, and choose more positive adjectives to describe its voice.
This work introduces a coherent view of entrainment in both familiar and novel domains. Our results add to the body of knowledge of entrainment in human-human conversations and propose new directions for making use of that knowledge to enhance human-computer interactions
A Review of the Research on Linguistic Prosody in Conversation Entrainment
Having conversation is a joint action in which interacting individuals coordinate their behavior and adapt their linguistic choices to each other in order to make smooth and successful communication. This coordination or adaptation is called entrainment. In daily conversation, interlocutors entrain at linguistic or nonlinguistic levels. The present research focuses on linguistic prosody in entrainment, and reviews the theoretical and empirical studies of linguistic prosody in conversation entrainment in order to supply references for future studies in the similar fields
Prosodic Entrainment in Mandarin and English: A Cross-Linguistic Comparison
Entrainment is the propensity of speakers to begin behaving like one another in conversation. We identify evidence of entrainment in a number of acoustic and prosodic dimensions in conversational speech of Standard American English speakers and Mandarin Chinese speakers. We compare entrainment in the Columbia Games Corpus and the Tongji Games Corpus and find similar patterns of global and local entrainment in both. Differences appear primarily in global convergence
A Review of Research on the Chinese EFL Learners’ Production of Linguistic Prosody in Turn Organization
Prosody features play crucial roles in the management and organization of conversations, among which turn-taking plays crucial roles in conversation organization. The appropriate use of prosodic features is an indispensable part of conversation strategies or skills, but the interaction between linguistic prosody and turn-taking is difficult to be acquired for EFL learners. This paper reviews the theoretical and empirical studies of interrelation between prosody and turn-taking, and the EFL learners’ acquisition of prosody in conversation organization in order to supply references for future studies in the similar fields
A Research on the Use of Boundary Tone as a Turn-taking Mechanism in Chinese EFL Students’ Conversations
The boundary tone is one of the crucial mechanisms for the organization of English conversations. But for Chinese learners, the acquisition of this mechanism is not satisfying. This study examines the use of boundary tones at the turn transitions in Chinese EFL learners’ elicited English conversations. The results indicate that Chinese learners are not proficient in the use of boundary tones to show their intentions in turn exchanges, and the misuse of low L-L% boundary tone is the most prominent
A Research on the Use of Pause and Lengthening for Turn Organization in Chinese EFL Students’ Conversations
Pause and lengthening are used frequently for turn organization in English interactions. But, for Chinese EFL learners, these two prosodic mechanisms are not used efficiently. This study analyzed the use of pause and lengthening for turn organization in Chinese EFL learners’ English conversations. The results show the excessive dependence on the pause to show the turn yielding intentions in Chinese learners’ conversations, and Chinese learners probably cannot distinguish the uses of final lengthening within turns and the lengthening before turn changes
Entrainment in European Portuguese
A presente tese centra-se na análise da adaptação entre falantes em diálogos espontâneos
em Português Europeu (PE). Esta adaptação, também designada por acomodação, sintonia
ou mesmo sincronismo (do inglês entrainment), tem sido descrita como a capacidade de os
seres humanos se ajustarem, tanto a nÃvel comportamental como discursivo, ao seu interlocutor
(Brennan and Clark, 1996; Beˇnuš, 2014a). Esta estratégia tem sido estudada sob diversas
perspetivas, quer para compreender quais os mecanismos linguÃsticos, psicológicos e sociais
(Levitan et al., 2012; Beˇnuš, 2014a) que a motivam, quer para replicar este comportamento,
tipicamente humano, em sistemas de diálogo automáticos (Levitan, 2014; Hoegen et al., 2019).
Estudos recentes sobre adaptação entre falantes em diferentes situações comunicativas têm
mostrado a importância desta estratégia na resolução de tarefas especÃficas (e.g., diálogos em
formato map-task, jogos colaborativos) e em sessões de terapia (e.g., terapia conjugal; sessões
de aconselhamento sobre droga e linhas SOS anti-suicÃdio).
Nesta tese, as semelhanças acústico-prosódicas entre falantes são analisadas ao nÃvel do
diálogo (adaptação global) e em tomadas de palavra intercaladas (adaptação local), tendo em
conta variáveis sociais, como o papel desempenhado pelo falante no diálogo ou a familiaridade
entre falantes. A nÃvel local, verifica-se também se a adaptação entre pares de enunciados
contÃguos produzidos por falantes distintos varia de acordo com os tipos de frase (como, por
exemplo, uma declarativa seguida de uma interrogativa ou quando ambas são declarativas ou
interrogativas), bem como com a presença no inÃcio do segundo enunciado de estruturas muito
frequentes em fala espontânea, tais como marcadores discursivos (e.g., agora; bem; bom; portanto;
então), disfluências (pausas preenchidas, sobretudo aa e aam); repetições enfáticas (sim,
sim, sim), constituintes afirmativos (sim; exacto; certo) e negativos (não; eu não tenho) e estruturas
ambÃguas (palavras que tanto podem ser marcadores discursivos como constituintes afirmativos,
como pronto e ok). Para efetuar esta análise local, foi necessário um estudo mais aprofundado
dos marcadores discursivos nos corpora disponÃveis. As marcas de pontuação, que
delimitam constituintes similares a frases (sentence-like units, SUs), as disfluências e até os constituintes
afirmativos já haviam sido estudados em diversos trabalhos em fala espontânea em
PE (Batista, 2011; Batista et al., 2012a; Moniz, 2013; Moniz et al., 2015; Cabarrão, 2013; Cabarrão
et al., 2016). Por outro lado, a literatura sobre marcadores discursivos em dados de fala espontânea
ainda é pouco exaustiva, na medida em que a maioria dos estudos se centram na análise
das funções pragmáticas destas estruturas em textos escritos.
O estudo dos marcadores discursivos visa não só contribuir para uma análise mais completa da adaptação local entre falantes (através dos exemplos destas estruturas em posição
inicial), mas também para a descrição prosódica destas estruturas em fala espontânea em
diferentes corpora, nomeadamente aulas universitárias e diálogos em formato map-task. Considerando
o facto de marcadores e disfluências serem descritos na literatura como estruturas
paralinguÃsticas que partilham algumas propriedades (Liu et al., 2006; Goldwater et al., 2010),
e ainda o facto de ambos serem considerados na adaptação local, pretendeu-se aferir também
se estas estruturas se distinguem prosodicamente. Como tal, foi realizada uma tarefa de classificação
automática multiclasse para determinar, com base nas propriedades prosódicas das
palavras, quais as que são marcadores discursivos, quais as que são disfluências e quais as que
são SUs.
Os resultados mostram que a seleção de marcadores discursivos depende do corpus e do
falante. No mesmo corpus, existem falantes que tendem a utilizar o mesmo marcador e outros
que variam entre diversas estruturas. Apesar de existir variação por corpus, também se observa
que os marcadores mais frequentes são semelhantes em ambos os corpora. As experiências dentro
do mesmo corpus (in-domain), em que o conjunto de treino e de teste correspondem a dados
selecionados aleatoriamente a partir dos mesmos dados, mostram uma exatidão na classificação
de 87% nas aulas universitárias e de 84%, nos diálogos. As pistas acústico-prosódicas
GeMAPS e, especialmente, as eGeMAPS, parâmetros comummente utilizados em tarefas paralinguÃsticas,
obtiveram um bom desempenho nos dados. Os resultados sugerem que os marcadores
em posição inicial são geralmente mais fáceis de identificar do que as disfluências.
Para testar a robustez do sistema de classificação entre corpora, realizou-se uma outra experiência
com dados de um corpus para treino e do outro corpus para teste e vice-versa. Tal como
expectável, os valores obtidos nesta tarefa são mais baixos (em cerca de 11% a 12%) do que utilizando
os mesmos dados para treino e teste. Ainda assim, as melhorias obtidas face à base de
comparação em ambos os corpora mostram que esta classificação pode ser utilizada em dados
fora do domÃnio. De forma a perceber o impacto de cada pista acústico-prosódica na distinção
entre marcadores e disfluências, foi efetuada também uma análise às pistas mais relevantes em
ambos os domÃnios. As pistas relacionadas com a frequência fundamental (f0), nomeadamente
declives de f0, são as mais relevantes na distinção entre estas estruturas. No geral, apesar da complexidade
desta tarefa, os resultados são muito encorajadores para a classificação automática
multiclasse.
No que diz respeito à análise de adaptação global entre falantes, os resultados evidenciam
adaptação acústico-prosódica, embora expressa em diferentes graus: os falantes não se adaptam
sempre aos mesmos interlocutores e seguindo as mesmas estratégias acústico-prosódicas.
Os resultados mostram que os falantes são mais semelhantes aos seus interlocutores do que ao
seu próprio discurso noutros diálogos (cada falante participa em quatro conversas, duas como
dador e duas como seguidor) na maioria dos parâmetros acústico-prosódicos, nomeadamente
f0, duração e qualidade de voz, sendo a energia o único parâmetro inalterado. Já na comparação
entre pares e não-pares, esta adaptação verifica-se maioritariamente em parâmetros de duração. Este estudo mostra também que os principais parâmetros prosódicos (f0, energia,
duração e qualidade de voz) são monitorizados no processo de adaptação entre falantes, evidenciando
um resultado para o PE que se diferencia dos obtidos para o Inglês e o Mandarim
(Levitan, 2014). Nestas lÃnguas, observa-se adaptação global entre interlocutores principalmente
em pistas de energia, quer na comparação com não-pares, quer com o mesmo falante
noutro diálogo. Quanto ao papel desempenhado, observa-se que cerca de metade dos falantes
é mais consistente no seu discurso enquanto dador, mostrando menos adaptação ao interlocutor,
e a outra metade como seguidor. Tal pode dever-se ao facto de se tratar de um diálogo
colaborativo, em que os falantes trabalham em conjunto para ser bem-sucedidos na tarefa de
chegar ao destino final no mapa. Estes resultados permitem também equacionar o facto de a
adaptação entre falantes estar mais relacionada com o interlocutor, a sua postura e personalidade,
do que com o papel desempenhado no diálogo.
Os resultados obtidos quanto à adaptação local, sem considerar os tipos de frases ou estruturas
especÃficas, revelam que os falantes são mais semelhantes entre enunciados contÃguos do
que entre não contÃguos nos quatro parâmetros prosódicos: f0, energia, duração e qualidade de
voz. Estes resultados não estão de acordo com uma análise similar para o inglês (Levitan, 2014):
os falantes adaptam-se nos enunciados contÃguos nos parâmetros média e máximo de energia e
harmonics-to-noise-ratio (HNR), mas não em pistas de f0. Esses resultados permitem colocar a
hipótese de que pistas como energia podem ser independentes da lÃngua, pelo menos em corpora
semelhantes, mas não os parâmetros de f0. As experiências realizadas até ao momento
mostram assim que o comportamento acústico-prosódico da adaptação local em PE abrange
não só pistas de energia mas todos os outros parâmetros prosódicos.
Considerando a adaptação entre diferentes tipos de SUs, os pares pergunta-resposta são
aqueles com maior semelhança na maioria dos parâmetros analisados, f0, energia, duração e
qualidade de voz, sendo os pares declarativo-interrogativo aqueles nos quais ocorre menos adaptação.
Estes resultados já eram expectáveis, dada a natureza colaborativa do corpus. Quanto
aos subtipos de interrogativas nos pares pergunta-resposta, existem maiores evidências de
adaptação com perguntas Sim-Não e Tags do que com perguntas parciais. Em PE, as perguntas
Sim-Não e Tags compartilham um contorno alto/ascendente por oposição ao contorno
baixo/descendente associado a perguntas parciais e a declarativas neutras. Além disso, as
perguntas Sim-Não não possuem pistas léxico-sintáticas associadas, apenas prosódicas, o que
pode constituir mais uma evidência para a adaptação local encontrada. Importa ainda referir
que os pares pergunta-resposta são a força motriz da natureza dialógica do corpus, constituÃdo
por tarefas muito colaborativas que têm de ser resolvidas em conjunto por dois interlocutores.
Os resultados deste estudo mostram que as estruturas com maior adaptação local são as que
promovem colaboração e reforço positivo, estratégias que contribuem para a fluidez e sucesso
do diálogo. Em linha com o que foi dito para as SUs, há maiores evidências de adaptação local
com constituintes afirmativos no inÃcio do segundo enunciado em enunciados contÃguos.
Estes resultados evidenciam, uma vez mais, o esforço colaborativo entre os interlocutores para resolver a tarefa. Por outro lado, as pausas preenchidas e os marcadores discursivos são as estruturas
que apresentam menor grau de adaptação. Uma possÃvel explicação é o facto de que,
quando os falantes proferem estas estruturas, estão já a planear o que dizer a seguir.
O trabalho desenvolvido ao longo desta tese visa contribuir para a análise linguÃstica e
automática de tópicos inexplorados na fala espontânea em PE, nomeadamente estratégias de
adaptação acústico-prosódica entre falantes.This thesis focuses on the analysis of entrainment, an adaptation strategy used by speakers
to become more similar to their interlocutors. The main goal of this study is to find acousticprosodic
similarities between speakers, considering social variables and different structural
metadata events - types of sentence-like units in consecutive turns, as declaratives and interrogatives,
and the presence of discourse markers, affirmative and negative cue words, and
disfluencies, namely filled pauses, in the beginning of turns.
To study the use of entrainment with these events, a special analysis of discourse markers
was performed. Sentence-like units and disfluencies had already been studied in EP spontaneous
speech, lacking only discourse markers. Experiments were performed using several
acoustic-prosodic features and machine learning methods to automatically distinguish
between markers, disfluencies and sentence-like units. In-domain and cross-domain experiments
showed that, using exclusively acoustic-prosodic cues, markers can be fairly discriminated
from the other events.
The analysis of global and local entrainment in a corpus of map-task dialogues showed
evidences of similarities between speakers in the main prosodic parameters, pitch, energy, duration,
and voice quality, even though expressed in different degrees: speakers entrain in distinct
features with different interlocutors.
Regarding sentence-like units types, question-answer turns present stronger similarity, and
declarative-interrogative pairs are the ones where less entrainment occurs. In question-answer
pairs, there is stronger evidence of entrainment with Yes/No and Tag questions than with
Wh- questions, which may be related with the fact that these subtypes are coded in distinctive
prosodic ways. For turn-initial structures, entrainment is stronger when the second turn begins
with an affirmative cue word; and scarce with disfluencies and discourse markers. The different
degrees of entrainment may be related with the informative nature of these structures: in
this data, entrainment is stronger with feedback structures
- …