96 research outputs found
Entrainment in European Portuguese
A presente tese centra-se na análise da adaptação entre falantes em diálogos espontâneos
em Português Europeu (PE). Esta adaptação, também designada por acomodação, sintonia
ou mesmo sincronismo (do inglês entrainment), tem sido descrita como a capacidade de os
seres humanos se ajustarem, tanto a nível comportamental como discursivo, ao seu interlocutor
(Brennan and Clark, 1996; Beˇnuš, 2014a). Esta estratégia tem sido estudada sob diversas
perspetivas, quer para compreender quais os mecanismos linguísticos, psicológicos e sociais
(Levitan et al., 2012; Beˇnuš, 2014a) que a motivam, quer para replicar este comportamento,
tipicamente humano, em sistemas de diálogo automáticos (Levitan, 2014; Hoegen et al., 2019).
Estudos recentes sobre adaptação entre falantes em diferentes situações comunicativas têm
mostrado a importância desta estratégia na resolução de tarefas específicas (e.g., diálogos em
formato map-task, jogos colaborativos) e em sessões de terapia (e.g., terapia conjugal; sessões
de aconselhamento sobre droga e linhas SOS anti-suicídio).
Nesta tese, as semelhanças acústico-prosódicas entre falantes são analisadas ao nível do
diálogo (adaptação global) e em tomadas de palavra intercaladas (adaptação local), tendo em
conta variáveis sociais, como o papel desempenhado pelo falante no diálogo ou a familiaridade
entre falantes. A nível local, verifica-se também se a adaptação entre pares de enunciados
contíguos produzidos por falantes distintos varia de acordo com os tipos de frase (como, por
exemplo, uma declarativa seguida de uma interrogativa ou quando ambas são declarativas ou
interrogativas), bem como com a presença no início do segundo enunciado de estruturas muito
frequentes em fala espontânea, tais como marcadores discursivos (e.g., agora; bem; bom; portanto;
então), disfluências (pausas preenchidas, sobretudo aa e aam); repetições enfáticas (sim,
sim, sim), constituintes afirmativos (sim; exacto; certo) e negativos (não; eu não tenho) e estruturas
ambíguas (palavras que tanto podem ser marcadores discursivos como constituintes afirmativos,
como pronto e ok). Para efetuar esta análise local, foi necessário um estudo mais aprofundado
dos marcadores discursivos nos corpora disponíveis. As marcas de pontuação, que
delimitam constituintes similares a frases (sentence-like units, SUs), as disfluências e até os constituintes
afirmativos já haviam sido estudados em diversos trabalhos em fala espontânea em
PE (Batista, 2011; Batista et al., 2012a; Moniz, 2013; Moniz et al., 2015; Cabarrão, 2013; Cabarrão
et al., 2016). Por outro lado, a literatura sobre marcadores discursivos em dados de fala espontânea
ainda é pouco exaustiva, na medida em que a maioria dos estudos se centram na análise
das funções pragmáticas destas estruturas em textos escritos.
O estudo dos marcadores discursivos visa não só contribuir para uma análise mais completa da adaptação local entre falantes (através dos exemplos destas estruturas em posição
inicial), mas também para a descrição prosódica destas estruturas em fala espontânea em
diferentes corpora, nomeadamente aulas universitárias e diálogos em formato map-task. Considerando
o facto de marcadores e disfluências serem descritos na literatura como estruturas
paralinguísticas que partilham algumas propriedades (Liu et al., 2006; Goldwater et al., 2010),
e ainda o facto de ambos serem considerados na adaptação local, pretendeu-se aferir também
se estas estruturas se distinguem prosodicamente. Como tal, foi realizada uma tarefa de classificação
automática multiclasse para determinar, com base nas propriedades prosódicas das
palavras, quais as que são marcadores discursivos, quais as que são disfluências e quais as que
são SUs.
Os resultados mostram que a seleção de marcadores discursivos depende do corpus e do
falante. No mesmo corpus, existem falantes que tendem a utilizar o mesmo marcador e outros
que variam entre diversas estruturas. Apesar de existir variação por corpus, também se observa
que os marcadores mais frequentes são semelhantes em ambos os corpora. As experiências dentro
do mesmo corpus (in-domain), em que o conjunto de treino e de teste correspondem a dados
selecionados aleatoriamente a partir dos mesmos dados, mostram uma exatidão na classificação
de 87% nas aulas universitárias e de 84%, nos diálogos. As pistas acústico-prosódicas
GeMAPS e, especialmente, as eGeMAPS, parâmetros comummente utilizados em tarefas paralinguísticas,
obtiveram um bom desempenho nos dados. Os resultados sugerem que os marcadores
em posição inicial são geralmente mais fáceis de identificar do que as disfluências.
Para testar a robustez do sistema de classificação entre corpora, realizou-se uma outra experiência
com dados de um corpus para treino e do outro corpus para teste e vice-versa. Tal como
expectável, os valores obtidos nesta tarefa são mais baixos (em cerca de 11% a 12%) do que utilizando
os mesmos dados para treino e teste. Ainda assim, as melhorias obtidas face à base de
comparação em ambos os corpora mostram que esta classificação pode ser utilizada em dados
fora do domínio. De forma a perceber o impacto de cada pista acústico-prosódica na distinção
entre marcadores e disfluências, foi efetuada também uma análise às pistas mais relevantes em
ambos os domínios. As pistas relacionadas com a frequência fundamental (f0), nomeadamente
declives de f0, são as mais relevantes na distinção entre estas estruturas. No geral, apesar da complexidade
desta tarefa, os resultados são muito encorajadores para a classificação automática
multiclasse.
No que diz respeito à análise de adaptação global entre falantes, os resultados evidenciam
adaptação acústico-prosódica, embora expressa em diferentes graus: os falantes não se adaptam
sempre aos mesmos interlocutores e seguindo as mesmas estratégias acústico-prosódicas.
Os resultados mostram que os falantes são mais semelhantes aos seus interlocutores do que ao
seu próprio discurso noutros diálogos (cada falante participa em quatro conversas, duas como
dador e duas como seguidor) na maioria dos parâmetros acústico-prosódicos, nomeadamente
f0, duração e qualidade de voz, sendo a energia o único parâmetro inalterado. Já na comparação
entre pares e não-pares, esta adaptação verifica-se maioritariamente em parâmetros de duração. Este estudo mostra também que os principais parâmetros prosódicos (f0, energia,
duração e qualidade de voz) são monitorizados no processo de adaptação entre falantes, evidenciando
um resultado para o PE que se diferencia dos obtidos para o Inglês e o Mandarim
(Levitan, 2014). Nestas línguas, observa-se adaptação global entre interlocutores principalmente
em pistas de energia, quer na comparação com não-pares, quer com o mesmo falante
noutro diálogo. Quanto ao papel desempenhado, observa-se que cerca de metade dos falantes
é mais consistente no seu discurso enquanto dador, mostrando menos adaptação ao interlocutor,
e a outra metade como seguidor. Tal pode dever-se ao facto de se tratar de um diálogo
colaborativo, em que os falantes trabalham em conjunto para ser bem-sucedidos na tarefa de
chegar ao destino final no mapa. Estes resultados permitem também equacionar o facto de a
adaptação entre falantes estar mais relacionada com o interlocutor, a sua postura e personalidade,
do que com o papel desempenhado no diálogo.
Os resultados obtidos quanto à adaptação local, sem considerar os tipos de frases ou estruturas
específicas, revelam que os falantes são mais semelhantes entre enunciados contíguos do
que entre não contíguos nos quatro parâmetros prosódicos: f0, energia, duração e qualidade de
voz. Estes resultados não estão de acordo com uma análise similar para o inglês (Levitan, 2014):
os falantes adaptam-se nos enunciados contíguos nos parâmetros média e máximo de energia e
harmonics-to-noise-ratio (HNR), mas não em pistas de f0. Esses resultados permitem colocar a
hipótese de que pistas como energia podem ser independentes da língua, pelo menos em corpora
semelhantes, mas não os parâmetros de f0. As experiências realizadas até ao momento
mostram assim que o comportamento acústico-prosódico da adaptação local em PE abrange
não só pistas de energia mas todos os outros parâmetros prosódicos.
Considerando a adaptação entre diferentes tipos de SUs, os pares pergunta-resposta são
aqueles com maior semelhança na maioria dos parâmetros analisados, f0, energia, duração e
qualidade de voz, sendo os pares declarativo-interrogativo aqueles nos quais ocorre menos adaptação.
Estes resultados já eram expectáveis, dada a natureza colaborativa do corpus. Quanto
aos subtipos de interrogativas nos pares pergunta-resposta, existem maiores evidências de
adaptação com perguntas Sim-Não e Tags do que com perguntas parciais. Em PE, as perguntas
Sim-Não e Tags compartilham um contorno alto/ascendente por oposição ao contorno
baixo/descendente associado a perguntas parciais e a declarativas neutras. Além disso, as
perguntas Sim-Não não possuem pistas léxico-sintáticas associadas, apenas prosódicas, o que
pode constituir mais uma evidência para a adaptação local encontrada. Importa ainda referir
que os pares pergunta-resposta são a força motriz da natureza dialógica do corpus, constituído
por tarefas muito colaborativas que têm de ser resolvidas em conjunto por dois interlocutores.
Os resultados deste estudo mostram que as estruturas com maior adaptação local são as que
promovem colaboração e reforço positivo, estratégias que contribuem para a fluidez e sucesso
do diálogo. Em linha com o que foi dito para as SUs, há maiores evidências de adaptação local
com constituintes afirmativos no início do segundo enunciado em enunciados contíguos.
Estes resultados evidenciam, uma vez mais, o esforço colaborativo entre os interlocutores para resolver a tarefa. Por outro lado, as pausas preenchidas e os marcadores discursivos são as estruturas
que apresentam menor grau de adaptação. Uma possível explicação é o facto de que,
quando os falantes proferem estas estruturas, estão já a planear o que dizer a seguir.
O trabalho desenvolvido ao longo desta tese visa contribuir para a análise linguística e
automática de tópicos inexplorados na fala espontânea em PE, nomeadamente estratégias de
adaptação acústico-prosódica entre falantes.This thesis focuses on the analysis of entrainment, an adaptation strategy used by speakers
to become more similar to their interlocutors. The main goal of this study is to find acousticprosodic
similarities between speakers, considering social variables and different structural
metadata events - types of sentence-like units in consecutive turns, as declaratives and interrogatives,
and the presence of discourse markers, affirmative and negative cue words, and
disfluencies, namely filled pauses, in the beginning of turns.
To study the use of entrainment with these events, a special analysis of discourse markers
was performed. Sentence-like units and disfluencies had already been studied in EP spontaneous
speech, lacking only discourse markers. Experiments were performed using several
acoustic-prosodic features and machine learning methods to automatically distinguish
between markers, disfluencies and sentence-like units. In-domain and cross-domain experiments
showed that, using exclusively acoustic-prosodic cues, markers can be fairly discriminated
from the other events.
The analysis of global and local entrainment in a corpus of map-task dialogues showed
evidences of similarities between speakers in the main prosodic parameters, pitch, energy, duration,
and voice quality, even though expressed in different degrees: speakers entrain in distinct
features with different interlocutors.
Regarding sentence-like units types, question-answer turns present stronger similarity, and
declarative-interrogative pairs are the ones where less entrainment occurs. In question-answer
pairs, there is stronger evidence of entrainment with Yes/No and Tag questions than with
Wh- questions, which may be related with the fact that these subtypes are coded in distinctive
prosodic ways. For turn-initial structures, entrainment is stronger when the second turn begins
with an affirmative cue word; and scarce with disfluencies and discourse markers. The different
degrees of entrainment may be related with the informative nature of these structures: in
this data, entrainment is stronger with feedback structures
A Dynamic Approach to Rhythm in Language: Toward a Temporal Phonology
It is proposed that the theory of dynamical systems offers appropriate tools
to model many phonological aspects of both speech production and perception. A
dynamic account of speech rhythm is shown to be useful for description of both
Japanese mora timing and English timing in a phrase repetition task. This
orientation contrasts fundamentally with the more familiar symbolic approach to
phonology, in which time is modeled only with sequentially arrayed symbols. It
is proposed that an adaptive oscillator offers a useful model for perceptual
entrainment (or `locking in') to the temporal patterns of speech production.
This helps to explain why speech is often perceived to be more regular than
experimental measurements seem to justify. Because dynamic models deal with
real time, they also help us understand how languages can differ in their
temporal detail---contributing to foreign accents, for example. The fact that
languages differ greatly in their temporal detail suggests that these effects
are not mere motor universals, but that dynamical models are intrinsic
components of the phonological characterization of language.Comment: 31 pages; compressed, uuencoded Postscrip
Effect of maturation on suprasegmental speech processing in full- and preterm infants: A mismatch negativity study
Infants born prematurely are at higher risk for later linguistic deficits present in delayed or atypical processing of phonetic and prosodic information. In order to be able to specify the nature of this atypical development, it is important to investigatethe role of early experience in language perception. According to the concept of Gonzalez -Gomez and Nazzi (2012)there is a special intrauterine sensitivity to the prosodic features of languages that should have a special role in language acquisition. Therefore, we may also assume that pre- and full-term infants having months difference in intrauterine experience show different maturation patterns of processing
prosodic and phonetic information present at word level. The aim of our study was to investigate the effect of these differences on word stress patternvs. phoneme information
processing.
Two age groups of infants (6 and 10 month-olds) were included in our study. 21 of 46 of the total of infants investigated were prematurely born with low birth weight. W
e used the mismatch negativity (MMN) event related brain
potential (ERP)component, a widely used electrophysiological correlate of acoustic change detection,
for testing the assumed developmental changes of phoneme and
word stress discrimination. In a passive oddball paradigm we
used a word as standard, a pseudo-word as phoneme deviant, and an illegally uttered word as stress deviant.Our results showed no differences in MMN responses in the phoneme deviant condition between the groups,meaning a relatively intact maturation of phoneme processing of preterm infants a
s compared to their contemporaries. However, the mismatch responses measured in the stress condition revealed significant between - group differences. These results strengthen the view that the total length of intrauterine experience influences the time of emergence of prosodic processing
A Study of Accomodation of Prosodic and Temporal Features in Spoken Dialogues in View of Speech Technology Applications
Inter-speaker accommodation is a well-known property of human speech and human interaction in general. Broadly it refers to the behavioural patterns of two (or more) interactants and the effect of the (verbal and non-verbal) behaviour of each to that of the other(s). Implementation of thisbehavior in spoken dialogue systems is desirable as an improvement on the naturalness of humanmachine interaction. However, traditional qualitative descriptions of accommodation phenomena do not provide sufficient information for such an implementation. Therefore, a quantitativedescription of inter-speaker accommodation is required. This thesis proposes a methodology of monitoring accommodation during a human or humancomputer dialogue, which utilizes a moving average filter over sequential frames for each speaker. These frames are time-aligned across the speakers, hence the name Time Aligned Moving Average (TAMA). Analysis of spontaneous human dialogue recordings by means of the TAMA methodology reveals ubiquitous accommodation of prosodic features (pitch, intensity and speech rate) across interlocutors, and allows for statistical (time series) modeling of the behaviour, in a way which is meaningful for implementation in spoken dialogue system (SDS) environments.In addition, a novel dialogue representation is proposed that provides an additional point of view to that of TAMA in monitoring accommodation of temporal features (inter-speaker pause length and overlap frequency). This representation is a percentage turn distribution of individual speakercontributions in a dialogue frame which circumvents strict attribution of speaker-turns, by considering both interlocutors as synchronously active. Both TAMA and turn distribution metrics indicate that correlation of average pause length and overlap frequency between speakers can be attributed to accommodation (a debated issue), and point to possible improvements in SDS “turntaking” behaviour. Although the findings of the prosodic and temporal analyses can directly inform SDS implementations, further work is required in order to describe inter-speaker accommodation sufficiently, as well as to develop an adequate testing platform for evaluating the magnitude ofperceived improvement in human-machine interaction. Therefore, this thesis constitutes a first step towards a convincingly useful implementation of accommodation in spoken dialogue systems
Recommended from our members
Deception in Spoken Dialogue: Classification and Individual Differences
Automatic deception detection is an important problem with far-reaching implications in many areas, including law enforcement, military and intelligence agencies, social services, and politics. Despite extensive efforts to develop automated deception detection technologies, there have been few objective successes. This is likely due to the many challenges involved, including the lack of large, cleanly recorded corpora; the difficulty of acquiring ground truth labels; and major differences in incentives for lying in the laboratory vs. lying in real life. Another well-recognized issue is that there are individual and cultural differences in deception production and detection, although little has been done to identify them. Human performance at deception detection is at the level of chance, making it an uncommon problem where machines can potentially outperform humans.
This thesis addresses these challenges associated with research of deceptive speech. We created the Columbia X-Cultural Deception (CXD) Corpus, a large-scale collection of deceptive and non-deceptive dialogues between native speakers of Standard American English and Mandarin Chinese. This corpus enabled a comprehensive study of deceptive speech on a large scale.
In the first part of the thesis, we introduce the CXD corpus and present an empirical analysis of acoustic-prosodic and linguistic cues to deception. We also describe machine learning classification experiments to automatically identify deceptive speech using those features. Our best classifier achieves classification accuracy of almost 70%, well above human performance.
The second part of this thesis addresses individual differences in deceptive speech. We present a comprehensive analysis of individual differences in verbal cues to deception, and several methods for leveraging these speaker differences to improve automatic deception classification. We identify many differences in cues to deception across gender, native language, and personality. Our comparison of approaches for leveraging these differences shows that speaker-dependent features that capture a speaker's deviation from their natural speaking style can improve deception classification performance. We also develop neural network models that accurately model speaker-specific patterns of deceptive speech.
The contributions of this work add substantially to our scientific understanding of deceptive speech, and have practical implications for human practitioners and automatic deception detection
Pushing the envelope: Evaluating speech rhythm with different envelope extraction techniques
The amplitude of the speech signal varies over time, and the speech envelope is an attempt to characterise this variation in the form of an acoustic feature. Although tacitly assumed, the similarity between the speech envelope-derived time series and that of phonetic objects (e.g., vowels) remains empirically unestablished. The current paper, therefore, evaluates several speech envelope extraction techniques, such as the Hilbert transform, by comparing different acoustic landmarks (e.g., peaks in the speech envelope) with manual phonetic annotation in a naturalistic and diverse dataset. Joint speech tasks are also introduced to determine which acoustic landmarks are most closely coordinated when voices are aligned. Finally, the acoustic landmarks are evaluated as predictors for the temporal characterisation of speaking style using classification tasks. The landmark that performed most closely to annotated vowel onsets was peaks in the first derivative of a human audition-informed envelope, consistent with converging evidence from neural and behavioural data. However, differences also emerged based on language and speaking style. Overall, the results show that both the choice of speech envelope extraction technique and the form of speech under study affect how sensitive an engineered feature is at capturing aspects of speech rhythm, such as the timing of vowels
- …