71 research outputs found

    Comparing different machine learning approaches for disfluency structure detection in a corpus of university lectures

    Get PDF
    This paper presents a number of experiments focusing on assessing the performance of different machine learning methods on the identification of disfluencies and their distinct structural regions over speech data. Several machine learning methods have been applied, namely Naive Bayes, Logistic Regression, Classification and Regression Trees (CARTs), J48 and Multilayer Perceptron. Our experiments show that CARTs outperform the other methods on the identification of the distinct structural disfluent regions. Reported experiments are based on audio segmentation and prosodic features, calculated from a corpus of university lectures in European Portuguese, containing about 32h of speech and about 7.7% of disfluencies. The set of features automatically extracted from the forced alignment corpus proved to be discriminant of the regions contained in the production of a disfluency. This work shows that using fully automatic prosodic features, disfluency structural regions can be reliably identified using CARTs, where the best results achieved correspond to 81.5% precision, 27.6% recall, and 41.2% F-measure. The best results concern the detection of the interregnum, followed by the detection of the interruption point.info:eu-repo/semantics/publishedVersio

    Extending automatic transcripts in a unified data representation towards a prosodic-based metadata annotation and evaluation

    Get PDF
    This paper describes a framework that extends automatic speech transcripts in order to accommodate relevant information coming from manual transcripts, the speech signal itself, and other resources, like lexica. The proposed framework automatically collects, relates, computes, and stores all relevant information together in a self-contained data source, making it possible to easily provide a wide range of interconnected information suitable for speech analysis, training, and evaluating a number of automatic speech processing tasks. The main goal of this framework is to integrate different linguistic and paralinguistic layers of knowledge for a more complete view of their representation and interactions in several domains and languages. The processing chain is composed of two main stages, where the first consists of integrating the relevant manual annotations in the speech recognition data, and the second consists of further enriching the previous output in order to accommodate prosodic information. The described framework has been used for the identification and analysis of structural metadata in automatic speech transcripts. Initially put to use for automatic detection of punctuation marks and for capitalization recovery from speech data, it has also been recently used for studying the characterization of disfluencies in speech. It was already applied to several domains of Portuguese corpora, and also to English and Spanish Broadcast News corpora

    Automatic detection of disfluencies in a corpus of university lectures

    Get PDF
    This dissertation focuses on the identification of disfluent sequences and their distinct structural regions. Reported experiments are based on audio segmentation and prosodic features, calculated from a corpus of university lectures in European Portuguese, containing about 32 hours of speech and about 7.7% of disfluencies. The set of features automatically extracted from the forced alignment corpus proved to be discriminant of the regions contained in the production of a disfluency. The best results concern the detection of the interregnum, followed by the detection of the interruption point. Several machine learning methods have been applied, but experiments show that Classification and Regression Trees usually outperform the other methods. The set of most informative features for cross-region identification encompasses word duration ratios, word confidence score, silent ratios, and pitch and energy slopes. Features such as the number of phones and syllables per word proved to be more useful for the identification of the interregnum, whereas energy slopes were most suited for identifying the interruption point. We have also conducted initial experiments on automatic detecting filled pauses, the most frequent disfluency type. For now, only force aligned transcripts were used, since the ASR system is not well adapted to this domain. This study is a step towards automatic detection of filled pauses for European Portuguese using prosodic features. Future work will extend this study for fully automatic transcripts, and will also tackle other domains, also exploring extended sets of linguistic features.Esta tese aborda a identificação de sequências disfluentes e respetivas regiões estruturais. As experiências aqui descritas baseiam-se em segmentação e informação relativa a prosódia, calculadas a partir de um corpus de aulas universitárias em Português Europeu, contendo cerca de 32 horas de fala e de cerca de 7,7% de disfluências. O conjunto de características utilizadas provou ser discriminatório na identificação das regiões contidas na produção de disfluências. Os melhores resultados dizem respeito à deteção do interregnum, seguida da deteção do ponto de interrupção. Foram testados vários métodos de aprendizagem automática, sendo as Árvores de Decisão e Regressão as que geralmente obtiveram os melhores resultados. O conjunto de características mais informativas para a identificação e distinção de regiões disfluentes abrange rácios de duração de palavras, nível de confiança da palavra atual, rácios envolvendo silêncios e declives de pitch e de energia. Características tais como o número de fones e sílabas por palavra provaram ser mais úteis para a identificação do interregnum, enquanto pitch e energia foram os mais adequados para identificar o ponto de interrupção. Foram também realizadas experiências focando a deteção de pausas preenchidas. Por enquanto, para estas experiências foi utilizado apenas material proveniente de alinhamento forçado, já que o sistema de reconhecimento automático não está bem adaptado a este domínio. Este estudo representa um novo passo no sentido da deteção automática de pausas preenchidas para Português Europeu, utilizando recursos prosódicos. Em trabalho futuro pretende-se estender esse estudo para transcrições automáticas e também abordar outros domínios, explorando conjuntos mais extensos de características linguísticas

    In search of the role’s footprints in client-therapist dialogues

    Get PDF
    The goal of this research is to identify speaker's role via machine learning of broad acoustic parameters, in order to understand how an occupation, or a role, affects voice characteristics. The examined corpus consists of recordings taken under the same psychological paradigm (Process Work). Four interns were involved in four genuine client-therapist treatment sessions, where each individual had to train her therapeutic skills on her colleague that, in her turn, participated as a client. This uniform setting provided a unique opportunity to examine how role affects speaker's prosody. By a collection of machine learning algorithms, we tested automatic classification of the role across sessions. Results based on the acoustic properties show high classification rates, suggesting that there are discriminative acoustic features of speaker's role, as either a therapist or a client.info:eu-repo/semantics/publishedVersio

    Entrainment in European Portuguese

    Get PDF
    A presente tese centra-se na análise da adaptação entre falantes em diálogos espontâneos em Português Europeu (PE). Esta adaptação, também designada por acomodação, sintonia ou mesmo sincronismo (do inglês entrainment), tem sido descrita como a capacidade de os seres humanos se ajustarem, tanto a nível comportamental como discursivo, ao seu interlocutor (Brennan and Clark, 1996; Beˇnuš, 2014a). Esta estratégia tem sido estudada sob diversas perspetivas, quer para compreender quais os mecanismos linguísticos, psicológicos e sociais (Levitan et al., 2012; Beˇnuš, 2014a) que a motivam, quer para replicar este comportamento, tipicamente humano, em sistemas de diálogo automáticos (Levitan, 2014; Hoegen et al., 2019). Estudos recentes sobre adaptação entre falantes em diferentes situações comunicativas têm mostrado a importância desta estratégia na resolução de tarefas específicas (e.g., diálogos em formato map-task, jogos colaborativos) e em sessões de terapia (e.g., terapia conjugal; sessões de aconselhamento sobre droga e linhas SOS anti-suicídio). Nesta tese, as semelhanças acústico-prosódicas entre falantes são analisadas ao nível do diálogo (adaptação global) e em tomadas de palavra intercaladas (adaptação local), tendo em conta variáveis sociais, como o papel desempenhado pelo falante no diálogo ou a familiaridade entre falantes. A nível local, verifica-se também se a adaptação entre pares de enunciados contíguos produzidos por falantes distintos varia de acordo com os tipos de frase (como, por exemplo, uma declarativa seguida de uma interrogativa ou quando ambas são declarativas ou interrogativas), bem como com a presença no início do segundo enunciado de estruturas muito frequentes em fala espontânea, tais como marcadores discursivos (e.g., agora; bem; bom; portanto; então), disfluências (pausas preenchidas, sobretudo aa e aam); repetições enfáticas (sim, sim, sim), constituintes afirmativos (sim; exacto; certo) e negativos (não; eu não tenho) e estruturas ambíguas (palavras que tanto podem ser marcadores discursivos como constituintes afirmativos, como pronto e ok). Para efetuar esta análise local, foi necessário um estudo mais aprofundado dos marcadores discursivos nos corpora disponíveis. As marcas de pontuação, que delimitam constituintes similares a frases (sentence-like units, SUs), as disfluências e até os constituintes afirmativos já haviam sido estudados em diversos trabalhos em fala espontânea em PE (Batista, 2011; Batista et al., 2012a; Moniz, 2013; Moniz et al., 2015; Cabarrão, 2013; Cabarrão et al., 2016). Por outro lado, a literatura sobre marcadores discursivos em dados de fala espontânea ainda é pouco exaustiva, na medida em que a maioria dos estudos se centram na análise das funções pragmáticas destas estruturas em textos escritos. O estudo dos marcadores discursivos visa não só contribuir para uma análise mais completa da adaptação local entre falantes (através dos exemplos destas estruturas em posição inicial), mas também para a descrição prosódica destas estruturas em fala espontânea em diferentes corpora, nomeadamente aulas universitárias e diálogos em formato map-task. Considerando o facto de marcadores e disfluências serem descritos na literatura como estruturas paralinguísticas que partilham algumas propriedades (Liu et al., 2006; Goldwater et al., 2010), e ainda o facto de ambos serem considerados na adaptação local, pretendeu-se aferir também se estas estruturas se distinguem prosodicamente. Como tal, foi realizada uma tarefa de classificação automática multiclasse para determinar, com base nas propriedades prosódicas das palavras, quais as que são marcadores discursivos, quais as que são disfluências e quais as que são SUs. Os resultados mostram que a seleção de marcadores discursivos depende do corpus e do falante. No mesmo corpus, existem falantes que tendem a utilizar o mesmo marcador e outros que variam entre diversas estruturas. Apesar de existir variação por corpus, também se observa que os marcadores mais frequentes são semelhantes em ambos os corpora. As experiências dentro do mesmo corpus (in-domain), em que o conjunto de treino e de teste correspondem a dados selecionados aleatoriamente a partir dos mesmos dados, mostram uma exatidão na classificação de 87% nas aulas universitárias e de 84%, nos diálogos. As pistas acústico-prosódicas GeMAPS e, especialmente, as eGeMAPS, parâmetros comummente utilizados em tarefas paralinguísticas, obtiveram um bom desempenho nos dados. Os resultados sugerem que os marcadores em posição inicial são geralmente mais fáceis de identificar do que as disfluências. Para testar a robustez do sistema de classificação entre corpora, realizou-se uma outra experiência com dados de um corpus para treino e do outro corpus para teste e vice-versa. Tal como expectável, os valores obtidos nesta tarefa são mais baixos (em cerca de 11% a 12%) do que utilizando os mesmos dados para treino e teste. Ainda assim, as melhorias obtidas face à base de comparação em ambos os corpora mostram que esta classificação pode ser utilizada em dados fora do domínio. De forma a perceber o impacto de cada pista acústico-prosódica na distinção entre marcadores e disfluências, foi efetuada também uma análise às pistas mais relevantes em ambos os domínios. As pistas relacionadas com a frequência fundamental (f0), nomeadamente declives de f0, são as mais relevantes na distinção entre estas estruturas. No geral, apesar da complexidade desta tarefa, os resultados são muito encorajadores para a classificação automática multiclasse. No que diz respeito à análise de adaptação global entre falantes, os resultados evidenciam adaptação acústico-prosódica, embora expressa em diferentes graus: os falantes não se adaptam sempre aos mesmos interlocutores e seguindo as mesmas estratégias acústico-prosódicas. Os resultados mostram que os falantes são mais semelhantes aos seus interlocutores do que ao seu próprio discurso noutros diálogos (cada falante participa em quatro conversas, duas como dador e duas como seguidor) na maioria dos parâmetros acústico-prosódicos, nomeadamente f0, duração e qualidade de voz, sendo a energia o único parâmetro inalterado. Já na comparação entre pares e não-pares, esta adaptação verifica-se maioritariamente em parâmetros de duração. Este estudo mostra também que os principais parâmetros prosódicos (f0, energia, duração e qualidade de voz) são monitorizados no processo de adaptação entre falantes, evidenciando um resultado para o PE que se diferencia dos obtidos para o Inglês e o Mandarim (Levitan, 2014). Nestas línguas, observa-se adaptação global entre interlocutores principalmente em pistas de energia, quer na comparação com não-pares, quer com o mesmo falante noutro diálogo. Quanto ao papel desempenhado, observa-se que cerca de metade dos falantes é mais consistente no seu discurso enquanto dador, mostrando menos adaptação ao interlocutor, e a outra metade como seguidor. Tal pode dever-se ao facto de se tratar de um diálogo colaborativo, em que os falantes trabalham em conjunto para ser bem-sucedidos na tarefa de chegar ao destino final no mapa. Estes resultados permitem também equacionar o facto de a adaptação entre falantes estar mais relacionada com o interlocutor, a sua postura e personalidade, do que com o papel desempenhado no diálogo. Os resultados obtidos quanto à adaptação local, sem considerar os tipos de frases ou estruturas específicas, revelam que os falantes são mais semelhantes entre enunciados contíguos do que entre não contíguos nos quatro parâmetros prosódicos: f0, energia, duração e qualidade de voz. Estes resultados não estão de acordo com uma análise similar para o inglês (Levitan, 2014): os falantes adaptam-se nos enunciados contíguos nos parâmetros média e máximo de energia e harmonics-to-noise-ratio (HNR), mas não em pistas de f0. Esses resultados permitem colocar a hipótese de que pistas como energia podem ser independentes da língua, pelo menos em corpora semelhantes, mas não os parâmetros de f0. As experiências realizadas até ao momento mostram assim que o comportamento acústico-prosódico da adaptação local em PE abrange não só pistas de energia mas todos os outros parâmetros prosódicos. Considerando a adaptação entre diferentes tipos de SUs, os pares pergunta-resposta são aqueles com maior semelhança na maioria dos parâmetros analisados, f0, energia, duração e qualidade de voz, sendo os pares declarativo-interrogativo aqueles nos quais ocorre menos adaptação. Estes resultados já eram expectáveis, dada a natureza colaborativa do corpus. Quanto aos subtipos de interrogativas nos pares pergunta-resposta, existem maiores evidências de adaptação com perguntas Sim-Não e Tags do que com perguntas parciais. Em PE, as perguntas Sim-Não e Tags compartilham um contorno alto/ascendente por oposição ao contorno baixo/descendente associado a perguntas parciais e a declarativas neutras. Além disso, as perguntas Sim-Não não possuem pistas léxico-sintáticas associadas, apenas prosódicas, o que pode constituir mais uma evidência para a adaptação local encontrada. Importa ainda referir que os pares pergunta-resposta são a força motriz da natureza dialógica do corpus, constituído por tarefas muito colaborativas que têm de ser resolvidas em conjunto por dois interlocutores. Os resultados deste estudo mostram que as estruturas com maior adaptação local são as que promovem colaboração e reforço positivo, estratégias que contribuem para a fluidez e sucesso do diálogo. Em linha com o que foi dito para as SUs, há maiores evidências de adaptação local com constituintes afirmativos no início do segundo enunciado em enunciados contíguos. Estes resultados evidenciam, uma vez mais, o esforço colaborativo entre os interlocutores para resolver a tarefa. Por outro lado, as pausas preenchidas e os marcadores discursivos são as estruturas que apresentam menor grau de adaptação. Uma possível explicação é o facto de que, quando os falantes proferem estas estruturas, estão já a planear o que dizer a seguir. O trabalho desenvolvido ao longo desta tese visa contribuir para a análise linguística e automática de tópicos inexplorados na fala espontânea em PE, nomeadamente estratégias de adaptação acústico-prosódica entre falantes.This thesis focuses on the analysis of entrainment, an adaptation strategy used by speakers to become more similar to their interlocutors. The main goal of this study is to find acousticprosodic similarities between speakers, considering social variables and different structural metadata events - types of sentence-like units in consecutive turns, as declaratives and interrogatives, and the presence of discourse markers, affirmative and negative cue words, and disfluencies, namely filled pauses, in the beginning of turns. To study the use of entrainment with these events, a special analysis of discourse markers was performed. Sentence-like units and disfluencies had already been studied in EP spontaneous speech, lacking only discourse markers. Experiments were performed using several acoustic-prosodic features and machine learning methods to automatically distinguish between markers, disfluencies and sentence-like units. In-domain and cross-domain experiments showed that, using exclusively acoustic-prosodic cues, markers can be fairly discriminated from the other events. The analysis of global and local entrainment in a corpus of map-task dialogues showed evidences of similarities between speakers in the main prosodic parameters, pitch, energy, duration, and voice quality, even though expressed in different degrees: speakers entrain in distinct features with different interlocutors. Regarding sentence-like units types, question-answer turns present stronger similarity, and declarative-interrogative pairs are the ones where less entrainment occurs. In question-answer pairs, there is stronger evidence of entrainment with Yes/No and Tag questions than with Wh- questions, which may be related with the fact that these subtypes are coded in distinctive prosodic ways. For turn-initial structures, entrainment is stronger when the second turn begins with an affirmative cue word; and scarce with disfluencies and discourse markers. The different degrees of entrainment may be related with the informative nature of these structures: in this data, entrainment is stronger with feedback structures

    Deception Detection Using Machine Learning

    Get PDF
    Today’s digital society creates an environment potentially conducive to the exchange of deceptive information. The dissemination of misleading information can have severe consequences on society. This research investigates the possibility of using shared characteristics among reviews, news articles, and emails to detect deception in text-based communication using machine learning techniques. The experiment discussed in this paper examines the use of Bag of Words and Part of Speech tag features to detect deception on the aforementioned types of communication using Neural Networks, Support Vector Machine, Naïve Bayesian, Random Forest, Logistic Regression, and Decision Tree. The contribution of this paper is two-fold. First, it provides initial insight into the identification of text communication cues useful in detecting deception across different types of text-based communication. Second, it provides a foundation for future research involving the application of machine learning algorithms to detect deception on different types of text communication

    Proceedings of the VIIth GSCP International Conference

    Get PDF
    The 7th International Conference of the Gruppo di Studi sulla Comunicazione Parlata, dedicated to the memory of Claire Blanche-Benveniste, chose as its main theme Speech and Corpora. The wide international origin of the 235 authors from 21 countries and 95 institutions led to papers on many different languages. The 89 papers of this volume reflect the themes of the conference: spoken corpora compilation and annotation, with the technological connected fields; the relation between prosody and pragmatics; speech pathologies; and different papers on phonetics, speech and linguistic analysis, pragmatics and sociolinguistics. Many papers are also dedicated to speech and second language studies. The online publication with FUP allows direct access to sound and video linked to papers (when downloaded)
    corecore