880 research outputs found

    Croatian Emotional Speech Analyses on a Basis of Acoustic and Linguistic Features

    Get PDF
    Acoustic and linguistic speech features are used for emotional state estimation of utterances collected within the Croatian emotional speech corpus. Analyses are performed for the classification of 5 discrete emotions, i.e. happiness, sadness, fear, anger and neutral state, as well as for the estimation of two emotional dimensions: valence and arousal. Acoustic and linguistic cues of emotional speech are analyzed separately, and are also combined in two types of fusion: a feature level fusion and a decision level fusion. The Random Forest method is used for all analyses, with the combination of Info Gain feature selection method for classification tasks and Univariate Linear Regression method for regression tasks. The main hypothesis is confirmed, i.e. an increase of classification accuracy is achieved in the cases of fusion analyses (compared with separate acoustic or linguistic feature sets usages), as well as a decrease of root mean squared error when estimating emotional dimensions. Most of other hypothesis are also confirmed, which suggest that acoustic and linguistic cues of Croatian language are showing similar behavior as other languages in the context of emotional impact on speech

    Self-voice perception and its relationship with hallucination predisposition

    Get PDF
    Introduction: Auditory verbal hallucinations (AVH) are a core symptom of psychotic disorders such as schizophrenia but are also reported in 10-15% of the general population. Impairments in self-voice recognition are frequently reported in schizophrenia and associated with the severity of AVH, particularly when the self-voice has a negative quality. However, whether self-voice processing is also affected in nonclinical voice hearers remains to be specified. Methods: Thirty-five nonclinical participants varying in hallucination predisposition based on the Launay-Slade Hallucination Scale, listened to prerecorded words and vocalisations differing in identity (self/other) and emotional quality. In Experiment 1, participants indicated whether words were spoken in their own voice, another voice, or whether they were unsure (recognition task). They were also asked whether pairs of words/vocalisations were uttered by the same or by a different speaker (discrimination task). In Experiment 2, participants judged the emotional quality of the words/vocalisations. Results: In Experiment 1, hallucination predisposition affected voice discrimination and recognition, irrespective of stimulus valence. Hallucination predisposition did not affect the evaluation of the emotional valence of words/vocalisations (Experiment 2). Conclusions: These findings suggest that nonclinical participants with high HP experience altered voice identity processing, whereas HP does not affect the perception of vocal emotion. Specific alterations in self-voice perception in clinical and nonclinical voice hearers may establish a core feature of the psychosis continuum

    An investigation into vocal expressions of emotions: the roles of valence, culture, and acoustic factors.

    Get PDF
    This PhD is an investigation of vocal expressions of emotions, mainly focusing on non-verbal sounds such as laughter, cries and sighs. The research examines the roles of categorical and dimensional factors, the contributions of a number of acoustic cues, and the influence of culture. A series of studies established that naive listeners can reliably identify non-verbal vocalisations of positive and negative emotions in forced-choice and rating tasks. Some evidence for underlying dimensions of arousal and valence is found, although each emotion had a discrete expression. The role of acoustic characteristics of the sounds is investigated experimentally and analytically. This work shows that the cues used to identify different emotions vary, although pitch and pitch variation play a central role. The cues used to identify emotions in non-verbal vocalisations differ from the cues used when comprehending speech. An additional set of studies using stimuli consisting of emotional speech demonstrates that these sounds can also be reliably identified, and rely on similar acoustic cues. A series of studies with a pre-literate Namibian tribe shows that non-verbal vocalisations can be recognized across cultures. An fMRI study carried out to investigate the neural processing of non-verbal vocalisations of emotions is presented. The results show activation in pre-motor regions arising from passive listening to non-verbal emotional vocalisations, suggesting neural auditory-motor interactions in the perception of these sounds. In sum, this thesis demonstrates that non-verbal vocalisations of emotions are reliably identifiable tokens of information that belong to discrete categories. These vocalisations are recognisable across vastly different cultures and thus seem to, like facial expressions of emotions, comprise human universals. Listeners rely mainly on pitch and pitch variation to identify emotions in non verbal vocalisations, which differs with the cues used to comprehend speech. When listening to others' emotional vocalisations, a neural system of preparatory motor activation is engaged

    Speech-based recognition of self-reported and observed emotion in a dimensional space

    Get PDF
    The differences between self-reported and observed emotion have only marginally been investigated in the context of speech-based automatic emotion recognition. We address this issue by comparing self-reported emotion ratings to observed emotion ratings and look at how differences between these two types of ratings affect the development and performance of automatic emotion recognizers developed with these ratings. A dimensional approach to emotion modeling is adopted: the ratings are based on continuous arousal and valence scales. We describe the TNO-Gaming Corpus that contains spontaneous vocal and facial expressions elicited via a multiplayer videogame and that includes emotion annotations obtained via self-report and observation by outside observers. Comparisons show that there are discrepancies between self-reported and observed emotion ratings which are also reflected in the performance of the emotion recognizers developed. Using Support Vector Regression in combination with acoustic and textual features, recognizers of arousal and valence are developed that can predict points in a 2-dimensional arousal-valence space. The results of these recognizers show that the self-reported emotion is much harder to recognize than the observed emotion, and that averaging ratings from multiple observers improves performance

    Effects of emotional valence and arousal on the voice perception network

    Get PDF
    Several theories conceptualise emotions along two main dimensions: valence (a continuum from negative to positive) and arousal (a continuum that varies from low to high). These dimensions are typically treated as independent in many neuroimaging experiments, yet recent behavioural findings suggest that they are actually interdependent. This result has impact on neuroimaging design, analysis and theoretical development. We were interested in determining the extent of this interdependence both behaviourally and neuroanatomically, as well as teasing apart any activation that is specific to each dimension. While we found extensive overlap in activation for each dimension in traditional emotion areas (bilateral insulae, orbitofrontal cortex, amygdalae), we also found activation specific to each dimension with characteristic relationships between modulations of these dimensions and BOLD signal change. Increases in arousal ratings were related to increased activations predominantly in voice-sensitive cortices after variance explained by valence had been removed. In contrast, emotions of extreme valence were related to increased activations in bilateral voice-sensitive cortices, hippocampi, anterior and midcingulum and medial orbito- and superior frontal regions after variance explained by arousal had been accounted for. Our results therefore do not support a complete segregation of brain structures underpinning the processing of affective dimensions

    A Cognitive Science Reasoning in Recognition of Emotions in Audio-Visual Speech

    Get PDF
    In this report we summarize the state-of-the-art of speech emotion recognition from the signal processing point of view. On the bases of multi-corporal experiments with machine-learning classifiers, the observation is made that existing approaches for supervised machine learning lead to database dependent classifiers which can not be applied for multi-language speech emotion recognition without additional training because they discriminate the emotion classes following the used training language. As there are experimental results showing that Humans can perform language independent categorisation, we made a parallel between machine recognition and the cognitive process and tried to discover the sources of these divergent results. The analysis suggests that the main difference is that the speech perception allows extraction of language independent features although language dependent features are incorporated in all levels of the speech signal and play as a strong discriminative function in human perception. Based on several results in related domains, we have suggested that in addition, the cognitive process of emotion-recognition is based on categorisation, assisted by some hierarchical structure of the emotional categories, existing in the cognitive space of all humans. We propose a strategy for developing language independent machine emotion recognition, related to the identification of language independent speech features and the use of additional information from visual (expression) features

    Are affective speakers effective speakers? – Exploring the link between the vocal expression of positive emotions and communicative effectiveness

    Get PDF
    This thesis explores the effect of vocal affect expression on communicative effectiveness. Two studies examined whether positive speaker affect facilitates the encoding and decoding of the message, combining methods from Phonetics and Psychology.This research has been funded through a Faculty Studentship by the University of Stirling and a Fellowship by the German Academic Exchange Service (DAAD)

    Does hallucinatory predisposition influence voice processing? : probing the interactions between speech, identity, and emotion

    Get PDF
    Tese de mestrado, Psicologia (Secção de Psicologia Clínica e da Saúde, Núcleo de Psicoterapia Cognitiva-Comportamental e Integrativa), Universidade de Lisboa, Faculdade de Psicologia, 2017Auditory verbal hallucinations (AVH) are a core symptom of psychotic disorders such as schizophrenia, although similar experiences have been widely reported in nonclinical samples. Due to these observations, a dimensional approach to the understanding of these symptoms has been in discussion: the continuum model of psychosis. One of its assumptions is that the experiences observed in both clinical and nonclinical groups rely on similar cognitive and neural mechanisms. For example, psychotic patients reveal impairments in the recognition of their own speech, often attributing it to an external source, particularly when it carries negative content. This could also be the case in nonclinical samples experiencing hallucinations, although more studies probing voice perception in these individuals are needed, to assess the existence of similar impairments. We recruited nonclinical participants with different scores on the Launay-Slade Hallucination Scale-Revised. They pre-recorded words and vocalizations that were subsequently used in a set of tasks. We assessed voice identity processing at both the discrimination and recognition levels, while taking into account the interactions between the three main voice dimensions: speech, identity, and emotion (Experiment 1). We also wanted to explore if these potential differences could be related to differences in the emotional evaluation of the voice stimuli (Experiment 2). Our results suggest that hallucinatory predisposition is associated with differences in the voice recognition processes: there was an association between lower performance in recognizing one’s own speech and a higher predisposition for auditory hallucinations, particularly when listening to vocalizations not carrying semantic content. We did not find an association between these impairments and negative emotional content of the auditory stimuli, as observed in previous studies with patients. However, our study suggests that the processes involved in the recognition of self-produced vocal stimuli could underlie the experience of auditory hallucinations in nonclinical individuals.Nos últimos anos, tem surgido um interesse cada vez maior no estudo de manifestações sintomáticas observadas em camadas não-clínicas da população (e.g., Broyd et al., 2016; Powers, Kelley, & Corlett, 2016). Este tipo de sintomas ou experiências, cuja descrição surge habitualmente ligada a perturbações diagnosticáveis, nem sempre estão associados a um mal-estar significativo nos indivíduos ou a uma necessidade de ajuda psicoterapêutica ou psiquiátrica (e.g., Daalman, Diederen, Hoekema, Lutterveld, & Sommer, 2016). Assim, ainda não é claro se estas manifestações – ou quais delas – estão associadas a fases mais precoces de uma perturbação, ou constituem simplesmente traços ou estados dos indivíduos sem um risco clínico (e.g., Johns et al., 2014; Yung et al., 2009). A progressão sintomática varia fortemente de indivíduo para indivíduo, e isto tem levado ao surgimento de novas abordagens dimensionais que possam alargar o estudo da psicopatologia além das categorias já existentes, contribuindo assim para a exploração da emergência transdiagnóstica dos sintomas (e.g., Nelson, McGorry, Wichers, Wigman, & Hartmann, 2017; iniciativa RDoC em Yee, Javitt, & Miller, 2015). As perturbações psicóticas têm sido um foco deste tipo de abordagens mais dimensionais, uma vez que experiências habitualmente associadas a perturbações como a esquizofrenia – por exemplo, experiências anómalas na perceção de voz, similares a alucinações auditivas – têm vindo a ser observadas na população em geral, muitas vezes sem mal-estar associado (e.g., Strauss, 1969; van Os, 2003; Yung et al., 2009). Uma destas abordagens, que tem sido sujeita a uma vasta discussão na literatura científica, é o modelo do contínuo das experiências psicóticas (e.g., Badcock & Hugdahl, 2012; van Os, Linscott, Myin-Germeys, Delespaul, & Krabbendam, 2009). Este modelo sugere que a experiência deste tipo de sintomas se distribui ao longo de um contínuo entre o funcionamento saudável e o funcionamento psicopatológico, não estando necessariamente associada à presença de perturbação (van Os et al., 2009). Além disso, o modelo sugere também que os sintomas das populações clínica e não-clínica poderão ter subjacentes os mesmos mecanismos cognitivos e neurológicos (Badcock & Hugdahl, 2012). Contudo, são necessários mais estudos que ajudem a esclarecer se estamos a discutir o mesmo tipo de experiências, com as mesmas origens, nestas diferentes camadas da população. Um dos sintomas comuns em perturbações psicóticas, como a esquizofrenia, que tem sido reportado em indivíduos sem perturbação são as alucinações auditivas verbais (e.g., Daalman et al., 2011; Sommer et al., 2010). Vulgarmente descritas como “ouvir vozes”, estas experiências ocorrem sem qualquer estimulação externa (American Psychiatric Association, 2013). Embora existam vários modelos explicativos para a sua origem, um dos mais relevantes é o que associa estas experiências a anomalias no processamento da voz, particularmente da voz do próprio indivíduo (ver Conde, Gonçalves, & Pinheiro, 2016a para uma revisão). Estudos com pacientes com esquizofrenia, e que sofrem de alucinações auditivas, têm revelado que estes têm maior dificuldade em reconhecer a sua própria voz quando ouvem excertos auditivos da mesma, muitas vezes atribuindo-a a uma fonte externa (e.g., Allen et al., 2004; Johns et al., 2001). Este viés externalizante parece ainda acentuar-se com a severidade das alucinações destes pacientes, bem como quando o conteúdo dos excertos ouvidos é negativo ou injurioso (Pinheiro, Rezaii, Rauber, & Niznikiewicz, 2016). Este é um exemplo do tipo de anomalias de perceção de voz que requer estudos com amostras nãoclínicas que reportem experiências alucinatórias semelhantes. É importante averiguar a existência do mesmo tipo de alterações no processamento da voz destes sujeitos, de forma a perceber se os mesmos mecanismos cognitivos e neurológicos lhes estão subjacentes. Ao estudar perceção de voz, devem ser tidos em conta não só diferentes níveis de processamento, como também os diferentes tipos de informação contida nos estímulos vocais (e.g., Belin, Fecteau, & Bédard, 2004; van Lancker & Kreiman, 1987). Vários estudos com pacientes que sofreram lesões cerebrais sugerem que a discriminação e o reconhecimento da identidade da voz podem ser vistos como dois níveis de processamento distintos, podendo ser estudados em separado (e.g., van Lancker & Kreiman, 1987; van Lancker, Kreiman & Cummings, 1989). A discriminação de voz é maioritariamente feita com recurso às propriedades acústicas dos estímulos vocais (processos mais bottom-up; e.g., Chhabra, Badcock, Maybery, & Leung, 2014), enquanto que o reconhecimento envolve a integração de informação específica sobre a identidade de quem produziu esses estímulos vocais, recrutando mais recursos atencionais (processos mais top-down; e.g., Conde, Gonçalves, & Pinheiro, 2015; Sohoglu, Peelle, Carlyon, & Davis, 2012). No processamento da voz estão ainda envolvidos diferentes tipos de informação linguística e paralinguística, que dizem respeito ao discurso/conteúdo semântico, à identidade, e à emocionalidade (e.g., Belin et al., 2004; Schirmer & Adolphs, 2017). O nosso estudo teve em conta todos estes aspetos, estudando a perceção de voz de uma amostra não-clínica e composta por participantes com níveis variados de predisposição para experiências alucinatórias. Neste estudo participaram 32 indivíduos recrutados através das suas pontuações (baixas, intermédias e altas) na Escala de Alucinações de Launay-Slade Revista (adaptação portuguesa de Castiajo & Pinheiro, 2017; Larøi & van der Linden, 2005; originalmente desenvolvida por Launay & Slade, 1981). Este é um instrumento que tem sido usado previamente em estudos sobre a prevalência de experiências alucinatórias nas populações clínica e não-clínica (e.g., Morrison et al., 2000; Serper, Dill, Chang, Kot, & Elliot, 2005). Numa primeira sessão, os participantes gravaram excertos da sua própria voz, que envolviam tanto palavras como vocalizações. Mais tarde, numa segunda sessão, os participantes realizaram duas experiências comportamentais com recurso a um computador. Na Experiência 1, foi pedido aos participantes que discriminassem ou reconhecessem a identidade de excertos de voz, que incluíam a sua própria voz e a voz de uma outra pessoa desconhecida. Nesta experiência, os julgamentos eram feitos explicitamente sobre a identidade dos estímulos, com as dimensões do discurso/conteúdo semântico e da emocionalidade dos estímulos a serem analisadas de forma implícita. Na Experiência 2, foi pedido aos participantes que avaliassem as propriedades emocionais dos estímulos apresentados. Nesta experiência, os julgamentos eram feitos explicitamente sobre as propriedades emocionais dos estímulos, com as dimensões do discurso/conteúdo semântico e da identidade dos estímulos a serem analisadas de forma implícita. No que diz respeito à primeira experiência (foco na identidade dos estímulos), os nossos resultados apontam para diferenças nos processos de discriminação e reconhecimento da identidade da voz, relacionadas com os diferentes tipos de informação contida nos estímulos vocais. Na discriminação, os participantes apresentaram melhor desempenho quando ouviam palavras, do que quando ouviam vocalizações. Também apresentaram melhor desempenho quando os estímulos vocais envolviam a sua própria voz e quando envolviam conteúdo positivo. Estas diferenças não foram influenciadas pela variabilidade individual na predisposição para experiências alucinatórias. Contudo, foram também encontradas diferenças nos processos de reconhecimento da identidade da voz, essas sim influenciadas pela variabilidade na predisposição para experiências alucinatórias da nossa amostra. Uma análise de correlações subsequente revelou que, quanto maior a predisposição para alucinações – particularmente, alucinações auditivas –, pior o desempenho no reconhecimento de vocalizações positivas e produzidas pelo próprio indivíduo. Finalmente, no que diz respeito à segunda experiência (foco nas propriedades emocionais dos estímulos), os nossos resultados sugerem que existe uma tendência para avaliar de forma mais extrema (mais positiva ou mais negativa) vocalizações que envolvem a voz do próprio. Estas diferenças nos julgamentos dos participantes não foram, contudo, influenciadas pela variabilidade individual na predisposição para experiências alucinatórias. Em suma, os nossos resultados têm implicações importantes para a discussão do modelo do contínuo das experiências psicóticas (e.g., Badcock & Hugdahl, 2012; van Os et al., 2009), particularmente no que diz respeito ao reconhecimento da identidade da voz e ao conteúdo semântico ou não dos estímulos. Os resultados apontam para uma associação entre o pior desempenho no reconhecimento de estímulos vocais produzidos pelo próprio – particularmente vocalizações, sem conteúdo semântico – e uma maior predisposição para alucinações. Isto vai ao encontro da observação prévia de défices nos processos de reconhecimento em pacientes psicóticos (e.g., Allen et al., 2004; Johns et al., 2001) e sugere que o reconhecimento da identidade da voz poderá ser um mecanismo subjacente tanto em grupos clínicos, como não-clínicos, que experienciam alucinações auditivas. Contudo, não foi encontrada uma associação entre a predisposição para experiências alucinatórias e um pior reconhecimento de estímulos com emocionalidade negativa, algo que foi previamente observado em estudos com pacientes (Pinheiro et al., 2016). Ainda assim, isto está também em linha com evidência prévia que sugere que a experiência de alucinações auditivas poderá estar mais relacionada com o processamento das dimensões da identidade e do discurso/conteúdo semântico, do que com o processamento da emocionalidade (ver Conde et al., 2016a para uma revisão)
    corecore