Search CORE

861 research outputs found

Cluster Analysis of Differential Spectral Envelopes on Emotional Speech

Author: Cosi Piero
Salvi Giampiero
Tesser Fabio
Zovato Enrico
Publication venue: ISCA-INST SPEECH COMMUNICATION ASSOCIATION
Publication date
Field of study

This paper reports on the analysis of the spectral variation of emotional speech. Spectral envelopes of time aligned speech frames are compared between emotionally neutral and active utterances. Statistics are computed over the resulting differential spectral envelopes for each phoneme. Finally, these statistics are classified using agglomerative hierarchical clustering and a measure of dissimilarity between statistical distributions and the resulting clusters are analysed. The results show that there are systematic changes in spectral envelopes when going from neutral to sad or happy speech, and those changes depend on the valence of the emotional content (negative, positive) as well as on the phonetic properties of the sounds such as voicing and place of articulation

PUblication MAnagement

Detección automática de la enfermedad de Parkinson usando componentes moduladoras de señales de voz

Author: Argüello- Vélez Patricia
Moofarrry Jhon Freddy
Sarria-Paja Milton
Publication venue: 'Corporation Universidad de la Costa, CUC'
Publication date: 01/01/2020
Field of study

Parkinson’s Disease (PD) is the second most common neurodegenerative disorder after Alzheimer’s disease. This disorder mainly affects older adults at a rate of about 2%, and about 89% of people diagnosed with PD also develop speech disorders. This has led scientific community to research information embedded in speech signal from Parkinson’s patients, which has allowed not only a diagnosis of the pathology but also a follow-up of its evolution. In recent years, a large number of studies have focused on the automatic detection of pathologies related to the voice, in order to make objective evaluations of the voice in a non-invasive manner. In cases where the pathology primarily affects the vibratory patterns of vocal folds such as Parkinson’s, the analyses typically performed are sustained over vowel pronunciations. In this article, it is proposed to use information from slow and rapid variations in speech signals, also known as modulating components, combined with an effective dimensionality reduction approach that will be used as input to the classification system. The proposed approach achieves classification rates higher than 88 %, surpassing the classical approach based on Mel Cepstrals Coefficients (MFCC). The results show that the information extracted from slow varying components is highly discriminative for the task at hand, and could support assisted diagnosis systems for PD.La Enfermedad de Parkinson (EP) es el segundo trastorno neurodegenerativo más común después de la enfermedad de Alzheimer. Este trastorno afecta principalmente a los adultos mayores con una tasa de aproximadamente el 2%, y aproximadamente el 89% de las personas diagnosticadas con EP también desarrollan trastornos del habla. Esto ha llevado a la comunidad científica a investigar información embebida en las señales de voz de pacientes diagnosticados con la EP, lo que ha permitido no solo un diagnóstico de la patología sino también un seguimiento de su evolución. En los últimos años, una gran cantidad de estudios se han centrado en la detección automática de patologías relacionadas con la voz, a fin de realizar evaluaciones objetivas de manera no invasiva. En los casos en que la patología afecta principalmente los patrones vibratorios de las cuerdas vocales como el Parkinson, los análisis que se realizan típicamente sobre grabaciones de vocales sostenidas. En este artículo, se propone utilizar información de componentes con variación lenta de las señales de voz, también conocidas como componentes de modulación, combinadas con un enfoque efectivo de reducción de dimensiónalidad que se utilizará como entrada al sistema de clasificación. El enfoque propuesto logra tasas de clasificación superiores al 88 %, superando el enfoque clásico basado en los Coeficientes Cepstrales de Mel (MFCC). Los resultados muestran que la información extraída de componentes que varían lentamente es altamente discriminatoria para el problema abordado y podría apoyar los sistemas de diagnóstico asistido para EP

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Repositorio Digital CUC

Discriminative features for GMM and i-vector based speaker diarization

Author: Zewoudie Abraham Woubie
Publication venue: Universitat Politècnica de Catalunya
Publication date: 01/01/2017
Field of study

Speaker diarization has received several research attentions over the last decade. Among the different domains of speaker diarization, diarization in meeting domain is the most challenging one. It usually contains spontaneous speech and is, for example, susceptible to reverberation. The appropriate selection of speech features is one of the factors that affect the performance of speaker diarization systems. Mel Frequency Cepstral Coefficients (MFCC) are the most widely used short-term speech features in speaker diarization. Other factors that affect the performance of speaker diarization systems are the techniques employed to perform both speaker segmentation and speaker clustering. In this thesis, we have proposed the use of jitter and shimmer long-term voice-quality features both for Gaussian Mixture Modeling (GMM) and i-vector based speaker diarization systems. The voice-quality features are used together with the state-of-the-art short-term cepstral and long-term speech ones. The long-term features consist of prosody and Glottal-to-Noise excitation ratio (GNE) descriptors. Firstly, the voice-quality, prosodic and GNE features are stacked in the same feature vector. Then, they are fused with cepstral coefficients at the score likelihood level both for the proposed Gaussian Mixture Modeling (GMM) and i-vector based speaker diarization systems. For the proposed GMM based speaker diarization system, independent HMM models are estimated from the short-term and long-term speech feature sets. The fusion of the short-term descriptors with the long-term ones in speaker segmentation is carried out by linearly weighting the log-likelihood scores of Viterbi decoding. In the case of speaker clustering, the fusion of the short-term cepstral features with the long-term ones is carried out by linearly fusing the Bayesian Information Criterion (BIC) scores corresponding to these feature sets. For the proposed i-vector based speaker diarization system, the speaker segmentation is carried out exactly the same as in the previously mentioned GMM based speaker diarization system. However, the speaker clustering technique is based on the recently introduced factor analysis paradigm. Two set of i-vectors are extracted from the speaker segmentation hypothesis. Whilst the first i-vector is extracted from short-term cepstral features, the second one is extracted from the voice quality, prosody and GNE descriptors. Then, the cosine-distance and Probabilistic Linear Discriminant Analysis (PLDA) scores of i-vectors are linearly weighted to obtain a fused similarity score. Finally, the fused score is used as speaker clustering distance. We have also proposed the use of delta dynamic features for speaker clustering. The motivation for using deltas in clustering is that delta dynamic features capture the transitional characteristics of the speech signal which contain speaker specific information. This information is not captured by the static cepstral coefficients. The delta features are used together with the short-term static cepstral coefficients and long-term speech features (i.e., voice-quality, prosody and GNE) both for GMM and i-vector based speaker diarization systems. The experiments have been carried out on Augmented Multi-party Interaction (AMI) meeting corpus. The experimental results show that the use of voice-quality, prosody, GNE and delta dynamic features improve the performance of both GMM and i-vector based speaker diarization systems.La diarización del altavoz ha recibido varias atenciones de investigación durante la última década. Entre los diferentes dominios de la diarización del hablante, la diarización en el dominio del encuentro es la más difícil. Normalmente contiene habla espontánea y, por ejemplo, es susceptible de reverberación. La selección apropiada de las características del habla es uno de los factores que afectan el rendimiento de los sistemas de diarización de los altavoces. Los Coeficientes Cepstral de Frecuencia Mel (MFCC) son las características de habla de corto plazo más utilizadas en la diarización de los altavoces. Otros factores que afectan el rendimiento de los sistemas de diarización del altavoz son las técnicas empleadas para realizar tanto la segmentación del altavoz como el agrupamiento de altavoces. En esta tesis, hemos propuesto el uso de jitter y shimmer características de calidad de voz a largo plazo tanto para GMM y i-vector basada en sistemas de diarización de altavoces. Las características de calidad de voz se utilizan junto con el estado de la técnica a corto plazo cepstral y de larga duración de habla. Las características a largo plazo consisten en la prosodia y los descriptores de relación de excitación Glottal-a-Ruido (GNE). En primer lugar, las características de calidad de voz, prosódica y GNE se apilan en el mismo vector de características. A continuación, se fusionan con coeficientes cepstrales en el nivel de verosimilitud de puntajes tanto para los sistemas de diarización de altavoces basados ¿¿en el modelo Gaussian Mixture Modeling (GMM) como en los sistemas basados ¿¿en i-vector. . Para el sistema de diarización de altavoces basado en GMM propuesto, se calculan modelos HMM independientes a partir de cada conjunto de características. En la segmentación de los altavoces, la fusión de los descriptores a corto plazo con los de largo plazo se lleva a cabo mediante la ponderación lineal de las puntuaciones log-probabilidad de decodificación Viterbi. En la agrupación de altavoces, la fusión de las características cepstrales a corto plazo con las de largo plazo se lleva a cabo mediante la fusión lineal de las puntuaciones Bayesian Information Criterion (BIC) correspondientes a estos conjuntos de características. Para el sistema de diarización de altavoces basado en un vector i, la fusión de características se realiza exactamente igual a la del sistema basado en GMM antes mencionado. Sin embargo, la técnica de agrupación de altavoces se basa en el paradigma de análisis de factores recientemente introducido. Dos conjuntos de i-vectores se extraen de la hipótesis de segmentación de altavoz. Mientras que el primer vector i se extrae de características espectrales a corto plazo, el segundo se extrae de los descriptores de calidad de voz apilados, prosódicos y GNE. A continuación, las puntuaciones de coseno-distancia y Probabilistic Linear Discriminant Analysis (PLDA) entre i-vectores se ponderan linealmente para obtener una puntuación de similitud fundida. Finalmente, la puntuación fusionada se utiliza como distancia de agrupación de altavoces. También hemos propuesto el uso de características dinámicas delta para la agrupación de locutores. La motivación para el uso de deltas en la agrupación es que las características dinámicas delta capturan las características de transición de la señal de voz que contienen información específica del locutor. Esta información no es capturada por los coeficientes cepstrales estáticos. Las características delta se usan junto con los coeficientes cepstrales estáticos a corto plazo y las características de voz a largo plazo (es decir, calidad de voz, prosodia y GNE) tanto para sistemas de diarización de altavoces basados en GMM como en sistemas i-vector. Los resultados experimentales sobre AMI muestran que el uso de calidad vocal, prosódica, GNE y dinámicas delta mejoran el rendimiento de los sistemas de diarización de altavoces basados en GMM e i-vector.Postprint (published version

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

UPCommons. Portal del coneixement obert de la UPC

Tesis Doctorals en Xarxa

Divergent Human Cortical Regions for Processing Distinct Acoustic-Semantic Categories of Natural Sounds: Animal Action Sounds vs. Vocalizations

Author: Frum Chris A
Lewis James W
Skipper-Kallal Laura M
Still Hayley N
Ward B Douglas
Webster Paula J
Publication venue: The Research Repository @ WVU
Publication date: 01/01/2017
Field of study

A major gap in our understanding of natural sound processing is knowledge of where or how in a cortical hierarchy differential processing leads to categorical perception at a semantic level. Here, using functional magnetic resonance imaging (fMRI) we sought to determine if and where cortical pathways in humans might diverge for processing action sounds vs. vocalizations as distinct acoustic-semantic categories of real-world sound when matched for duration and intensity. This was tested by using relatively less semantically complex natural sounds produced by non-conspecific animals rather than humans. Our results revealed a striking double-dissociation of activated networks bilaterally. This included a previously well described pathway preferential for processing vocalization signals directed laterally from functionally defined primary auditory cortices to the anterior superior temporal gyri, and a less well-described pathway preferential for processing animal action sounds directed medially to the posterior insulae. We additionally found that some of these regions and associated cortical networks showed parametric sensitivity to high-order quantifiable acoustic signal attributes and/or to perceptual features of the natural stimuli, such as the degree of perceived recognition or intentional understanding. Overall, these results supported a neurobiological theoretical framework for how the mammalian brain may be fundamentally organized to process acoustically and acoustic-semantically distinct categories of ethologically valid, real-world sounds

Frontiers - Publisher Connector

PubMed Central

The Research Repository @ WVU (West Virginia University)

Voice- Identity Processing in Patients with Brain Lesions

Author: Kappes Claudia Dominica
Publication venue
Publication date: 12/12/2017
Field of study

Hintergrund: Die menschliche Stimme wird in der Fachliteratur als “auditorisches Gesicht” bezeichnet (Belin et al., 2004), weil sie neben der Sprache auch Informationen zu Identität und Emotionen des Sprechers vermittelt, die wir in der alltäglichen Kommunikation mühelos wahrnehmen und verarbeiten. Zerebrale Pathologien, beispielsweise ischämische Hirninfarkte oder Hämorrhagien, können in der Folge verschiedene Kommunikationsdefizite verursachen. Ein bedeutsames Kommunikationsdefizit auf sprachlicher Ebene ist die Aphasie. Defizite der Stimmerkennung als eine Entität der nicht-sprachlichen Ebene werden durch den Begriff Phonagnosie definiert. Phonagnosie beschreibt ein Defizit der Stimmidentifizierung einschließlich der Analyse akustischer vokaler Signale, dem Wiedererkennen bekannter Stimmen und der semantischen Assoziation einer erkannten Stimme (Roswandowitz C, Maguinness C, von Kriegstein K., in rev.). Klinische Studien wiesen die Existenz von Stimmerkennungsdefiziten als eine mögliche Folge zerebraler Läsionen nach (Van Lancker and Canter, 1982; Van Lancker et al., 1989; Neuner and Schweinberger, 2000; Lang et al., 2009; Hailstone et al., 2011). Hierbei wurden insbesondere Läsionen der rechten Hemisphäre als zugrundeliegende neuronale Repräsentationen hervorgehoben, allerdings gelang bisher keine exakte Lokalisierung der betroffenen Hirnregionen bei isolierten Stimmerkennungsdefiziten. In funktionellen MRT-Studien an gesunden Probanden zeigten sich stimmspezifische Areale entlang des rechten superioren temporalen Gyrus und Sulcus (STG/S) (Belin et al., 2000; von Kriegstein et al., 2003; Kriegstein and Giraud, 2004). Zielsetzung: Ziel der vorliegenden Patientenstudie war es, mögliche isolierte Stimmerkennungsdefizite als Folge einer zerebralen Läsion nachzuweisen und zu charakterisieren. In einem zweiten Schritt widmete sich die Studie der Frage nach den neuronalen Korrelaten von Stimmerkennungsdefiziten. Wir stellten die Hypothesen auf, dass Stimmerkennungsdefizite (i) häufiger bei Patienten mit rechtshemisphärischen Läsionen und (ii) darüber hinaus als isoliertes Stimmerkennungsdefizit gegenüber kombinierten Defiziten von Stimm- und Gesichtererkennung auftreten können. Die Untersuchung von neuronalen Korrelaten dieser Defizite wurde in einer weiterführenden Analyse mittels Voxel-based lesion symptom mapping (VLSM) vorgenommen (Roswandowitz, C., Kappes, C., Obrig, H., von Kriegstein K., accepted, Brain). Material und Methoden: 40 Patienten der Tagesklinik für kognitive Neurologie der Universität Leipzig nahmen an der Studie teil. Alle Patienten wiesen unilaterale Hirnläsionen (n = 14 links, 24 rechts) auf, die entweder Folge eines cerebrovaskulären Ereignisses oder einer Tumorextraktion waren. Wir führten eine umfangreiche experimentelle Testreihe durch, die insbesondere der Stimmerkennung (Stimmlerntests und Tests zur Erkennung bekannter Stimmen) galt. Außerdem wurde die Kontrollmodalität der Gesichtererkennung und die Verarbeitung akustischer vokaler Signale (Pitch und Timbre) überprüft. Die individuelle Patientenwahrnehmung zur Stimm- und Gesichtererkennung erhoben wir in einem Fragebogen. Wir analysierten die Daten in IBM SPSS 22, für die Gruppenvergleiche wendeten wir sowohl parametrische als auch nicht-parametrische Tests, Varianzanalysen und bivariate Korrelationen an. In einem weiterführenden Teil der Studie wurden die behavioralen Daten und strukturelle MRTs anhand von Voxel-based lesion symptom mapping (VLSM) analysiert. Ergebnisse: In der Datenanalyse fanden sich im Gruppenvergleich der Patientien mit rechts- bzw. linkshemisphärischen Läsionen keine signifikanten Unterschiede in den Tests zur Stimmerkennung. Allerdings wiesen 9 Patienten, deren Läsionen ausschließlich rechtshemisphärisch lokalisiert waren, Stimmererkennungsdefizite auf. Die Lokalisation der Läsionen innerhalb der rechten Hemisphäre war heterogen. Während sechs Patienten dieser Gruppe ein kombiniertes Defizit der Gesichter- und Stimmerkennung zeigten, fand sich bei drei Patienten ein isoliertes Defizit der Stimmerkennung. Wir charakterisieren in der vorliegenden Arbeit das spezifische Verhaltensmuster und die Lokalisation der Läsionen dieser drei Patienten, die alle eine Beteiligung des rechten Temporallappens aufwiesen. Im Hinblick auf grundlegende Mechanismen der Stimmverarbeitung konnte insbesondere Timbre als relevantes akustisches Stimmsignal zur Erkennung neu erlernter Stimmen identifiziert werden. In der weiterführenden Analyse mittels VLSM wurden Assoziationen von (i) selektiven Defiziten der Stimmerkennung mit Läsionen im rechten Temporallappen sowie (ii) der Stimm-Gesichter-Integration im rechten inferioren Parietallappen nachgewiesen. Schlussfolgerungen: Die vorliegende Studie hebt auf der Grundlage des untersuchten Patientenkollektivs die bedeutsame Rolle der rechten Hemisphäre bei der Stimmerkennung hervor. Wir identifizierten drei Patienten mit isolierten Stimmerkennungsdefiziten, deren Läsionen sich im rechten Temporallappen befanden. Dieses Ergebnis stützt bisherige Evidenz zur Stimmverarbeitung an gesunden Probanden (Belin et al., 2000; Kriegstein and Giraud, 2004). Die weiterführende VLSM-Analyse, auf der Grundlage des vorliegenden Patientenkollektivs, charakterisiert spezifische Areale des rechten Temporallappens und inferioren Parietallappens als neuronale Korrelate defizitärer Stimmerkennung. In Erweiterung bisheriger klinischer Evidenz liefert die vorliegende Studie neue Erkenntnisse zu neuronalen Korrelaten von isolierten Stimmerkennungsdefiziten und Defiziten der Stimm- Gesichter -Integration (Roswandowitz, C., Kappes, C., Obrig, H. von Kriegstein K., in prep.). Im klinischen Kontext erlaubt die Studie einen weiteren Schritt zum besseren Verständnis von nonverbalen Kommunikationsdefiziten, insbesondere Stimmerkennungsschwierigkeiten, nach zerebralen Läsionen. Literatur: Belin P, Fecteau S, Bedard C (2004) Thinking the voice: neural correlates of voice perception. Trends Cogn Sci 8:129–135. Belin P, Zatorre RJ, Lafaille P, Ahad P, Pike B (2000) Voice-selective areas in human auditory cortex. Nature 403:309–312. Hailstone JC, Ridgway GR, Bartlett JW, Goll JC, Buckley AH, Crutch SJ, Warren JD (2011) Voice processing in dementia: a neuropsychological and neuroanatomical analysis. Brain 134:2535–2547. Kriegstein K V, Giraud AL (2004) Distinct functional substrates along the right superior temporal sulcus for the processing of voices. Neuroimage 22:948–955. Lang CJ, Kneidl O, Hielscher-Fastabend M, Heckmann JG (2009) Voice recognition in aphasic and non-aphasic stroke patients. J Neurol 256:1303–1306. Neuner F, Schweinberger SR (2000) Neuropsychological impairments in the recognition of faces, voices, and personal names. Brain Cogn 44:342–366. Roswandowitz, C., Kappes, C., Obrig, H. von Kriegstein K (2017) Voice-identity recognition deficits are induced by lesions in the temporal and inferior parietal lobe. Prep. Roswandowitz C., Maguinness C., von Kriegstein K., Deficits in voice-identity processing: acquired and developmental phonagnosia. Oxford Handb Voice Perception, under Rev. Van Lancker DR, Canter GJ (1982) Impairment of voice and face recognition in patients with hemispheric damage. Brain Cogn 1:185–195. Van Lancker DR, Kreiman J, Cummings J (1989) Voice perception deficits: neuroanatomical correlates of phonagnosia. J Clin Exp Neuropsychol 11:665–674. von Kriegstein K, Eger E, Kleinschmidt A, Giraud AL (2003) Modulation of neural responses to speech by directing attention to voices or verbal content. Brain Res Cogn Brain Res 17:48–55. von Kriegstein K, Smith DR, Patterson RD, Kiebel SJ, Griffiths TD (2010) How the human brain recognizes speech in the context of changing speakers. J Neurosci 30:629–638. Hintergrund: Die menschliche Stimme wird in der Fachliteratur als “auditorisches Gesicht” bezeichnet (Belin et al., 2004), weil sie neben der Sprache auch Informationen zu Identität und Emotionen des Sprechers vermittelt, die wir in der alltäglichen Kommunikation mühelos wahrnehmen und verarbeiten. Zerebrale Pathologien, beispielsweise ischämische Hirninfarkte oder Hämorrhagien, können in der Folge verschiedene Kommunikationsdefizite verursachen. Ein bedeutsames Kommunikationsdefizit auf sprachlicher Ebene ist die Aphasie. Defizite der Stimmerkennung als eine Entität der nicht-sprachlichen Ebene werden durch den Begriff Phonagnosie definiert. Phonagnosie beschreibt ein Defizit der Stimmidentifizierung einschließlich der Analyse akustischer vokaler Signale, dem Wiedererkennen bekannter Stimmen und der semantischen Assoziation einer erkannten Stimme (Roswandowitz C, Maguinness C, von Kriegstein K., in rev.). Klinische Studien wiesen die Existenz von Stimmerkennungsdefiziten als eine mögliche Folge zerebraler Läsionen nach (Van Lancker and Canter, 1982; Van Lancker et al., 1989; Neuner and Schweinberger, 2000; Lang et al., 2009; Hailstone et al., 2011). Hierbei wurden insbesondere Läsionen der rechten Hemisphäre als zugrundeliegende neuronale Repräsentationen hervorgehoben, allerdings gelang bisher keine exakte Lokalisierung der betroffenen Hirnregionen bei isolierten Stimmerkennungsdefiziten. In funktionellen MRT-Studien an gesunden Probanden zeigten sich stimmspezifische Areale entlang des rechten superioren temporalen Gyrus und Sulcus (STG/S) (Belin et al., 2000; von Kriegstein et al., 2003; Kriegstein and Giraud, 2004). Zielsetzung: Ziel der vorliegenden Patientenstudie war es, mögliche isolierte Stimmerkennungsdefizite als Folge einer zerebralen Läsion nachzuweisen und zu charakterisieren. In einem zweiten Schritt widmete sich die Studie der Frage nach den neuronalen Korrelaten von Stimmerkennungsdefiziten. Wir stellten die Hypothesen auf, dass Stimmerkennungsdefizite (i) häufiger bei Patienten mit rechtshemisphärischen Läsionen und (ii) darüber hinaus als isoliertes Stimmerkennungsdefizit gegenüber kombinierten Defiziten von Stimm- und Gesichtererkennung auftreten können. Die Untersuchung von neuronalen Korrelaten dieser Defizite wurde in einer weiterführenden Analyse mittels Voxel-based lesion symptom mapping (VLSM) vorgenommen (Roswandowitz, C., Kappes, C., Obrig, H., von Kriegstein K., in prep.). Material und Methoden: 40 Patienten der Tagesklinik für kognitive Neurologie der Universität Leipzig nahmen an der Studie teil. Alle Patienten wiesen unilaterale Hirnläsionen (n = 14 links, 24 rechts) auf, die entweder Folge eines cerebrovaskulären Ereignisses oder einer Tumorextraktion waren. Wir führten eine umfangreiche experimentelle Testreihe durch, die insbesondere der Stimmerkennung (Stimmlerntests und Tests zur Erkennung bekannter Stimmen) galt. Außerdem wurde die Kontrollmodalität der Gesichtererkennung und die Verarbeitung akustischer vokaler Signale (Pitch und Timbre) überprüft. Die individuelle Patientenwahrnehmung zur Stimm- und Gesichtererkennung erhoben wir in einem Fragebogen. Wir analysierten die Daten in IBM SPSS 22, für die Gruppenvergleiche wendeten wir sowohl parametrische als auch nicht-parametrische Tests, Varianzanalysen und bivariate Korrelationen an. In einem weiterführenden Teil der Studie wurden die behavioralen Daten und strukturelle MRTs anhand von Voxel-based lesion symptom mapping (VLSM) analysiert. Ergebnisse: In der Datenanalyse fanden sich im Gruppenvergleich der Patientien mit rechts- bzw. linkshemisphärischen Läsionen keine signifikanten Unterschiede in den Tests zur Stimmerkennung. Allerdings wiesen 9 Patienten, deren Läsionen ausschließlich rechtshemisphärisch lokalisiert waren, Stimmererkennungsdefizite auf. Die Lokalisation der Läsionen innerhalb der rechten Hemisphäre war heterogen. Während sechs Patienten dieser Gruppe ein kombiniertes Defizit der Gesichter- und Stimmerkennung zeigten, fand sich bei drei Patienten ein isoliertes Defizit der Stimmerkennung. Wir charakterisieren in der vorliegenden Arbeit das spezifische Verhaltensmuster und die Lokalisation der Läsionen dieser drei Patienten, die alle eine Beteiligung des rechten Temporallappens aufwiesen. Im Hinblick auf grundlegende Mechanismen der Stimmverarbeitung konnte insbesondere Timbre als relevantes akustisches Stimmsignal zur Erkennung neu erlernter Stimmen identifiziert werden. In der weiterführenden Analyse mittels VLSM wurden Assoziationen von (i) selektiven Defiziten der Stimmerkennung mit Läsionen im rechten Temporallappen sowie (ii) der Stimm-Gesichter-Integration im rechten inferioren Parietallappen nachgewiesen. Schlussfolgerungen: Die vorliegende Studie hebt auf der Grundlage des untersuchten Patientenkollektivs die bedeutsame Rolle der rechten Hemisphäre bei der Stimmerkennung hervor. Wir identifizierten drei Patienten mit isolierten Stimmerkennungsdefiziten, deren Läsionen sich im rechten Temporallappen befanden. Dieses Ergebnis stützt bisherige Evidenz zur Stimmverarbeitung an gesunden Probanden (Belin et al., 2000; Kriegstein and Giraud, 2004). Die weiterführende VLSM-Analyse, auf der Grundlage des vorliegenden Patientenkollektivs, charakterisiert spezifische Areale des rechten Temporallappens und inferioren Parietallappens als neuronale Korrelate defizitärer Stimmerkennung. In Erweiterung bisheriger klinischer Evidenz liefert die vorliegende Studie neue Erkenntnisse zu neuronalen Korrelaten von isolierten Stimmerkennungsdefiziten und Defiziten der Stimm- Gesichter -Integration (Roswandowitz, C., Kappes, C., Obrig, H. von Kriegstein K., in prep.). Im klinischen Kontext erlaubt die Studie einen weiteren Schritt zum besseren Verständnis von nonverbalen Kommunikationsdefiziten, insbesondere Stimmerkennungsschwierigkeiten, nach zerebralen Läsionen. Literatur: Belin P, Fecteau S, Bedard C (2004) Thinking the voice: neural correlates of voice perception. Trends Cogn Sci 8:129–135. Belin P, Zatorre RJ, Lafaille P, Ahad P, Pike B (2000) Voice-selective areas in human auditory cortex. Nature 403:309–312. Hailstone JC, Ridgway GR, Bartlett JW, Goll JC, Buckley AH, Crutch SJ, Warren JD (2011) Voice processing in dementia: a neuropsychological and neuroanatomical analysis. Brain 134:2535–2547. Kriegstein K V, Giraud AL (2004) Distinct functional substrates along the right superior temporal sulcus for the processing of voices. Neuroimage 22:948–955. Lang CJ, Kneidl O, Hielscher-Fastabend M, Heckmann JG (2009) Voice recognition in aphasic and non-aphasic stroke patients. J Neurol 256:1303–1306. Neuner F, Schweinberger SR (2000) Neuropsychological impairments in the recognition of faces, voices, and personal names. Brain Cogn 44:342–366. Roswandowitz, C., Kappes, C., Obrig, H. von Kriegstein K (2017) , accepted, Obligatory and facultative brain regions for voice-identity recognition, Brain Roswandowitz C., Maguinness C., von Kriegstein K., Deficits in voice-identity processing: acquired and developmental phonagnosia. Oxford Handb Voice Perception, under Rev. Van Lancker DR, Canter GJ (1982) Impairment of voice and face recognition in patients with hemispheric damage. Brain Cogn 1:185–195. Van Lancker DR, Kreiman J, Cummings J (1989) Voice perception deficits: neuroanatomical correlates of phonagnosia. J Clin Exp Neuropsychol 11:665–674. von Kriegstein K, Eger E, Kleinschmidt A, Giraud AL (2003) Modulation of neural responses to speech by directing attention to voices or verbal content. Brain Res Cogn Brain Res 17:48–55. von Kriegstein K, Smith DR, Patterson RD, Kiebel SJ, Griffiths TD (2010) How the human brain recognizes speech in the context of changing speakers. J Neurosci 30:629–638

Qucosa - Publikationsserver der Universität Leipzig

Physiology, Psychoacoustics and Cognition in Normal and Impaired Hearing

Author
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 01/01/2016
Field of study

ARTS repository - University of Groningen

Physiology, Psychoacoustics and Cognition in Normal and Impaired Hearing

Author
Publication venue: Springer International Publishing
Publication date: 01/01/2016
Field of study

Dissertations of the University of Groningen

Physiology, Psychoacoustics and Cognition in Normal and Impaired Hearing

Author
Publication venue: Springer International Publishing
Publication date: 01/01/2016
Field of study

The International Symposium on Hearing is a prestigious, triennial gathering where world-class scientists present and discuss the most recent advances in the field of human and animal hearing research. The 2015 edition will particularly focus on integrative approaches linking physiological, psychophysical and cognitive aspects of normal and impaired hearing. Like previous editions, the proceedings will contain about 50 chapters ranging from basic to applied research, and of interest to neuroscientists, psychologists, audiologists, engineers, otolaryngologists, and artificial intelligence researchers.

ARTS repository - University of Groningen