4,432 research outputs found

    Using non-speech sounds to provide navigation cues

    Get PDF
    This article describes 3 experiments that investigate the possibiity of using structured nonspeech audio messages called earcons to provide navigational cues in a menu hierarchy. A hierarchy of 27 nodes and 4 levels was created with an earcon for each node. Rules were defined for the creation of hierarchical earcons at each node. Participants had to identify their location in the hierarchy by listening to an earcon. Results of the first experiment showed that participants could identify their location with 81.5% accuracy, indicating that earcons were a powerful method of communicating hierarchy information. One proposed use for such navigation cues is in telephone-based interfaces (TBIs) where navigation is a problem. The first experiment did not address the particular problems of earcons in TBIs such as “does the lower quality of sound over the telephone lower recall rates,” “can users remember earcons over a period of time.” and “what effect does training type have on recall?” An experiment was conducted and results showed that sound quality did lower the recall of earcons. However; redesign of the earcons overcame this problem with 73% recalled correctly. Participants could still recall earcons at this level after a week had passed. Training type also affected recall. With personal training participants recalled 73% of the earcons, but with purely textual training results were significantly lower. These results show that earcons can provide good navigation cues for TBIs. The final experiment used compound, rather than hierarchical earcons to represent the hierarchy from the first experiment. Results showed that with sounds constructed in this way participants could recall 97% of the earcons. These experiments have developed our general understanding of earcons. A hierarchy three times larger than any previously created was tested, and this was also the first test of the recall of earcons over time

    Evaluation of live human-computer music-making: Quantitative and qualitative approaches

    Get PDF
    NOTICE: this is the author’s version of a work that was accepted for publication in International Journal of Human-Computer Studies. Changes resulting from the publishing process, such as peer review, editing, corrections, structural formatting, and other quality control mechanisms may not be reflected in this document. Changes may have been made to this work since it was submitted for publication. A definitive version was subsequently published in International Journal of Human-Computer Studies, [VOL 67,ISS 11(2009)] DOI: 10.1016/j.ijhcs.2009.05.00

    Vocal emotions on the brain: the role of acoustic parameters and musicality

    Get PDF
    The human voice is a powerful transmitter of emotions. This dissertation addresses three main gaps in the field of vocal emotion perception. The first is the quantification of the relative contribution of fundamental frequency (F0) and timbre cues to the perception of different emotions and their associated electrophysiological correlates. Using parameter-specific voice morphing, the results show that both F0 and timbre carry unique information that allow emotional inferences, although F0 seems to be relatively more important overall. The electrophysiological data revealed F0- and timbre-specific modulations in several ERP components, such as the P200 and the N400. Second, it was explored how musicality affects the processing of emotional voice cues, by providing a review on the literature linking musicality to emotion perception and subsequently showing that musicians have a benefit in vocal emotion perception compared to non-musicians. The present data offer original insight into the special role of pitch cues: musicians outperformed non-musicians when emotions were expressed by the pitch contour only, but not when they were expressed by vocal timbre. Although the electrophysiological patterns were less conclusive, they imply that musicality may modulate brain responses to vocal emotions. Third, this work provides a critical reflection on parameter-specific voice morphing and its suitability to study the processing of vocal emotions. Distortions in voice naturalness resulting from extreme acoustic manipulations were identified as one of the major threats to the ecological validity of the stimulus material produced with this technique. However, the results suggested that while voice morphing does affect the perceived naturalness of stimuli, behavioral measures of emotion perception were found to be remarkably robust against these distortions. Thus, the present data advocate parameter-specific voice morphing as a valid tool for vocal emotional research

    Voice- Identity Processing in Patients with Brain Lesions

    Get PDF
    Hintergrund: Die menschliche Stimme wird in der Fachliteratur als “auditorisches Gesicht” bezeichnet (Belin et al., 2004), weil sie neben der Sprache auch Informationen zu IdentitĂ€t und Emotionen des Sprechers vermittelt, die wir in der alltĂ€glichen Kommunikation mĂŒhelos wahrnehmen und verarbeiten. Zerebrale Pathologien, beispielsweise ischĂ€mische Hirninfarkte oder HĂ€morrhagien, können in der Folge verschiedene Kommunikationsdefizite verursachen. Ein bedeutsames Kommunikationsdefizit auf sprachlicher Ebene ist die Aphasie. Defizite der Stimmerkennung als eine EntitĂ€t der nicht-sprachlichen Ebene werden durch den Begriff Phonagnosie definiert. Phonagnosie beschreibt ein Defizit der Stimmidentifizierung einschließlich der Analyse akustischer vokaler Signale, dem Wiedererkennen bekannter Stimmen und der semantischen Assoziation einer erkannten Stimme (Roswandowitz C, Maguinness C, von Kriegstein K., in rev.). Klinische Studien wiesen die Existenz von Stimmerkennungsdefiziten als eine mögliche Folge zerebraler LĂ€sionen nach (Van Lancker and Canter, 1982; Van Lancker et al., 1989; Neuner and Schweinberger, 2000; Lang et al., 2009; Hailstone et al., 2011). Hierbei wurden insbesondere LĂ€sionen der rechten HemisphĂ€re als zugrundeliegende neuronale ReprĂ€sentationen hervorgehoben, allerdings gelang bisher keine exakte Lokalisierung der betroffenen Hirnregionen bei isolierten Stimmerkennungsdefiziten. In funktionellen MRT-Studien an gesunden Probanden zeigten sich stimmspezifische Areale entlang des rechten superioren temporalen Gyrus und Sulcus (STG/S) (Belin et al., 2000; von Kriegstein et al., 2003; Kriegstein and Giraud, 2004). Zielsetzung: Ziel der vorliegenden Patientenstudie war es, mögliche isolierte Stimmerkennungsdefizite als Folge einer zerebralen LĂ€sion nachzuweisen und zu charakterisieren. In einem zweiten Schritt widmete sich die Studie der Frage nach den neuronalen Korrelaten von Stimmerkennungsdefiziten. Wir stellten die Hypothesen auf, dass Stimmerkennungsdefizite (i) hĂ€ufiger bei Patienten mit rechtshemisphĂ€rischen LĂ€sionen und (ii) darĂŒber hinaus als isoliertes Stimmerkennungsdefizit gegenĂŒber kombinierten Defiziten von Stimm- und Gesichtererkennung auftreten können. Die Untersuchung von neuronalen Korrelaten dieser Defizite wurde in einer weiterfĂŒhrenden Analyse mittels Voxel-based lesion symptom mapping (VLSM) vorgenommen (Roswandowitz, C., Kappes, C., Obrig, H., von Kriegstein K., accepted, Brain). Material und Methoden: 40 Patienten der Tagesklinik fĂŒr kognitive Neurologie der UniversitĂ€t Leipzig nahmen an der Studie teil. Alle Patienten wiesen unilaterale HirnlĂ€sionen (n = 14 links, 24 rechts) auf, die entweder Folge eines cerebrovaskulĂ€ren Ereignisses oder einer Tumorextraktion waren. Wir fĂŒhrten eine umfangreiche experimentelle Testreihe durch, die insbesondere der Stimmerkennung (Stimmlerntests und Tests zur Erkennung bekannter Stimmen) galt. Außerdem wurde die KontrollmodalitĂ€t der Gesichtererkennung und die Verarbeitung akustischer vokaler Signale (Pitch und Timbre) ĂŒberprĂŒft. Die individuelle Patientenwahrnehmung zur Stimm- und Gesichtererkennung erhoben wir in einem Fragebogen. Wir analysierten die Daten in IBM SPSS 22, fĂŒr die Gruppenvergleiche wendeten wir sowohl parametrische als auch nicht-parametrische Tests, Varianzanalysen und bivariate Korrelationen an. In einem weiterfĂŒhrenden Teil der Studie wurden die behavioralen Daten und strukturelle MRTs anhand von Voxel-based lesion symptom mapping (VLSM) analysiert. Ergebnisse: In der Datenanalyse fanden sich im Gruppenvergleich der Patientien mit rechts- bzw. linkshemisphĂ€rischen LĂ€sionen keine signifikanten Unterschiede in den Tests zur Stimmerkennung. Allerdings wiesen 9 Patienten, deren LĂ€sionen ausschließlich rechtshemisphĂ€risch lokalisiert waren, Stimmererkennungsdefizite auf. Die Lokalisation der LĂ€sionen innerhalb der rechten HemisphĂ€re war heterogen. WĂ€hrend sechs Patienten dieser Gruppe ein kombiniertes Defizit der Gesichter- und Stimmerkennung zeigten, fand sich bei drei Patienten ein isoliertes Defizit der Stimmerkennung. Wir charakterisieren in der vorliegenden Arbeit das spezifische Verhaltensmuster und die Lokalisation der LĂ€sionen dieser drei Patienten, die alle eine Beteiligung des rechten Temporallappens aufwiesen. Im Hinblick auf grundlegende Mechanismen der Stimmverarbeitung konnte insbesondere Timbre als relevantes akustisches Stimmsignal zur Erkennung neu erlernter Stimmen identifiziert werden. In der weiterfĂŒhrenden Analyse mittels VLSM wurden Assoziationen von (i) selektiven Defiziten der Stimmerkennung mit LĂ€sionen im rechten Temporallappen sowie (ii) der Stimm-Gesichter-Integration im rechten inferioren Parietallappen nachgewiesen. Schlussfolgerungen: Die vorliegende Studie hebt auf der Grundlage des untersuchten Patientenkollektivs die bedeutsame Rolle der rechten HemisphĂ€re bei der Stimmerkennung hervor. Wir identifizierten drei Patienten mit isolierten Stimmerkennungsdefiziten, deren LĂ€sionen sich im rechten Temporallappen befanden. Dieses Ergebnis stĂŒtzt bisherige Evidenz zur Stimmverarbeitung an gesunden Probanden (Belin et al., 2000; Kriegstein and Giraud, 2004). Die weiterfĂŒhrende VLSM-Analyse, auf der Grundlage des vorliegenden Patientenkollektivs, charakterisiert spezifische Areale des rechten Temporallappens und inferioren Parietallappens als neuronale Korrelate defizitĂ€rer Stimmerkennung. In Erweiterung bisheriger klinischer Evidenz liefert die vorliegende Studie neue Erkenntnisse zu neuronalen Korrelaten von isolierten Stimmerkennungsdefiziten und Defiziten der Stimm- Gesichter -Integration (Roswandowitz, C., Kappes, C., Obrig, H. von Kriegstein K., in prep.). Im klinischen Kontext erlaubt die Studie einen weiteren Schritt zum besseren VerstĂ€ndnis von nonverbalen Kommunikationsdefiziten, insbesondere Stimmerkennungsschwierigkeiten, nach zerebralen LĂ€sionen. Literatur: Belin P, Fecteau S, Bedard C (2004) Thinking the voice: neural correlates of voice perception. Trends Cogn Sci 8:129–135. Belin P, Zatorre RJ, Lafaille P, Ahad P, Pike B (2000) Voice-selective areas in human auditory cortex. Nature 403:309–312. Hailstone JC, Ridgway GR, Bartlett JW, Goll JC, Buckley AH, Crutch SJ, Warren JD (2011) Voice processing in dementia: a neuropsychological and neuroanatomical analysis. Brain 134:2535–2547. Kriegstein K V, Giraud AL (2004) Distinct functional substrates along the right superior temporal sulcus for the processing of voices. Neuroimage 22:948–955. Lang CJ, Kneidl O, Hielscher-Fastabend M, Heckmann JG (2009) Voice recognition in aphasic and non-aphasic stroke patients. J Neurol 256:1303–1306. Neuner F, Schweinberger SR (2000) Neuropsychological impairments in the recognition of faces, voices, and personal names. Brain Cogn 44:342–366. Roswandowitz, C., Kappes, C., Obrig, H. von Kriegstein K (2017) Voice-identity recognition deficits are induced by lesions in the temporal and inferior parietal lobe. Prep. Roswandowitz C., Maguinness C., von Kriegstein K., Deficits in voice-identity processing: acquired and developmental phonagnosia. Oxford Handb Voice Perception, under Rev. Van Lancker DR, Canter GJ (1982) Impairment of voice and face recognition in patients with hemispheric damage. Brain Cogn 1:185–195. Van Lancker DR, Kreiman J, Cummings J (1989) Voice perception deficits: neuroanatomical correlates of phonagnosia. J Clin Exp Neuropsychol 11:665–674. von Kriegstein K, Eger E, Kleinschmidt A, Giraud AL (2003) Modulation of neural responses to speech by directing attention to voices or verbal content. Brain Res Cogn Brain Res 17:48–55. von Kriegstein K, Smith DR, Patterson RD, Kiebel SJ, Griffiths TD (2010) How the human brain recognizes speech in the context of changing speakers. J Neurosci 30:629–638. Hintergrund: Die menschliche Stimme wird in der Fachliteratur als “auditorisches Gesicht” bezeichnet (Belin et al., 2004), weil sie neben der Sprache auch Informationen zu IdentitĂ€t und Emotionen des Sprechers vermittelt, die wir in der alltĂ€glichen Kommunikation mĂŒhelos wahrnehmen und verarbeiten. Zerebrale Pathologien, beispielsweise ischĂ€mische Hirninfarkte oder HĂ€morrhagien, können in der Folge verschiedene Kommunikationsdefizite verursachen. Ein bedeutsames Kommunikationsdefizit auf sprachlicher Ebene ist die Aphasie. Defizite der Stimmerkennung als eine EntitĂ€t der nicht-sprachlichen Ebene werden durch den Begriff Phonagnosie definiert. Phonagnosie beschreibt ein Defizit der Stimmidentifizierung einschließlich der Analyse akustischer vokaler Signale, dem Wiedererkennen bekannter Stimmen und der semantischen Assoziation einer erkannten Stimme (Roswandowitz C, Maguinness C, von Kriegstein K., in rev.). Klinische Studien wiesen die Existenz von Stimmerkennungsdefiziten als eine mögliche Folge zerebraler LĂ€sionen nach (Van Lancker and Canter, 1982; Van Lancker et al., 1989; Neuner and Schweinberger, 2000; Lang et al., 2009; Hailstone et al., 2011). Hierbei wurden insbesondere LĂ€sionen der rechten HemisphĂ€re als zugrundeliegende neuronale ReprĂ€sentationen hervorgehoben, allerdings gelang bisher keine exakte Lokalisierung der betroffenen Hirnregionen bei isolierten Stimmerkennungsdefiziten. In funktionellen MRT-Studien an gesunden Probanden zeigten sich stimmspezifische Areale entlang des rechten superioren temporalen Gyrus und Sulcus (STG/S) (Belin et al., 2000; von Kriegstein et al., 2003; Kriegstein and Giraud, 2004). Zielsetzung: Ziel der vorliegenden Patientenstudie war es, mögliche isolierte Stimmerkennungsdefizite als Folge einer zerebralen LĂ€sion nachzuweisen und zu charakterisieren. In einem zweiten Schritt widmete sich die Studie der Frage nach den neuronalen Korrelaten von Stimmerkennungsdefiziten. Wir stellten die Hypothesen auf, dass Stimmerkennungsdefizite (i) hĂ€ufiger bei Patienten mit rechtshemisphĂ€rischen LĂ€sionen und (ii) darĂŒber hinaus als isoliertes Stimmerkennungsdefizit gegenĂŒber kombinierten Defiziten von Stimm- und Gesichtererkennung auftreten können. Die Untersuchung von neuronalen Korrelaten dieser Defizite wurde in einer weiterfĂŒhrenden Analyse mittels Voxel-based lesion symptom mapping (VLSM) vorgenommen (Roswandowitz, C., Kappes, C., Obrig, H., von Kriegstein K., in prep.). Material und Methoden: 40 Patienten der Tagesklinik fĂŒr kognitive Neurologie der UniversitĂ€t Leipzig nahmen an der Studie teil. Alle Patienten wiesen unilaterale HirnlĂ€sionen (n = 14 links, 24 rechts) auf, die entweder Folge eines cerebrovaskulĂ€ren Ereignisses oder einer Tumorextraktion waren. Wir fĂŒhrten eine umfangreiche experimentelle Testreihe durch, die insbesondere der Stimmerkennung (Stimmlerntests und Tests zur Erkennung bekannter Stimmen) galt. Außerdem wurde die KontrollmodalitĂ€t der Gesichtererkennung und die Verarbeitung akustischer vokaler Signale (Pitch und Timbre) ĂŒberprĂŒft. Die individuelle Patientenwahrnehmung zur Stimm- und Gesichtererkennung erhoben wir in einem Fragebogen. Wir analysierten die Daten in IBM SPSS 22, fĂŒr die Gruppenvergleiche wendeten wir sowohl parametrische als auch nicht-parametrische Tests, Varianzanalysen und bivariate Korrelationen an. In einem weiterfĂŒhrenden Teil der Studie wurden die behavioralen Daten und strukturelle MRTs anhand von Voxel-based lesion symptom mapping (VLSM) analysiert. Ergebnisse: In der Datenanalyse fanden sich im Gruppenvergleich der Patientien mit rechts- bzw. linkshemisphĂ€rischen LĂ€sionen keine signifikanten Unterschiede in den Tests zur Stimmerkennung. Allerdings wiesen 9 Patienten, deren LĂ€sionen ausschließlich rechtshemisphĂ€risch lokalisiert waren, Stimmererkennungsdefizite auf. Die Lokalisation der LĂ€sionen innerhalb der rechten HemisphĂ€re war heterogen. WĂ€hrend sechs Patienten dieser Gruppe ein kombiniertes Defizit der Gesichter- und Stimmerkennung zeigten, fand sich bei drei Patienten ein isoliertes Defizit der Stimmerkennung. Wir charakterisieren in der vorliegenden Arbeit das spezifische Verhaltensmuster und die Lokalisation der LĂ€sionen dieser drei Patienten, die alle eine Beteiligung des rechten Temporallappens aufwiesen. Im Hinblick auf grundlegende Mechanismen der Stimmverarbeitung konnte insbesondere Timbre als relevantes akustisches Stimmsignal zur Erkennung neu erlernter Stimmen identifiziert werden. In der weiterfĂŒhrenden Analyse mittels VLSM wurden Assoziationen von (i) selektiven Defiziten der Stimmerkennung mit LĂ€sionen im rechten Temporallappen sowie (ii) der Stimm-Gesichter-Integration im rechten inferioren Parietallappen nachgewiesen. Schlussfolgerungen: Die vorliegende Studie hebt auf der Grundlage des untersuchten Patientenkollektivs die bedeutsame Rolle der rechten HemisphĂ€re bei der Stimmerkennung hervor. Wir identifizierten drei Patienten mit isolierten Stimmerkennungsdefiziten, deren LĂ€sionen sich im rechten Temporallappen befanden. Dieses Ergebnis stĂŒtzt bisherige Evidenz zur Stimmverarbeitung an gesunden Probanden (Belin et al., 2000; Kriegstein and Giraud, 2004). Die weiterfĂŒhrende VLSM-Analyse, auf der Grundlage des vorliegenden Patientenkollektivs, charakterisiert spezifische Areale des rechten Temporallappens und inferioren Parietallappens als neuronale Korrelate defizitĂ€rer Stimmerkennung. In Erweiterung bisheriger klinischer Evidenz liefert die vorliegende Studie neue Erkenntnisse zu neuronalen Korrelaten von isolierten Stimmerkennungsdefiziten und Defiziten der Stimm- Gesichter -Integration (Roswandowitz, C., Kappes, C., Obrig, H. von Kriegstein K., in prep.). Im klinischen Kontext erlaubt die Studie einen weiteren Schritt zum besseren VerstĂ€ndnis von nonverbalen Kommunikationsdefiziten, insbesondere Stimmerkennungsschwierigkeiten, nach zerebralen LĂ€sionen. Literatur: Belin P, Fecteau S, Bedard C (2004) Thinking the voice: neural correlates of voice perception. Trends Cogn Sci 8:129–135. Belin P, Zatorre RJ, Lafaille P, Ahad P, Pike B (2000) Voice-selective areas in human auditory cortex. Nature 403:309–312. Hailstone JC, Ridgway GR, Bartlett JW, Goll JC, Buckley AH, Crutch SJ, Warren JD (2011) Voice processing in dementia: a neuropsychological and neuroanatomical analysis. Brain 134:2535–2547. Kriegstein K V, Giraud AL (2004) Distinct functional substrates along the right superior temporal sulcus for the processing of voices. Neuroimage 22:948–955. Lang CJ, Kneidl O, Hielscher-Fastabend M, Heckmann JG (2009) Voice recognition in aphasic and non-aphasic stroke patients. J Neurol 256:1303–1306. Neuner F, Schweinberger SR (2000) Neuropsychological impairments in the recognition of faces, voices, and personal names. Brain Cogn 44:342–366. Roswandowitz, C., Kappes, C., Obrig, H. von Kriegstein K (2017) , accepted, Obligatory and facultative brain regions for voice-identity recognition, Brain Roswandowitz C., Maguinness C., von Kriegstein K., Deficits in voice-identity processing: acquired and developmental phonagnosia. Oxford Handb Voice Perception, under Rev. Van Lancker DR, Canter GJ (1982) Impairment of voice and face recognition in patients with hemispheric damage. Brain Cogn 1:185–195. Van Lancker DR, Kreiman J, Cummings J (1989) Voice perception deficits: neuroanatomical correlates of phonagnosia. J Clin Exp Neuropsychol 11:665–674. von Kriegstein K, Eger E, Kleinschmidt A, Giraud AL (2003) Modulation of neural responses to speech by directing attention to voices or verbal content. Brain Res Cogn Brain Res 17:48–55. von Kriegstein K, Smith DR, Patterson RD, Kiebel SJ, Griffiths TD (2010) How the human brain recognizes speech in the context of changing speakers. J Neurosci 30:629–638

    Perceptual Continuity and Naturalness of Expressive Strength in Singing Voices Based on Speech Morphing

    Get PDF
    This paper experimentally shows the importance of perceptual continuity of the expressive strength in vocal timbre for natural change in vocal expression. In order to synthesize various and continuous expressive strengths with vocal timbre, we investigated gradually changing expressions by applying the STRAIGHT speech morphing algorithm to singing voices. Here, a singing voice without expression is used as the base of morphing, and singing voices with three different expressions are used as the target. Through statistical analyses of perceptual evaluations, we confirmed that the proposed morphing algorithm provides perceptual continuity of vocal timbre. Our results showed the following: (i) gradual strengths in absolute evaluations, and (ii) a perceptually linear strength provided by the calculation of corrected intervals of the morph ratio by the inverse (reciprocal) function of an equation that approximates the perceptual strength. Finally, we concluded that applying continuity was highly effective for achieving perceptual naturalness, judging from the results showing that (iii) our gradual transformation method can perform well for perceived naturalness

    A review of differentiable digital signal processing for music and speech synthesis

    Get PDF
    The term “differentiable digital signal processing” describes a family of techniques in which loss function gradients are backpropagated through digital signal processors, facilitating their integration into neural networks. This article surveys the literature on differentiable audio signal processing, focusing on its use in music and speech synthesis. We catalogue applications to tasks including music performance rendering, sound matching, and voice transformation, discussing the motivations for and implications of the use of this methodology. This is accompanied by an overview of digital signal processing operations that have been implemented differentiably, which is further supported by a web book containing practical advice on differentiable synthesiser programming (https://intro2ddsp.github.io/). Finally, we highlight open challenges, including optimisation pathologies, robustness to real-world conditions, and design trade-offs, and discuss directions for future research

    ESCOM 2017 Proceedings

    Get PDF

    A perceptual sound space for auditory displays based on sung-vowel synthesis

    Get PDF
    When designing displays for the human senses, perceptual spaces are of great importance to give intuitive access to physical attributes. Similar to how perceptual spaces based on hue, saturation, and lightness were constructed for visual color, research has explored perceptual spaces for sounds of a given timbral family based on timbre, brightness, and pitch. To promote an embodied approach to the design of auditory displays, we introduce the Vowel-Type-Pitch (VTP) space, a cylindrical sound space based on human sung vowels, whose timbres can be synthesized by the composition of acoustic formants and can be categorically labeled. Vowels are arranged along the circular dimension, while voice type and pitch of the vowel correspond to the remaining two axes of the cylindrical VTP space. The decoupling and perceptual effectiveness of the three dimensions of the VTP space are tested through a vowel labeling experiment, whose results are visualized as maps on circular slices of the VTP cylinder. We discuss implications for the design of auditory and multi-sensory displays that account for human perceptual capabilities
    • 

    corecore