93 research outputs found

    Abstracts from CIP 2007: Segundo Congreso Ibérico de Percepción

    Get PDF
    Sin resumenSin resume

    Relation between acoustic and articulatory dimensions of speech sounds

    Get PDF
    In their daily communication, speakers produce speech by pushing a controlled air stream past their vocal folds and through a vocal tract configuration formed by a set of articulators which ultimately results in a certain acoustic output. In this sense, speech and, specifically, speech sounds can be understood as a relation between articulatory and acoustic dimensions. This idea is supported by more recent neuroimaging results which suggest that sensory representations of speech sounds are stored across auditory and somatosensory cortices and are characterized by neural auditory-somatosensory mappings. The overall aim of the current dissertation is to improve our understanding of the functional nature of this relation. To this end, this thesis investigates the influence of a stronger linguo-palatal contact on speakers’ ability to employ multiple concurrent compensatory strategies during production of vowels and fricatives. During the data analysis, speakers’ individual as well as average compensatory behavior is investigated by means of generalized additive mixed models (GAMM) and a supervised classification algorithm (random forest). A framework is then developed that allows to estimate the extent of spectral adaptations in vowels and fricatives and to draw a direct comparison between these sounds. The experimental results are discussed in the context of current speech production theories and agree with the overall idea that speech sounds are perceptuo-motor units comprising of articulatory movements which are shaped by perceptual properties and selected for their functional value for communication.Sprecher produzieren Sprachlaute, indem sie einen kontrollierten Luftstrom vorbei an ihren Stimmlippen und durch eine artikulatorische Konfiguration führen, was letztendlich in einem bestimmten akustischen Ergebnis mündet. In diesem Sinne können Sprachlaute als Relationen zwischen der artikulatorischen und der akustischen Dimension verstanden werden. Diese allgemeine Vorstellung wird durch die Ergebnisse der Neuroforschung gestützt, die darauf hindeuten, dass sensorische Repräsentationen von Sprachlauten sowohl im auditiven als auch somatosensorischen Cortex gespeichert werden und sich durch neuronale auditiv-somatosensorische Zuordnungen auszeichnen. Das übergeordnete Ziel der vorliegenden Dissertation ist es, unser Verständnis von der Funktionsweise dieser Relationen zu verbessern. Dazu untersucht die Arbeit den Einfluss eines stärkeren linguo-palatalen Kontakts auf die Fähigkeit der Sprecher, mehrere Kompensationsstrategien bei der Produktion von Vokalen und Frikativen gleichzeitig anzuwenden. Bei der Datenanalyse wird sowohl das individuelle als auch das durchschnittliche Kompensationsverhalten der Sprecher mittels verallgemeinerter additiver gemischter Modelle (GAMM) sowie eines überwachten Klassifizierungsalgorithmus (Random Forest) untersucht. Dabei wird ein Rahmenwerk entwickelt, das erlaubt das Ausmaß der spektralen Anpassungen bei Vokalen und Frikativen zu untersuchen und miteinander zu vergleichen. Die experimentellen Ergebnisse werden im Rahmen aktueller Sprachproduktionstheorien diskutiert und stimmen insgesamt mit der Vorstellung überein, dass Sprachlaute perzeptuell-motorische Einheiten sind, denen Artikulationsbewegungen zu Grunde liegen, die durch perzeptuelle Eigenschaften beeinflusst und geformt werden

    Sequential grouping constraints on across-channel auditory processing

    Get PDF

    Parents’ hyper-pitch and low vowel category variability in infant-directed speech are associated with 18-month-old toddlers’ expressive vocabulary

    Get PDF
    The present study examines the acoustic properties of infant-directed speech (IDS) as compared to adult-directed speech (ADS) in Norwegian parents of 18-month-old toddlers, and whether these properties relate to toddlers’ expressive vocabulary size. Twenty-one parent-toddler dyads from Tromsø, Northern Norway participated in the study. Parents (16 mothers, 5 fathers), speaking a Northern Norwegian dialect, were recorded in the lab reading a storybook to their toddler (IDS register), and to an experimenter (ADS register). The storybook was designed for the purpose of the study, ensuring identical linguistic contexts across speakers and registers, and multiple representations of each of the nine Norwegian long vowels. We examined both traditionally reported measures of IDS: pitch, pitch range, vowel duration and vowel space expansion, but also novel measures: vowel category variability and vowel category distinctiveness. Our results showed that Norwegian IDS, as compared to ADS, had similar characteristics as in previously reported languages: higher pitch, wider pitch range, longer vowel duration, and expanded vowel space area; in addition, it had more variable vowel categories. Further, parents’ hyper-pitch, that is, the within-parent increase in pitch in IDS as compared to ADS, and lower vowel category variability in IDS itself, were related to toddlers' vocabulary. Our results point towards potentially facilitating roles of increase in parents’ pitch when talking to their toddlers and of consistency in vowel production in early word learning

    Models and analysis of vocal emissions for biomedical applications

    Get PDF
    This book of Proceedings collects the papers presented at the 3rd International Workshop on Models and Analysis of Vocal Emissions for Biomedical Applications, MAVEBA 2003, held 10-12 December 2003, Firenze, Italy. The workshop is organised every two years, and aims to stimulate contacts between specialists active in research and industrial developments, in the area of voice analysis for biomedical applications. The scope of the Workshop includes all aspects of voice modelling and analysis, ranging from fundamental research to all kinds of biomedical applications and related established and advanced technologies

    La poursuite auditive du mouvement acoustique vers l'acquisition des catégories phonétiques

    Get PDF
    Cette thèse explore le développement de la parole chez l'enfant durant la première année de vie. Elle vise précisément à caractériser le mécanisme à la base de l'acquisition des catégories phonétiques. Les nombreuses recherches dans le domaine offrent un portrait compréhensible de la trajectoire développementale de la perception de la parole. Les mécanismes de ce développement demeurent toutefois mal compris, particulièrement en ce qui a trait aux stratégies de l'enfant pour faire face au problème de la variabilité. En s'inspirant des théories de l'invariance chez l'adulte et sur la base de données empiriques chez l'enfant, cette thèse présente trois études visant à soutenir l'hypothèse selon laquelle la poursuite auditive du mouvement acoustique sous-tend l'acquisition des catégories phonétiques. Tout d'abord, deux études de modélisation simulent l'acquisition d'un type particulier de catégories phonétiques, les tons lexicaux, par le biais de réseaux neuronaux artificiels de type non supervisé. Ces simulations évaluent l'impact de diverses sources de variabilité et l'efficacité du mouvement acoustique sur la catégorisation des tons en chinois mandarin. Les résultats montrent que malgré un degré modéré de variabilité, les patrons de fréquence fondamentale présentent des régularités permettant de distinguer les quatre tons mandarins, sans information préalable quant au nombre de catégories à découvrir. Ceci suggère que le signal acoustique continu peut suffire à l'acquisition des tons lexicaux, sans besoin de faire appel à un ensemble de propriétés phonétiques abstraites. En présence de multiples sources de variabilité cependant, l'information spectrale du signal de surface n'entretient qu'une faible relation avec les sons de la parole recherchés. À l'opposé, l'information dynamique (les profils de vélocité de la fréquence fondamentale) permet d'atteindre un niveau de performance comparable à celui de l'adulte pour l'identification des tons. De plus, les quatre profils de vélocité découverts par le réseau neuronal correspondent aux quatre tons mandarins et permettent de caractériser les gestes invariants impliqués dans la production tonale. Afin de vérifier si l'enfant peut faire usage de cette stratégie dynamique pour normaliser le signal de la parole, une étude comportementale examine ensuite la capacité d'enfants préverbaux à percevoir des variations acoustiques reflétant une contrainte articulatoire. Une procédure de regard préférentiel est utilisée afin de vérifier si des enfants de 4 et 8 mois peuvent distinguer entre eux des patrons d'intonation possibles et impossibles sur le plan articulatoire et produits par un locuteur inconnu. Les résultats montrent que les enfants des deux groupes d'âge écoutent plus longuement les stimuli possibles, indiquant qu'ils peuvent détecter des variations subtiles de vélocité de la fréquence fondamentale et préfèrent les variations qui respectent la contrainte articulatoire. Ces résultats suggèrent qu'en bas âge déjà, les enfants peuvent calculer la première dérivée d'informations spectrales continues et réduire la variabilité interlocuteur à partir de la dynamique du signal acoustique. Le modèle proposé par les études de simulations permet d'établir l'efficacité de l'information dynamique dans le développement phonétique. L'étude comportementale permet pour sa part de vérifier la sensibilité à cette information chez l'enfant en bas âge. Ces résultats suggèrent que l'invariance se situe à la fois au niveau acoustique/auditif, moteur et développemental, et que la poursuite auditive du mouvement acoustique reflétant les gestes articulatoires représente une stratégie efficace pour l'acquisition des catégories phonétiques. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Catégories phonétiques, Apprentissage distributionnel, Perception de la parole, Production de la parole, Acquisition du langage, Réseaux neuronaux artificiels non-supervisé

    Proceedings

    Get PDF
    Proceedings of the 3rd Nordic Symposium on Multimodal Communication. Editors: Patrizia Paggio, Elisabeth Ahlsén, Jens Allwood, Kristiina Jokinen, Costanza Navarretta. NEALT Proceedings Series, Vol. 15 (2011), vi+87 pp. © 2011 The editors and contributors. Published by Northern European Association for Language Technology (NEALT) http://omilia.uio.no/nealt . Electronically published at Tartu University Library (Estonia) http://hdl.handle.net/10062/22532

    Can humain association norm evaluate latent semantic analysis?

    Get PDF
    This paper presents the comparison of word association norm created by a psycholinguistic experiment to association lists generated by algorithms operating on text corpora. We compare lists generated by Church and Hanks algorithm and lists generated by LSA algorithm. An argument is presented on how those automatically generated lists reflect real semantic relations

    Pan European Voice Conference - PEVOC 11

    Get PDF
    The Pan European VOice Conference (PEVOC) was born in 1995 and therefore in 2015 it celebrates the 20th anniversary of its establishment: an important milestone that clearly expresses the strength and interest of the scientific community for the topics of this conference. The most significant themes of PEVOC are singing pedagogy and art, but also occupational voice disorders, neurology, rehabilitation, image and video analysis. PEVOC takes place in different European cities every two years (www.pevoc.org). The PEVOC 11 conference includes a symposium of the Collegium Medicorum Theatri (www.comet collegium.com

    Models and Analysis of Vocal Emissions for Biomedical Applications

    Get PDF
    The MAVEBA Workshop proceedings, held on a biannual basis, collect the scientific papers presented both as oral and poster contributions, during the conference. The main subjects are: development of theoretical and mechanical models as an aid to the study of main phonatory dysfunctions, as well as the biomedical engineering methods for the analysis of voice signals and images, as a support to clinical diagnosis and classification of vocal pathologies
    corecore