130 research outputs found

    Estimating underlying articulatory targets of Thai vowels by using deep learning based on generating synthetic samples from a 3D vocal tract model and data augmentation

    Get PDF
    Representation learning is one of the fundamental issues in modeling articulatory-based speech synthesis using target-driven models. This paper proposes a computational strategy for learning underlying articulatory targets from a 3D articulatory speech synthesis model using a bi-directional long short-term memory recurrent neural network based on a small set of representative seed samples. From a seeding set, a larger training set was generated that provided richer contextual variations for the model to learn. The deep learning model for acoustic-to-target mapping was then trained to model the inverse relation of the articulation process. This method allows the trained model to map the given acoustic data onto the articulatory target parameters which can then be used to identify the distribution based on linguistic contexts. The model was evaluated based on its effectiveness in mapping acoustics to articulation, and the perceptual accuracy of speech reproduced from the estimated articulation. The results indicate that the model can accurately imitate speech with a high degree of phonemic precision

    Tone and intonation: introductory notes and practical recommendations

    Get PDF
    International audienceThe present article aims to propose a simple introduction to the topics of (i) lexical tone, (ii) intonation, and (iii) tone-intonation interactions, with practical recommendations for students. It builds on the authors' observations on various languages, tonal and non-tonal; much of the evidence reviewed concerns tonal languages of Asia. With a view to providing beginners with an adequate methodological apparatus for studying tone and intonation, the present notes emphasize two salient dimensions of linguistic diversity. The first is the nature of the lexical tones: we review the classical distinction between (i) contour tones that can be analyzed into sequences of level tones, and (ii) contour tones that are non-decomposable (phonetically complex). A second dimension of diversity is the presence or absence of intonational tones: tones of intonational origin that are formally identical with lexical (and morphological) tones

    La poursuite auditive du mouvement acoustique vers l'acquisition des catégories phonétiques

    Get PDF
    Cette thèse explore le développement de la parole chez l'enfant durant la première année de vie. Elle vise précisément à caractériser le mécanisme à la base de l'acquisition des catégories phonétiques. Les nombreuses recherches dans le domaine offrent un portrait compréhensible de la trajectoire développementale de la perception de la parole. Les mécanismes de ce développement demeurent toutefois mal compris, particulièrement en ce qui a trait aux stratégies de l'enfant pour faire face au problème de la variabilité. En s'inspirant des théories de l'invariance chez l'adulte et sur la base de données empiriques chez l'enfant, cette thèse présente trois études visant à soutenir l'hypothèse selon laquelle la poursuite auditive du mouvement acoustique sous-tend l'acquisition des catégories phonétiques. Tout d'abord, deux études de modélisation simulent l'acquisition d'un type particulier de catégories phonétiques, les tons lexicaux, par le biais de réseaux neuronaux artificiels de type non supervisé. Ces simulations évaluent l'impact de diverses sources de variabilité et l'efficacité du mouvement acoustique sur la catégorisation des tons en chinois mandarin. Les résultats montrent que malgré un degré modéré de variabilité, les patrons de fréquence fondamentale présentent des régularités permettant de distinguer les quatre tons mandarins, sans information préalable quant au nombre de catégories à découvrir. Ceci suggère que le signal acoustique continu peut suffire à l'acquisition des tons lexicaux, sans besoin de faire appel à un ensemble de propriétés phonétiques abstraites. En présence de multiples sources de variabilité cependant, l'information spectrale du signal de surface n'entretient qu'une faible relation avec les sons de la parole recherchés. À l'opposé, l'information dynamique (les profils de vélocité de la fréquence fondamentale) permet d'atteindre un niveau de performance comparable à celui de l'adulte pour l'identification des tons. De plus, les quatre profils de vélocité découverts par le réseau neuronal correspondent aux quatre tons mandarins et permettent de caractériser les gestes invariants impliqués dans la production tonale. Afin de vérifier si l'enfant peut faire usage de cette stratégie dynamique pour normaliser le signal de la parole, une étude comportementale examine ensuite la capacité d'enfants préverbaux à percevoir des variations acoustiques reflétant une contrainte articulatoire. Une procédure de regard préférentiel est utilisée afin de vérifier si des enfants de 4 et 8 mois peuvent distinguer entre eux des patrons d'intonation possibles et impossibles sur le plan articulatoire et produits par un locuteur inconnu. Les résultats montrent que les enfants des deux groupes d'âge écoutent plus longuement les stimuli possibles, indiquant qu'ils peuvent détecter des variations subtiles de vélocité de la fréquence fondamentale et préfèrent les variations qui respectent la contrainte articulatoire. Ces résultats suggèrent qu'en bas âge déjà, les enfants peuvent calculer la première dérivée d'informations spectrales continues et réduire la variabilité interlocuteur à partir de la dynamique du signal acoustique. Le modèle proposé par les études de simulations permet d'établir l'efficacité de l'information dynamique dans le développement phonétique. L'étude comportementale permet pour sa part de vérifier la sensibilité à cette information chez l'enfant en bas âge. Ces résultats suggèrent que l'invariance se situe à la fois au niveau acoustique/auditif, moteur et développemental, et que la poursuite auditive du mouvement acoustique reflétant les gestes articulatoires représente une stratégie efficace pour l'acquisition des catégories phonétiques. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Catégories phonétiques, Apprentissage distributionnel, Perception de la parole, Production de la parole, Acquisition du langage, Réseaux neuronaux artificiels non-supervisé

    Analyzing Prosody with Legendre Polynomial Coefficients

    Full text link
    This investigation demonstrates the effectiveness of Legendre polynomial coefficients representing prosodic contours within the context of two different tasks: nativeness classification and sarcasm detection. By making use of accurate representations of prosodic contours to answer fundamental linguistic questions, we contribute significantly to the body of research focused on analyzing prosody in linguistics as well as modeling prosody for machine learning tasks. Using Legendre polynomial coefficient representations of prosodic contours, we answer prosodic questions about differences in prosody between native English speakers and non-native English speakers whose first language is Mandarin. We also learn more about prosodic qualities of sarcastic speech. We additionally perform machine learning classification for both tasks, (achieving an accuracy of 72.3% for nativeness classification, and achieving 81.57% for sarcasm detection). We recommend that linguists looking to analyze prosodic contours make use of Legendre polynomial coefficients modeling; the accuracy and quality of the resulting prosodic contour representations makes them highly interpretable for linguistic analysis

    Unsupervised learning for text-to-speech synthesis

    Get PDF
    This thesis introduces a general method for incorporating the distributional analysis of textual and linguistic objects into text-to-speech (TTS) conversion systems. Conventional TTS conversion uses intermediate layers of representation to bridge the gap between text and speech. Collecting the annotated data needed to produce these intermediate layers is a far from trivial task, possibly prohibitively so for languages in which no such resources are in existence. Distributional analysis, in contrast, proceeds in an unsupervised manner, and so enables the creation of systems using textual data that are not annotated. The method therefore aids the building of systems for languages in which conventional linguistic resources are scarce, but is not restricted to these languages. The distributional analysis proposed here places the textual objects analysed in a continuous-valued space, rather than specifying a hard categorisation of those objects. This space is then partitioned during the training of acoustic models for synthesis, so that the models generalise over objects' surface forms in a way that is acoustically relevant. The method is applied to three levels of textual analysis: to the characterisation of sub-syllabic units, word units and utterances. Entire systems for three languages (English, Finnish and Romanian) are built with no reliance on manually labelled data or language-specific expertise. Results of a subjective evaluation are presented

    Modelling the perception and composition of Western musical harmony.

    Get PDF
    PhD ThesisHarmony is a fundamental structuring principle in Western music, determining how simultaneously occurring musical notes combine to form chords, and how successions of chords combine to form chord progressions. Harmony is interesting to psychologists because it unites many core features of auditory perception and cognition, such as pitch perception, auditory scene analysis, and statistical learning. A current challenge is to formalise our psychological understanding of harmony through computational modelling. Here we detail computational studies of three core dimensions of harmony: consonance, harmonic expectation, and voice leading. These studies develop and evaluate computational models of the psychoacoustic and cognitive processes involved in harmony perception, and quantitatively model how these processes contribute to music composition. Through these studies we examine long-standing issues in music psychology, such as the relative contributions of roughness and harmonicity to consonance perception, the roles of low-level psychoacoustic and high-level cognitive processes in harmony perception, and the probabilistic nature of harmonic expectation. We also develop cognitively informed computational models that are capable of both analysing existing music and generating new music, with potential applications in computational creativity, music informatics, and music psychology. This thesis is accompanied by a collection of open-source software packages that implement the models developed and evaluated here, which we hope will support future research into the psychological foundations of musical harmony.
    • …
    corecore