12 research outputs found

    Caractérisation de la nasalité en contexte de parole : séparation du signal oral et nasal pour la recherche des corrélats de la nasalité dans le signal oral. Application au français et au mandarin

    No full text
    Any language is built based on the phonological oppositions that make phonemes distinct from one another. Nasality is defined as the opening of the velopharyngeal port, and the nasality feature leads to minimal pairs in language. Phonologically present in 22 % of UPSID as a vowel, and 96 % as a consonant, this feature is massively represented in the world’s languages. Considering that the velum can move in desynchronization with the oral tract articulators, nasality pertains to a higher level of hierarchy in Clements’ (1985) theory. Due to its particular status in the french phonological inventory, it represents a fascinating object for research.The articulatori-acoustic complexity of the phenomenon often made coupled analyses more difficult, hence the idea of separating acoustically the oral and nasal signal. A calculation method has been developed based on the pattern called « eye of the nasals », quite recognizable in the oral part of a nasalized vowel. It determines the formants’ order 1 differentiate value as a function of time, based solely on the oral part of a nasal vowel and from there criteria of joint temporal evolution of the formants are defined, as a characteristic of the appearance of the « eye of the nasals », and therefore nasality. The high frequency pinching of the formants and the low frequency densification phenomena are what causes the appearance of the « eye of the nasals ». In addition, the oral – nasal components separation allows us to observe phenomena of nasal anticipation and perseverance in Taiwan Mandarin Chinese.The benefits expected of this laboratory phonology study are to provide linguistics research with a tool that can help better describe and comprehend phenomena related to the emergence of nasality in the world’s languages.Toute langue se construit par le jeu des oppositions phonologiques qui permettent de distinguer les phonèmes. Définie comme la caractéristique d’un phonème réalisé avec ouverture du port vélopharyngé, la nasalité donne lieu à des paires minimales dans la langue. La nasalité phonologique est présente massivement dans les langues du monde. 22 % des langues ont au moins une voyelle nasale et 96,5 % ont au moins une consonne nasale (données UPSID). En considérant la capacité de désychronisation du velum par rapport aux articulateurs buccaux, la nasalité est placée à un niveau supérieur de hiérarchie dans la théorie de Clements (1985), et par sa place dans l’inventaire phonologique du français, elle constitue un objet qui passionne la recherche.La complexité articulatori-acoustique du phénomène a souvent rendu difficiles les analyses couplées, d’où l’idée de séparer acoustiquement le signal oral et nasal. Partant ensuite de ce pattern appelé œil des nasales, très visible dans la partie orale d’une voyelle nasale, un procédé de calcul des dérivées de formants au cours du temps a été mis au point sur le signal séparé, de sorte que soient mesurées lesvariations conjointes des formants liées à l’apparition de l’œil des nasales. Le pincement ascendant des formants haute fréquence et le phénomène de densification basse fréquence est exploité en adossant des critères à la variation des formants, pourvu que les mesures soient précises et le traitement statistique de la variabilité pris en compte. La séparation acoustique oral – nasal permet également d’observer en phonologie de laboratoire les phénomènes d’anticipation et de persévérance du trait nasal, à l’image des mesures de durées de nasalisation différentes sur les codas nasales du mandarin de Taïwan.Le bénéfice attendu au niveau de la linguistique est de disposer d’un outil permettant de mieux décrire et comprendre les phénomènes d’émergence de la nasalité dans les langues du monde et d’en améliorer sa catégorisation

    Documentation, description et analyse phonologique du parler na (mosuo) de Shekua (Sichuan, Chine).

    No full text
    The present thesis constitutes a description and analysis of the dialect of the Na(Mosuo) language (Sino-Tibetan/Trans-Himalayan family) spoken in the village of Shekua. After a brief presentation of the segmental phonology (consonants and vowels), the main part of the analysis focuses on the tonal system. Based on previous work and first-hand immersion fieldwork, it is confirmed that the system is based on two tonal levels (High and Low). The system is explored in a systematic manner, starting out from the tones of nouns and progressing to those of compound nouns, verbs, and various morphosyntactic constructions. The analysis of the tonal system brings out categories that can only be revealed by combining information from several contexts. Seven categories are found for monosyllabic nouns, and no less than twelve for (monosyllabic) verbs. A contrastive use of the HL contour, not found among previously documented Na dialects, makes functional sense inside a two-level system, as it puts the available phonological units to maximum use. Three-level systems (contrasting H, M, and L) such as that of the village of Alawa (Yongning) allow for a wider combinatorial range, and hence are under less pressure to exploit every nook and cranny of this combinatorial range. This monograph on a Na tonal system, combined with a fully open access corpus, adds to the literature on a language whose traditional chain of transmission is undoubtedly threatened.La présente thèse constitue une description et analyse du dialecte de la langue na (famille sino-tibétaine/trans-himalayenne) parlé dans le village de Shekua. Après une rapide présentation de la phonologie segmentale (consonnes et voyelles), l’essentiel des analyses porte sur le système tonal. Sur la base de travaux précédents et d’une enquête de première main en immersion, il est confirmé que le système est organisé autour de deux hauteurs tonales (Haut et Bas). Le système fait l’objet d’une exploration systématique, du ton des noms à celui des composés nominaux, des verbes, et de diverses constructions morphosyntaxiques. L’analyse du système tonal met en évidence des catégories qui ne se dévoilent qu’en croisant les informations issues de plusieurs contextes : sept catégories pour les noms monosyllabiques, et pas moins de douze pour les verbes(monosyllabiques). L’exploitation du contour phonologique descendant HL, inconnue des parlers na documentés jusque-là, constitue au plan fonctionnel un élément d’équilibre d’un système à deux niveaux, qui enrichit les moyens phonologiques (contrastifs) à sa disposition. Les systèmes à trois niveaux (H, M, L) comme celui de Alawa (Yongning), possédant une combinatoire plus étendue, se trouvent sous une pression fonctionnellemoindre d’exploiter chaque recoin de cette combinatoire. Cette nouvelle monographie au sujet d’un système tonal na, qui se double d’un corpus entièrement publié en libre accès, vient enrichir la documentation au sujet d’une langue dont la chaîne de transmission traditionnelle est particulièrement menacée

    Documentation, Description and Phonological Analysis of the Shekua Variety of Na Language (Mosuo Language, Sichuan, China).

    No full text
    La présente thèse constitue une description et analyse du dialecte de la langue na (famille sino-tibétaine/trans-himalayenne) parlé dans le village de Shekua. Après une rapide présentation de la phonologie segmentale (consonnes et voyelles), l’essentiel des analyses porte sur le système tonal. Sur la base de travaux précédents et d’une enquête de première main en immersion, il est confirmé que le système est organisé autour de deux hauteurs tonales (Haut et Bas). Le système fait l’objet d’une exploration systématique, du ton des noms à celui des composés nominaux, des verbes, et de diverses constructions morphosyntaxiques. L’analyse du système tonal met en évidence des catégories qui ne se dévoilent qu’en croisant les informations issues de plusieurs contextes : sept catégories pour les noms monosyllabiques, et pas moins de douze pour les verbes(monosyllabiques). L’exploitation du contour phonologique descendant HL, inconnue des parlers na documentés jusque-là, constitue au plan fonctionnel un élément d’équilibre d’un système à deux niveaux, qui enrichit les moyens phonologiques (contrastifs) à sa disposition. Les systèmes à trois niveaux (H, M, L) comme celui de Alawa (Yongning), possédant une combinatoire plus étendue, se trouvent sous une pression fonctionnellemoindre d’exploiter chaque recoin de cette combinatoire. Cette nouvelle monographie au sujet d’un système tonal na, qui se double d’un corpus entièrement publié en libre accès, vient enrichir la documentation au sujet d’une langue dont la chaîne de transmission traditionnelle est particulièrement menacée.The present thesis constitutes a description and analysis of the dialect of the Na(Mosuo) language (Sino-Tibetan/Trans-Himalayan family) spoken in the village of Shekua. After a brief presentation of the segmental phonology (consonants and vowels), the main part of the analysis focuses on the tonal system. Based on previous work and first-hand immersion fieldwork, it is confirmed that the system is based on two tonal levels (High and Low). The system is explored in a systematic manner, starting out from the tones of nouns and progressing to those of compound nouns, verbs, and various morphosyntactic constructions. The analysis of the tonal system brings out categories that can only be revealed by combining information from several contexts. Seven categories are found for monosyllabic nouns, and no less than twelve for (monosyllabic) verbs. A contrastive use of the HL contour, not found among previously documented Na dialects, makes functional sense inside a two-level system, as it puts the available phonological units to maximum use. Three-level systems (contrasting H, M, and L) such as that of the village of Alawa (Yongning) allow for a wider combinatorial range, and hence are under less pressure to exploit every nook and cranny of this combinatorial range. This monograph on a Na tonal system, combined with a fully open access corpus, adds to the literature on a language whose traditional chain of transmission is undoubtedly threatened

    Establishing degrees of closeness between audio recordings along different dimensions using large-scale cross-lingual models

    No full text
    International audienceIn the highly constrained context of low-resource language studies, we explore vector representations of speech from a pretrained model to determine their level of abstraction with regard to the audio signal. We propose a new unsupervised method using ABX tests on audio recordings with carefully curated metadata to shed light on the type of information present in the representations. ABX tests determine whether the representations computed by a multilingual speech model encode a given characteristic. Three experiments are devised: one on room acoustics aspects, one on linguistic genre, and one on phonetic aspects. The results confirm that the representations extracted from recordings with different linguistic/extra-linguistic characteristics differ along the same lines. Embedding more audio signal in one vector better discriminates extra-linguistic characteristics, whereas shorter snippets are better to distinguish segmental information. The method is fully unsupervised, potentially opening new research avenues for comparative work on under-documented languages

    Intégration d'un système de reconnaissance neuronale des phonèmes et d'un modèle de langue simple : une chaîne de traitement pour les scénarios à faibles ressources

    No full text
    International audienceRecently, several works have shown that fine-tuning a multilingual model of speech representation (typically XLS-R) with very small amounts of annotated data allows for the development of phonemic transcription systems of sufficient quality to help field linguists in their efforts to document the languages of the world. In this work, we explain how the quality of these systems can be improved by a very simple method, namely integrating them with a language model. Our experiments on an endangered language, Japhug (Trans-Himalayan/Tibeto-Burman), show that this approach can significantly reduce the WER, reaching the stage of automatic recognition of entire words.Des travaux récents montrent que la spécialisation (*fine-tuning*) d'un modèle multilingue de représentation de la parole (tel que XLS-R) au moyen de très petites quantités de données annotées permet d'obtenir des systèmes de transcription phonémique de qualité suffisante pour être utile aux linguistes de terrain dans leur entreprise de documentation des langues du monde. Dans ce travail, nous exposons une méthode très simple qui permet d'améliorer la qualité de ces systèmes : leur intégration avec un modèle de langue. Nos expériences sur une langue menacée, le japhug (famille trans-himalayenne/tibéto-birmane), montrent que cette approche peut réduire significativement le taux d'erreur sur les mots (WER: *Word Error Rate*), et mener au stade de la reconnaissance automatique de mots entiers

    Spécialisation de modèles neuronaux pour la transcription phonémique : premiers pas vers la reconnaissance de mots pour les langues rares

    No full text
    International audienceWe describe the latest results we have obtained in the development of NLP (Natural Language Processing) tools to reduce the transcription and annotation workload of field linguists, as part of workflows to document and describe the world's languages. We show how a new deep learning approach based on the fine-tuning of a generic representation model allows to significantly improve the quality of automatic phonemic transcription, and, more significantly, to take a first step towards automatic word recognition for low-resource languages.Nous décrivons les résultats les plus récents que nous avons obtenus dans le cadre du développement d'outils de Traitement Automatique des Langues (TAL) pour réduire l'effort de transcription et d'annotation que doivent fournir les linguistes « de terrain » au fil de leur travail de documentation et description de langues rares. En particulier, nous montrons comment une nouvelle approche neuronale fondée sur la spécialisation d'un modèle de représentation générique permet d'améliorer significativement la qualité de la transcription phonémique automatique, et surtout d'envisager la reconnaissance automatique de mots, approchant ainsi du stade de la reconnaissance automatique de la parole au sens plein du terme

    Deux corpus audio transcrits de langues rares (japhug et na) normalisés en vue d'expériences en traitement du signal

    No full text
    International audienceTwo audio corpora of minority languages of China (Japhug and Na), with transcriptions, are proposed as reference data sets for experiments in Natural Language Processing. The data, collected and transcribed in the course of immersion fieldwork, amount to a total of 1,907 minutes in Japhug and 209 minutes in Na. By making them available in an easily accessible and usable form, we hope to facilitate the development and deployment of state-of-the-art NLP tools for the full range of human languages. We present a tool for assembling datasets from the Pangloss Collection (an open archive) in a way that ensures full reproducibility of experiments conducted on these data.Deux corpus audio transcrits de langues « rares » (langues minoritaires de Chine : japhug et na) sont proposés comme corpus de référence pour des expériences en traitement automatique des langues. Les données, collectées et transcrites au fil d'enquêtes de terrain en immersion, s'élèvent à un total de 1907 minutes d'audio transcrit en japhug et de 209 minutes en na. Nous décrivons les traitements effectués pour les mettre à disposition sous une forme aisément accessible et utilisable, et présentons un outil qui permet d'assembler divers jeux de données de la collection Pangloss (archive ouverte de langues rares) en assurant la reproductibilité des expériences menées sur ces données

    Fine-tuning pre-trained models for Automatic Speech Recognition: experiments on a fieldwork corpus of Japhug (Trans-Himalayan family)

    No full text
    International audienceThis is a report on results obtained in the development of speech recognition tools intended to support linguistic documentation efforts. The test case is an extensive fieldwork corpus of Japhug, an endangered language of the Trans-Himalayan (Sino-Tibetan) family. The goal is to reduce the transcription workload of field linguists. The method used is a deep learning approach based on the language-specific tuning of a generic pre-trained representation model, XLS-R, using a Transformer architecture. We note difficulties in implementation, in terms of learning stability. But this approach brings significant improvements nonetheless. The quality of phonemic transcription is improved over earlier experiments; and most significantly, the new approach allows for reaching the stage of automatic word recognition. Subjective evaluation of the tool by the author of the training data confirms the usefulness of this approach

    Fine-tuning pre-trained models for Automatic Speech Recognition: experiments on a fieldwork corpus of Japhug (Trans-Himalayan family)

    No full text
    International audienceThis is a report on results obtained in the development of speech recognition tools intended to support linguistic documentation efforts. The test case is an extensive fieldwork corpus of Japhug, an endangered language of the Trans-Himalayan (Sino-Tibetan) family. The goal is to reduce the transcription workload of field linguists. The method used is a deep learning approach based on the language-specific tuning of a generic pre-trained representation model, XLS-R, using a Transformer architecture. We note difficulties in implementation, in terms of learning stability. But this approach brings significant improvements nonetheless. The quality of phonemic transcription is improved over earlier experiments; and most significantly, the new approach allows for reaching the stage of automatic word recognition. Subjective evaluation of the tool by the author of the training data confirms the usefulness of this approach
    corecore