7 research outputs found

    The Vocapia Research ASR Systems for Evalita 2011

    Get PDF
    Abstract. This document describes the speech recognizers submitted by Vocapia Research to the Evalita 2011 evaluation for the open unconstrained automatic speech recognition (ASR) task. The aim of this evaluation was to perform automatic speech recognition of parliament audio sessions in the Italian language. Two systems were submitted. The primary system has a single decoding pass and was optimized to run in real time. The contrastive system, developed in collaboration with LIMSI-CNRS, has two decoding passes and runs in about 5×RT. The case-insensitive word error rates (WER) of these systems on the Evalita development data are respectively 10.2% and 9.3%

    Accents régionaux en français : perception, analyse et modélisation à partir de grands corpus

    No full text
    Large oral corpuses including regional accents of French become today available: their data offer a good base to begin the study of accents. The tools of automatic treatment of the word allow to treat quantities of data more important than the samples that the experts linguists, phoneticians or dialectologues can examine. The French language is spoken in numerous countries worldwide. Our study concerns French of continental Europe, so excluding territories as Quebec, French-speaking Africa or still French overseas departments. We shall study regional accents of France, Belgium and Swiss French. What are the geographical limits inside which it is possible to assert that the speakers have the same accent? The answer to this question is not evident. We adopted the following terminology, adapted to our data: we shall speak about accent when we shall make reference to a precise localization such as a city or a given region; we shall use the term variety to indicate a vaster group. Although numerous studies describe the peculiarities of the accents of French, there are fewer works describing the variation of the language in general, and even less from the point of view of the automatic treatment. Numerous questions remain opened. How many accents can a listener native of French identify? What performances could an automatic system reach for an identical task? Can the indications described in the linguistic literature as characteristics of certain accents be measured in a automatic way? Are they relevant to differentiate varieties of French? Shall we discover the other measurable indications on our corpuses? These indications can be put in connection with the perception? During our thesis, we approached the study of regional varieties of French from the point of view of the human perception as well as of that of the automatic treatment of the word. Traditionally, count of studies in linguistics focus on the study of a precise accent. The automatic treatment of the word allows to envisage the joint study of several varieties of French: we wanted to exploit this possibility. We can so examine what differs from a variety in the other one, what is not possible when a single variety is described. We are lucky to have at our disposal a successful system of automatic alignment of the word. This tool, which allows to segment the sound flow following a phonemic transcription, can show itself precious for the study of the variation. The automatic treatment allows us to consider several styles of word and numerous speakers on quantities of important data with regard to those who were able to be used in linguistic studies led manually. We automatically extracted characteristics of the signal by various methods; we tried to validate our results on two corpuses with accents. The parameters which we held allowed to classify automatically the speakers of our two corpuses.De grands corpus oraux comprenant des accents régionaux du français deviennent aujourd'hui disponibles : leurs données offrent une bonne base pour entreprendre l'étude des accents. Les outils de traitement automatique de la parole permettent de traiter des quantités de données plus importantes que les échantillons que peuvent examiner les experts linguistes, phonéticiens ou dialectologues. La langue française est parlée dans de nombreux pays à travers le monde. Notre étude porte sur le français d'Europe continentale, excluant ainsi des territoires comme le Québec, l'Afrique francophone ou encore les départements d'Outre-Mer. Nous étudierons des accents régionaux de France, de Belgique et de Suisse romande. Quelles sont les limites géographiques à l'intérieur desquelles il est possible d'affirmer que les locuteurs ont le même accent ? La réponse à cette question n'est pas évidente. Nous avons adopté la terminologie suivante, adaptée à nos données : nous parlerons d'accent lorsque nous ferons référence à une localisation précise telle qu'une ville ou une région donnée ; nous utiliserons le terme variété pour désigner un ensemble plus vaste. Bien que de nombreuses études décrivent les particularités des accents du français, il existe moins de travaux décrivant la variation de la langue dans son ensemble, et encore moins du point de vue du traitement automatique. De nombreuses questions restent ouvertes. Combien d'accents un auditeur natif du français peut-il identifier ? Quelles performances un système automatique pourrait-il atteindre pour une tâche identique? Les indices décrits dans la littérature linguistique comme caractéristiques de certains accents peuvent-ils être mesurés de manière automatique ? Sont-ils pertinents pour différencier des variétés de français ? Découvrirons-nous d'autres indices mesurables sur nos corpus ? Ces indices pourront-ils être mis en relation avec la perception ? Au cours de notre thèse, nous avons abordé l'étude de variétés régionales du français du point de vue de la perception humaine aussi bien que de celui du traitement automatique de la parole. Traditionnellement, nombre d'études en linguistique se focalisent sur l'étude d'un accent précis. Le traitement automatique de la parole permet d'envisager l'étude conjointe de plusieurs variétés de français : nous avons voulu exploiter cette possibilité. Nous pourrons ainsi examiner ce qui diffère d'une variété à une autre, ce qui n'est pas possible lorsqu'une seule variété est décrite. Nous avons la chance d'avoir à notre disposition un système performant d'alignement automatique de la parole. Cet outil, qui permet de segmenter le flux sonore suivant une transcription phonémique, peut se révéler précieux pour l'étude de la variation. Le traitement automatique nous permet de prendre en considération plusieurs styles de parole et de nombreux locuteurs sur des quantités de données importantes par rapport à celles qui ont pu être utilisées dans des études linguistiques menées manuellement. Nous avons automatiquement extrait des caractéristiques du signal par différentes méthodes ; nous avons cherché à valider nos résultats sur deux corpus avec accents. Les paramètres que nous avons retenus ont permis de classifier automatiquement les locuteurs de nos deux corpus

    Accents régionaux en français (perception, analyse et modélisation à partir de grands corpus)

    No full text
    ORSAY-PARIS 11-BU Sciences (914712101) / SudocSudocFranceF

    Contribution of automatic speech processing to the study of Northern/Southern French

    No full text
    International audienceThis study focuses on the pronunciation of oral mid vowels and nasal vowels in Northern and Southern French. It is based on the investigation of a large corpus (30 h, over 100 speakers) of spoken French, enabled by recent advances in the area of automatic speech processing. The realisation of oral mid vowels is investigated through two approaches using automatic phone alignment. The first approach explores formant measurements whereas the second one investigates pronunciation variants such as /ɔ/∼/œ/∼/o/. The latter approach, simulating a categorical approach, was also used to question the realisation/deletion of schwas and the realisation of nasal vowels as sequences including a potentially oral vowel and a nasal consonant. In this article, five features are being addressed: /ɔ/ fronting in the North, /o/ opening within a subset of words (e.g. spelled with ‘au’ or ‘ô’), /ɛ/ closing within another subset of words (e.g. ending in -ais or -ait), schwa realisation and nasal vowel denasalisation in the South. The results of the two approaches to oral vowel quality converge, showing that these variables contrast Northern and Southern French. The contrast is sharper regarding the /O/ archiphoneme than the /E/ archiphoneme. It is also sharper regarding nasal vowels than the schwa. These empirical data are valuable in affording insight into sociophonetics and corpus phonology
    corecore