565 research outputs found

    Approches complémentaires pour l'évaluation des dysphonies : bilan méthodologique et perspectives

    No full text
    Autorisation No.3240 : TIPA est la revue du Laboratoire Parole et LangageThis paper describes comparative studies of voice quality assessment based on complementary approaches. The first study was undertaken on 449 speakers (including 391 dysphonic patients) whose voice quality was evaluated in parallel by a perceptual judgment and objective measurements on acoustic and aerodynamic data. Results showed that a non-linear combination of 7 parameters allowed the classification of 82% voice samples in the same grade as the jury. The second study relates to the adaptation of Automatic Speaker Recognition (ASR) techniques to pathological voice assessment. The system designed for this particular task relies on a GMM based approach, which is the state-of-the-art for ASR. Experiments conducted on 80 female voices provide promising results, underlining the interest of such an approach. We benefit from the multiplicity of theses techniques to evaluate the methodological situation which points fundamental differences between these complementary approaches (bottom-up vs. top-down, global vs. analytic). We also discuss some theoretical aspects about relationship between acoustic measurement and perceptual mechanisms which are often forgotten in the performance race.Nous proposons un bilan méthodologique fondé sur différentes expériences effectuées dans notre groupe de travail sur l'évaluation des troubles de la voix. Un premier axe d'étude a mis en parallèle un jugement perceptif de la qualité vocale de 449 participants (incluant 391 patients dysphoniques) avec des mesures instrumentales acoustique et aérodynamique effectuées sur le même groupe. Les résultats montrent que la combinaison de 7 paramètres instrumentaux permettent de classer 82 % des participants dans le même groupe que le jugement perceptif. Le deuxième axe d'étude, complémentaire, concerne l'adaptation de techniques de Reconnaissance Automatique du Locuteur à la catégorisation des dysphonies. Le système développé pour cette tâche est fondé sur une approche à base de GMM. Les expériences conduites sur 80 voix de femmes ont fourni des résultats plus que prometteurs et ont souligné l'intérêt d'une telle approche originale. Nous profiterons de la multiplicité de ces moyens expérimentaux pour faire un point méthodologique qui pointe des différences fondamentales entre ces approches complémentaires (montante vs descendante, globale vs analytique). Nous discuterons aussi d'aspects théoriques notamment sur les relations entre mesures physiques et mécanismes de perception, considérations qui sont souvent mises de côté du fait de la course à la performance

    Etude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l'adaptation des systèmes de RAP (Assessment of the acoustic models performance in the ageing voice case for ASR system adaptation) [in French]

    No full text
    International audienceOur study concerns the integration of an automatic speech recognition system in a social inclusion product designed for elderly people. Due to voice change with age, speech recognition systems present higher word error rate when speech is uttered by elderly speakers compared to when non-aged voice is considered. To characterise these differences in speech recognition performance, we studied which phonemes lead to the lowest recognition rate in the elderly speakers with respect to the younger ones and we collected a specific corpus to make the adaptation of the acoustic models possible. The results show that some phonemes (such as plosives) are more specifically affected by age than others. Finally, the corpus was used to adapt the ASR to the elderly population which resulted in a 5% decrease of the word error rate.Notre étude s'inscrit dans le cadre de l'intégration d'un système de reconnaissance de la parole pour un produit de télélien social pour personnes âgées. Du fait de l'évolution des caractéristiques acoustiques de la voix en fonction de l'âge, les taux d'erreurs de mots des systèmes de reconnais- sance automatique de la parole sont plus élevés lors du décodage de parole pour des personnes âgées que non-âgées. Notre étude consiste à caractériser les différences de comportement d'un système de reconnaissance pour les personnes âgées et non-âgées, définir les phonèmes les moins bien reconnus, et recueillir un corpus spécifique pour permettre l'adaptation des modèles acoustiques à la voix âgée. Les résultats montrent que certains phonèmes tels que les plosives sont plus spécifiquement affectés par l'âge, et que le recueil des données ciblées permet de procéder à une adaptation à la voix âgée qui diminue de 5% le taux d'erreurs de mots

    Un système à base de connaissances pour une communication parlée personne-système multilingue

    Get PDF
    La tâche de reconnaissance automatique de la parole (RAP), qui est au coeur de la communication parlée Personne-Système, peut être vue comme une gestion de l’information issue de la microstructure acoustique du signal vocal pour la transformer en une information représentée par la macrostructure phonétique implicite. La correspondance avec le moins d’erreurs possible de ces deux structures nécessite une intégration de connaissances a priori sur la macrostructure phonétique dans des systèmes dédiés à la gestion de l’information acoustico-phonétique. Dans cet article, nous abordons des aspects liés tant à la gestion de l’information phonétique véhiculée par le signal vocal qu’à la topologie de systèmes experts capables de conduire des processus de reconnaissance phonémique multilingue. La démarche que nous proposons consiste à enrichir la base de connaissances de ces experts par des indices représentatifs de la majorité des langues humaines afin de rehausser les performances d’identification des macro-classes et des traits phonétiques divers. Les résultats obtenus sur des corpus de logatomes et de phrases en langues française et arabe montrent qu’il est possible d’orienter la conception des systèmes vers une unification du processus de reconnaissance pour l’adapter à une identification phonémique multilingue.Automatic Speech Recognition (ASR) is at the heart of Man-Machine speech communication. It can be seen as a management of the information emanating from the speech acoustical microstructure. This process aims to transform this information in such a way that it can be represented by the phonetic implicit macrostructure. The effective matching between the two structures requires the integration into expert systems, of an a priori knowledge about the phonetic macrostructures. These expert systems are dedicated to the management of acoustic-phonetic information. This paper investigates aspects linked either to the management of phonetic information contained in the speech signal, or to the topology of expert systems that are capable of conducting a multilingual phonemic recognition process. The proposed method consists of feeding the knowledge base of these expert systems with indicative parameters representing the major human languages in order to enhance the identification performance of phonetic macro-classes and features. The results of experiments carried out on corpora composed of both French and Arabic utterances show that it is possible to conceive systems based on the concept of unified recognition processes dedicated to multilingual phonetic identification

    JEP-TALN-RECITAL 2012, Atelier ILADI 2012: Interactions Langagières pour personnes Agées Dans les habitats Intelligents

    No full text
    National audiencePour résoudre le problème du maintien à domicile de la population vieillissante, les solutions retenues par les pays industrialisés s'appuient sur un développement massif des Technologies de l'Information et de la Communication (TIC) au travers de l'Assistance à la Vie Autonome (AVA) ou Ambient Assisted Living (AAL). Un des plus grands défis est de concevoir des habitats intelligents pour la santé qui anticipent les besoins de leurs habitants tout en maintenant leur sécurité et leur confort. Les Technologies du Traitement Automatique du Langage Naturel (TALN) et de la Parole ont un rôle significatif à jouer pour assister quotidiennement les personnes âgées et rendre possible leur participation à la " société de l'information " car elles se trouvent au cœur de la communication humaine. En effet, les technologies de la langue peuvent permettre une interaction naturelle (reconnaissance automatique de la parole, synthèse vocale, dialogue) avec les objets communicants et les maisons intelligentes. Cette interaction ouvre un grand nombre de perspectives notamment dans le domaine de la communication sociale et empathique (perception et génération d'émotions, agents conversationnels), de l'analyse de capacités langagières (accès lexical, paroles pathologiques), de la modélisation et de l'analyse de la production langagière de la personne âgée (modèle acoustique, modèle de langage), de la stimulation cognitive, de la détection de situations de détresse, de l'accès aux documents numériques, etc. Ces dernières années, un nombre croissant d'événements scientifiques ont eu lieu afin de réunir la communauté internationale autour de ces problématiques, nous pouvons citer notamment l'atelier ACL " Speech and Language Processing for Assistive Technologies (SLPAT 2011) " ou l'atelier de PERVASIVE 2012 " Language Technology in Pervasive Computing (LTPC 2012) " qui témoignent de la vitalité de ce domaine pour les technologies de la langue. C'est afin de réunir les chercheurs francophones s'intéressant à l'application des technologies de la langue dans le domaine de l'assistance à la vie autonome et désireux de les promouvoir que l'atelier " Interactions Langagières pour personnes Âgées Dans les habitats Intelligents (ILADI2012) " a été créé pour présenter et discuter des idées, projets et travaux en cours. Cet atelier se situe à l'intersection des thématiques des conférences spécialisées dans les domaines de la gérontechnologie, de l'intelligence artificielle, du traitement automatique de la parole et du langage naturel. Il est ouvert à la présentation de travaux de chercheurs et doctorants portant sur l'un ou plusieurs des thèmes suivants : reconnaissance de la parole en conditions distantes (rehaussement de la parole dans le bruit, séparation de sources, environnement multicapteur) ; compréhension, modélisation ou reconnaissance de la voix âgée ; applications de la parole pour le maintien à domicile (identification du locuteur, reconnaissance de mots-clés / ordre domotiques, synthèse, dialogue) ; reconnaissance des signes avant-coureurs d'une perte de capacité langagière, etc. La première édition de cet atelier s'est tenue en juin 2012 à Grenoble durant la conférence JEP-TALN-RECITAL 2012, avec le soutien des projets ANR Sweet-Home (ANR-2009-VERS- 011) et Cirdo (ANR-2010-TECS-012), ainsi que le support du pôle de compétitivité international MINALOGIC. Cinq soumissions présentant des travaux dans les différents champs cités ont été retenues. Les présentations correspondantes ont été précédées d'une conférence d'Alain Franco, Professeur Universitaire et Praticien Hospitalier au CHU de Nice et Président du CNR-Santé sur les nouveaux paradigmes et technologies pour la santé et l'autonomie. L'atelier c'est terminé par une discussion ouverte sur le rôle des technologies de la langue dans le cadre du maintien à domicile des personnes âgées avec la participation de plusieurs acteurs locaux. Nous remercions chaleureusement les participants à l'atelier et les membres du comité de programme, ainsi que l'ensemble du comité d'organisation de la conférence JEP-TALN- RECITAL 2012, sans lesquels cet évènement n'aurait pu se tenir. Michel Vacher & François Portet, équipe GETALP du LI

    Acquisition et reconnaissance automatique d'expressions et d'appels vocaux dans un habitat

    No full text
    International audienceThis paper presents a system to recognize calls for help in the home of seniors to provide reassurance and assistance. The system is using an ASR which must operate with distant and expressive speech. Moreover, privacy is ensured by running the decoding on-site and not on a remote server. Furthermore the system was biased to recognize only set of sentences. The system has been evaluated in a smart space reproducing a typical living room where 17 participants played scenarios including falls. The results showed a promising error rate, 29%, while emphasizing the challenges of the task.Cet article présente un système capable de reconnaître les appels à l'aide de personnes âgées vivant à domicile afin de leur fournir une assistance. Le système utilise une technologie de Reconnaissance Automatique de la Parole (RAP) qui doit fonctionner en conditions de parole distante et avec de la parole expressive. Pour garantir l'intimité, le système s'exécute localement et ne reconnaît que des phrases prédéfinies. Le système a été évalué par 17 participants jouant des scénarios incluant des chutes dans un Living lab reproduisant un salon. Le taux d'erreur de détection obtenu, 29%, est encourageant et souligne les défis à surmonter pour cette tâche

    Projet RAIVES (Recherche Automatique d'Informations Verbales Et Sonores) vers l'extraction et la structuration de données radiophoniques sur Internet

    Get PDF
    Rapport de contrat.Internet est devenu un vecteur important de la communication. Il permet la diffusion et l'échange d'un volume croissant de données. Il ne s'agit donc plus seulement de collecter des masses importantes " d'informations électroniques ", mais surtout de les répertorier, de les classer pour faciliter l'accès à l'information utile. Une information, aussi importante soit-elle, sur un site non répertorié, est méconnue. Il ne faut donc pas négliger la part du " Web invisible ". Le Web invisible peut se définir comme l'ensemble des informations non indexées, soit parce qu'elles ne sont pas répertoriées, soit parce que les pages les contenant sont dynamiques, soit encore parce que leur nature n'est pas ou difficilement indexable. En effet, la plupart des moteurs de recherche se basent sur une analyse textuelle du contenu des pages, mais ne peuvent prendre en compte le contenu des documents sonores ou visuels. Il faut donc fournir un ensemble d'éléments descripteurs du contenu pour structurer les documents afin que l'information soit accessible aux moteurs de recherche. S'agissant de documents sonores, le but de notre projet est donc, d'une part, d'extraire ces informations et, d'autre part, de fournir une structuration des documents afin de faciliter l'accès au contenu. L'indexation par le contenu de documents sonores s'appuie sur des techniques utilisées en traitement automatique de la parole, mais doit être distinguée de l'alignement automatique d'un texte sur un flux sonore ou encore de la reconnaissance automatique de la parole. Ce serait alors réduire le contenu d'un document sonore à sa seule composante verbale. Or, la composante non-verbale d'un document sonore est importante et correspond souvent à une structuration particulière du document. Par exemple, dans le cas de documents radiophoniques, on voit l'alternance de parole et de musique, plus particulièrement de jingles, pour annoncer les informations. Ainsi, nous pouvons considérer un ensemble de descripteurs du contenu d'un document radiophonique : segments de Parole/Musique, " sons clés ", langue, changements de locuteurs associés à une éventuelle identification de ces locuteurs, mots clés et thèmes. Cet ensemble peut être bien entendu enrichi. Extraire l'ensemble des descripteurs est sans doute suffisant pour référencer un document sur Internet. Mais il est intéressant d'aller plus loin et de donner accès à des parties précises du document. Chaque descripteur doit être associé à un marqueur temporel qui donne accès directement à l'information. Cependant, l'ensemble des descripteurs appartenant à des niveaux de description différents, leur organisation n'est pas linéaire dans le temps : un même locuteur peut parler en deux langues sur un même segment de parole, ou encore sur un segment de parole dans une langue donnée, plusieurs locuteurs peuvent intervenir. Il faut donc aussi être capable de fournir une structuration de l'information sur différents niveaux de représentation

    Comparaison de mesures perceptives et automatiques de l'intelligibilité : application à de la parole simulant la presbyacousie

    Get PDF
    International audienceCet article présente une étude comparative entre mesures perceptives et mesures automatiques de l'intelligibilité de la parole sur de la parole dégradée par une simulation de la presbyacousie. L'objectif est de répondre à la question : peut-on se rapprocher d'une mesure perceptive humaine en utilisant un système de reconnaissance automatique de la parole ? Pour ce faire, un corpus de parole dégradée a été spécifiquement constitué puis utilisé pour des tests perceptifs et enfin soumis à un traitement automatique. De fortes corrélations entre les performances humaines et les scores de reconnaissance automatique sont observées

    Un changement de voix affecte t-il le processus de reconnaissance des mots parlés?

    Get PDF
    International audienceAccording to McLennan and Luce [1], variability in talker identity affects spoken word recognition when processing is slow and effortful. In the present study, we tested this hypothesis by manipulating the neighbourhood density of target words in a repetition priming experiment. Both for words with few and many phonological neighbours, the amount of priming for repeated words was not affected by a voice change. Such observation supports the claim that abstract representations exist and underlie spoken word recognition.Dans cette étude, nous avons examiné l'impact d'un changement de voix sur le processus de reconnaissance des mots parlés

    La perception de la parole

    No full text
    Ce chapitre a pour objectif de présenter un aperçu général des recherches sur la perception de la parole, dans leur relation avec la phonétique et la phonologie. Nous commençons par exposer les travaux visant à explorer les processus employés dans l'identification des phonèmes. Nous abordons ensuite les questions relatives à la forme et à la fonction des représentations phonétiques et phonologiques dans le traitement de la parole

    La perception de la parole

    No full text
    Ce chapitre a pour objectif de présenter un aperçu général des recherches sur la perception de la parole, dans leur relation avec la phonétique et la phonologie. Nous commençons par exposer les travaux visant à explorer les processus employés dans l'identification des phonèmes. Nous abordons ensuite les questions relatives à la forme et à la fonction des représentations phonétiques et phonologiques dans le traitement de la parole
    • …
    corecore