20 research outputs found

    Modélisation phonotactique de grandes classes phonétiques en vue d'une approche différenciée en identification automatique des langues

    Get PDF
    La plupart des systèmes d'Identification Automatique des langues accordent une grande importance au niveau phonotactique, en utilisant des modèles N-gram et des dictionnaires phonétiques de grande taille. Cependant, il est évident que l'introduction d'autres paramètres (acoustiques, phonétiques et prosodiques) améliorera les performances. Récemment, nous avons proposé un modèle phonétique alternatif qui exploite une discrimination voyelle/non-voyelle. Nous complétons ici cette étude en étudiant le niveau phonotactique et la différenciation en grandes classes phonétiques. Nous utilisons un modèle de langage n-multigramme sur des grandes classes phonétiques. Nous présentons ici une étude basée sur un décodeur de grandes classes phonétiques dans un but d'identification des langues

    Impact du trouble de la production de la parole sur les actes communicationnels de la vie quotidienne dans les cancers de la cavité buccale et de l'oropharynx

    Get PDF
    Cette recherche s'inscrit dans le champ de l'étude de l'impact des actes thérapeutiques sur la qualité de vie des patients. En cancérologie, la mesure de la qualité de vie est globale et ne permet pas de prendre en compte de façon spécifique les facteurs qui contribuent à son amélioration ou son altération. Dans le cadre des cancers de la cavité buccale et de l'oropharynx, qui touchent les structures en jeu dans l'articulation de la parole, un indice automatique de sévérité de la parole a été développé (score C2SI). Comme pour les scores issus de mesures perceptives, il n'est que faiblement corrélé aux scores de questionnaires de qualité vie génériques, et moyennement corrélé aux questionnaires de qualité de vie relatifs à la parole. Ce manque de corrélation nécessite de s'intéresser à l'étape intermédiaire entre sévérité du trouble de parole et qualité de vie, à savoir l'impact fonctionnel du déficit sur la communication des patients. Le retentissement sur les activités de communication du patient dépendra d'une part du niveau de complexité requis par la situation de communication (expression des besoins primaires ou d'un discours argumentatif, expression contextualisée permettant une meilleure prédictibilité de la parole attendue par les interlocuteurs), et d'autre part des besoins de communication selon les cercles sociaux du sujet (et de sa familiarité avec ses interlocuteurs). La prise en compte des facteurs associés (tels que les déficits associés, l'anxiété, la dépression ou l'état cognitif) permettra d'ajuster la mesure du profil de communication de ces patients. L'objectif est ainsi d'étudier si un score objectif de trouble de parole, obtenu par un traitement automatique du signal de parole, permet la détermination de profils d'impact fonctionnel sur la communication des patients traités pour un cancer de la cavité buccale ou de l'oropharynx. Cela pourrait permettre à terme de déterminer des seuils de niveau de sévérité de trouble de la parole selon l'impact fonctionnel sur les actes de communication, comme ce qui existe actuellement en audiométrie (niveaux de surdité selon leur impact fonctionnel pour les sujets). De plus, le développement d'outils objectifs innovants prenant en compte le handicap de communication permettra une amélioration des pratiques cliniques courantes, par une personnalisation de la prise en charge des patients, plus proche de leurs besoins fonctionnels quotidiens

    Génération de la « banane de la parole » en vue d'une évaluation objective de l'intelligibilité

    Get PDF
    L'aire du triangle vocalique, construit en mesurant les valeurs fréquentielles des deux premiers formants des voyelles prononcées, est l'une des mesures employées pour l'évaluation de l'intelligibilité de la parole [1,2]. Le placement des voyelles sur un graphique à deux axes, F1 et F2, permet d'interpréter les valeurs obtenues par rapport au triangle « standard ». Toutefois, les consonnes ont une importance cruciale dans l'intelligibilité de la parole. Stevens et Blumstein [3] affirmaient déjà en 1978 que le lieu d'articulation des consonnes occlusives serait identifiable par l'aspect global de leur représentation spectrale. En audiométrie, la « banane de la parole » est la représentation de la composante fréquentielle principale « standard » de chaque consonne, ainsi que de son intensité, permettant la délimitation d'une aire sur un audiogramme. Cette démarche a été réalisée pour les consonnes de l'anglais [4,5] et du Thaï [6]. Pour le français, Béchet et al. [7] ont calculé des aires consonantiques sur les occlusives sonores [b,d,g], représentant les trois lieux d'articulation les plus communs à l'échelle universelle [8], à l'aide des F2 et F3. Ainsi, nous avons tenté de construire la banane de la parole sur la base des 16 consonnes principales du français. Deux sujets sains (1 homme, 1 femme) ont produit ces 16 consonnes entourées des voyelles « extrêmes » [a,i,u] et des voyelles plus neutres [oe,ø], à trois reprises. En nous inspirant des travaux de Klangpornkun [6], nous avons employé le codage prédictif linéaire (LPC) pour identifier les pics spectraux proéminents des consonnes [9,10] dans les différents contextes vocaliques, et selon le genre du locuteur. En positionnant ces consonnes sur un graphique à deux axes - fréquence et intensité, nous avons ensuite généré la banane de la parole des consonnes du français. Notons qu'au vu de la variabilité interindividuelle des données acoustiques [11,12,13,14], le nombre de sujets dans cette étude préliminaire est limité. De nouveaux enregistrements dans des conditions standardisées sont en cours, visant à obtenir des extraits de parole d'au moins 2 hommes et 2 femmes des tranches d'âge 20-29, 30-39, 40-49, 50-59, 60-69 et 70+. Par l'automatisation de la construction d'une telle représentation des consonnes produites par le sujet, nous espérons pouvoir proposer un outil d'évaluation objective de l'intelligibilité de la parole

    Interests of using Automatic Speech recognition for Speech-Language Therapists

    No full text
    International audienceAutomatic Speech Recognition systems use signal processing and machine learning in order to achieve speech transcriptions. Some analogies can be done with human speech recognition, but ASR use models that are much less complex than human brain. After a brief history of evolution of systems, the state of the art of ASR systems will be presented. The performance on various type of speech will be analyzed over various speech processing engines (from industrial and academic). One of the advantages of such system consists of the rapid production of transcripts that can raise the perspectives of analyses. Examples on automatization of speech task of verbal fluency of EVOLEX project will be given: logopedists and researchers benefit from advances with this kind of automatic treatments. Other advantage consist of the objectivity that automatic processing can give. For example, in C2SI project, in assessments for measuring the intelligibility of patients treated for ENT cancer, ASR can provide such advantage of a pool of speech therapist evaluations. Therapists can have subjective judgments of general speech intelligibility as they are used to ear the modifications of patient voice. Many aspects of voice can be analyzed with automatic processing tools: acoustics, prosody, comprehensibility. The main inconvenient of using ASR systems concerns the reliability and usage limits. Severe pathological voices infer very bad performance of automatic systems. The enhanced of recognition on such voice is not easy as state of the art systems necessitate thousand of hours of labeled speech in order to complete the learning process. We do not dispose of such amount of atypical voiced in order to improve the performances of ASR systems. Analyses must rely on extraction of cues in a more specific way. Speech Processing becomes to a certain degree of maturity. The use of such systems can transform some methodologies in voice treatment. The impact of these techniques do not have to be discarded and therapists can benefit to these evolutions

    Intelligibilité de la parole et qualité de vie. Réflexions à partir des résultats de l'étude «carcinologic speech severity index»

    Get PDF
    National audienceLe projet C2SI avait pour objectif la création d'un indice automatique de sévérité de la parole applicable en cancérologie des voies aérodigestives, particulièrement aux cancers de la cavité buccale et du pharynx. Les équipes de recherche en informatique et en linguistique en association avec l'équipe de cliniciens ont pour cela : - créé un corpus de parole dont le traitement perceptif par l'oreille humaine a produit des mesures de sévérité, d'intelligibilité et de compréhensibilité de la parole ainsi que des évaluations de la prosodie. - recruté 87 patients et 42 sujets sains qui ont enregistré le corpus et rempli des questionnaire de qualité de vie relatif à la parole et un questionnaire générique de qualité de vie - traité automatiquement les données de parole du corpus en lien avec les résultats perceptifs Le score automatique C2SI construit par modélisation pour chacun des patients de notre échantillon intègre des paramètres acoustiques de la fréquence de la voix, des scores de vraisemblance automatique sur des taches de production de non-mots et de lecture de texte et d'autres modalités de traitement automatique sur la production de non-mots. Il produit un coefficient de corrélation de Spearman avec le score perceptif de sévérité à 0,87. A partir des résultats du traitement perceptif, après ajustement sur la classe d'âge et la région anatomique atteinte par la tumeur, le traitement chirurgical sur la tumeur altère significativement l'intelligibilité et la sévérité de la parole. Le volume tumoral a également un impact sur les performances d'intelligibilité. Ces résultats ouvrent des perspectives sur l'utilisation en pratique clinique du traitement automatique de la production de parole. En accord avec les travaux d'autres équipes, ils sont en faveur de l'utilisation de mesures automatiques optimisées par les techniques d'apprentissage automatique qui pourront intégrés d'autres paramètres pour prédire l'impact sur la qualité de vie des patients. Pour cela l'analyse des interactions entre les différentes dimensions de la production de la parole, la communication fonctionnelle et la qualité de vie sont en cours

    Comparaison de systèmes automatiques de reconnaissance grand vocabulaire appliqué à de la parole pathologique

    Get PDF
    International audienceLes performances actuelles des systèmes automatiques de reconnaissance de la parole grand vocabulaire permettent d'envisager des applications dans le domaine de la santé. Cela permettrait d'envisager des automatisations de divers tests (par exemple la fluence verbale) mais également d'apporter des informations objectives d'assez haut niveau issues de la voix (par exemple des mesures d'intelligibilité). Mais comment se comportent ces systèmes automatiques de reconnaissance de la parole sur des voix pathologiques ? Une solution entièrement automatique est- elle envisageable ? Dans le cadre d'une étude financée par la Société d'Accélération et de Transfert Technologique Toulouse Tech Transfert, une évaluation de systèmes de transcription académiques et industriels a été menée sur un corpus de parole de 385 minutes. Les données sont issues d'enregistrements produits dans différentes conditions : différents styles de parole, environnements bruités, locuteurs avec accents régionaux, personnes atteintes de cancers des voix aériennes supérieures présentant différents degrés de sévérité (extraits du corpus PARALOTHEQUE/C2SI (Astesano 2018)) et également des enregistrements de parole simulant différents degrés de presbyacousie (projet ARCHEAN/Projet AGILE IT (Fontan 2017)). Dix systèmes ont ainsi été évalués : Authôt (société française), Bing de Microsoft, Google, IBM ViaVoice, Nuance, Speechmatics, Sphinx, Wit ainsi que les laboratoires de recherche LIA et IRIT. Aucune adaptation particulière n'a été effectuée sur ce type de données. En effet, une phase d'adaptation permettrait de mettre en meilleure adéquation les modèles (acoustiques et de langage) utilisés par les systèmes de reconnaissance et les enregistrements qui leur sont soumis. Les performances ne sont bien évidemment pas aussi bonnes que celles obtenues sur des enregistrements de parole en conditions normales: environ 94 % de bonnes reconnaissances sur un corpus de 12.500 h d'entrainement (Chiu, 2018). Par exemple, le meilleur système atteint seulement 38 % de taux de reconnaissance de mots sur des voix cancer. Les résultats présentés ici sont donc « bruts » mais permettent d'avoir une vue sur les performances que nous pouvons obtenir directement en utilisant ces services/systèmes. Cela permet également de mesurer l'effort à fournir pour collecter et annoter des données en quantité suffisante pour adapter et rendre pleinement utilisables de tels systèmes afin de traiter des données de voix pathologique

    Construction of the automatic Carcinologic Speech Severity Index (C2SI) score

    No full text
    Introduction : The decrease in mortality and the lengthening of the life span following cancer make the sequelae management of the pathology and treatments a priority, The quality of life of patients treated for oral cavity or oropharynx cancer can be impaired because this pathology modifies the communication abilities of the patients due to its location. The assessment of speech disorders is currently based on perceptual assessments, subject to significant variability. The development of automatic speech treatments can optimize this approach. Objective : assess the validity of the different measurement scores of speech disorders, resulting from an automatic signal analysis, in patients treated for upper aerodigestive tract cancer, to build a global automatic score. Material and methods : our study is based on data from the C2SI projet (Carcinologic Speech Severity Index). 87 patients treated for oral cavity or oropharynx cancer, and 42 controlds performed various speech production tasks, targeting vocal production, prosody, comprehensibility, acoustico-phonetic decoding, and intelligibility. The audio recordings of these productions were then the subject of a human perceptive evaluation, but also of an automatic treatment with the aim of determining different scores. Self-questionnaires of quality of life and perception of speech disability were proposed to the participants to study the links between speech disorder ans perceived impact. Metadata about individual, clinical and treatment information were also collected as part of the search for explanatory factors for speech disorder in patients. Results : The severity of the perceptually assessed speech disorder during an image description task depends primarily on performing a surgical treatment. Among all the parameters that can be extracted from an automatic processing of the speech signal, 6 were selected because they are consistent with the data of the literature, they respect the construct validity by discriminating extreme groups (patients and controls : p-value of the Mann-Whitney U test: p 0, 25). A factor analysis confirms their structure in two domains: 2 parameters are part of the "voice" domain (interquartile difference of the fundamental frequency, and amplitude instability), and 4 are part of the "speech" domain (likelihood scores in acoustic-phonetic reading and decoding, row accumulation and anomalous acoustic-phonetic decoding rates). They are more reliable than perceptual evaluations with an intraclass correlation coefficient of 0.69 [0.62; 0.77] for the inter-judge reliability, and a good internal consistency (Cronbach's alphas greater than or equal to 0.90 in the "speech" domain). This led to the construction of an automatic score by modeling these parameters. It has good metric qualities. Conclusion : Automatic speech processing allows to define valid, reliable and reproducible parameters. It remains to test this score automatically on a new patient sample in the external validation framework. A simplification by reduction of tasks may be considered in routine clinical use

    Place of Automatic Speech Recognition for Assessing Speech Disorders

    No full text
    Présentation orale2019 Educational Committee for Phoniatrics Committee at International Association of Logopedics and PhoniatricsAutomatic speech recognition (ASR) is now present in our daily life but not so much in our practice for assessing speech disorders. The aim of this session is to point out what we can expect from the computer sciences at that time and in a near future

    Prédiction a priori de la qualité de la transcription automatique de la parole bruitée

    Get PDF
    National audienceDe nombreuses sources de variabilité dégradent les performances d'un système de Reconnaissance Automatique de la Parole (RAP). Dans cette étude, les dégradations provoquées par le type et le niveau de bruit sont explorées afin de prédire a priori la qualité de la RAP, i.e. avant même le décodage. Notre méthode se fonde sur une séparation spectrale de la parole et du bruit afin de produire un modèle de régression. L'expérimentation a été réalisée sur le corpus Wall street Journal, bruité avec le corpus NOISEX-92 (17 types de bruit) que nous appliquons à 9 niveaux de rapport signal à bruit. La méthode de régression proposée obtient moins de 8% d'erreur moyenne entre le Word Error Rate (WER) prédit et le WER réellement obtenu par le système de transcription automatique de la parole

    The Airbus Air Traffic Control speech recognition 2018 challenge: towards ATC automatic transcription and call sign detection

    Get PDF
    International audienceIn this paper, we describe the outcomes of the challenge organized and run by Airbus and partners in 2018 on Air Traffic Control (ATC) speech recognition. The challenge consisted of two tasks applied to English ATC speech: 1) automatic speech-to-text transcription, 2) call sign detection (CSD). The registered participants were provided with 40 hours of speech along with manual transcriptions. Twenty-two teams submitted predictions on a five hour evaluation set. ATC speech processing is challenging for several reasons: high speech rate, foreign-accented speech with a great diversity of accents, noisy communication channels. The best ranked team achieved a 7.62% Word Error Rate and a 82.41% CSD F1-score. Transcribing pilots' speech was found to be twice as harder as controllers' speech. Remaining issues towards solving ATC ASR are also discussed in the paper
    corecore