51 research outputs found

    Analyse Phonétique dans le Domaine Fréquentiel pour la Classification des Voix Dysphoniques

    No full text
    International audienceConcerned with pathological voice assessment, this paper aims at characterizing dysphonia in the frequency domain for a better understanding of related phenomena while most of the studies have focused only on improving classification systems for diagnosis help purposes. Based on a first study which demonstrates that the low frequencies ([0-3000]Hz) are more relevant for dysphonia discrimination compared with higher frequencies, the authors propose in this paper to pursue by analyzing the impact of the restricted frequency subband ([0-3000]Hz) on the dysphonic voice discrimination from a phonetical point of view. In this sense, performance of the GMM-based automatic dysphonic voice classification system is measured according to different phoneme classes and frequency bands ([0-3000] and [0-8000]Hz).Ce travail vise à caractériser la dysphonie dans le domaine fréquentiel pour une meilleure compréhension des phénomènes de dysfonctionnement. Fondée sur une expérience qui démontre que les basses fréquences ([0-3000] hertz) sont plus appropriées pour la discrimination des dysphonies, les auteurs proposent dans ce document de poursuivre en analysant l'impact de la sous-bande restreinte de fréquence ([0-3000] hertz) sur la discrimination de voix en fonction des segments phonétiques. Dans ce sens, la performance d'un système fondé sur les GMM pour la classification automatique du grade de dysphonie est mesurée selon différentes classes de phonème et des bandes de fréquence ([0-3000] et [0-8000] hertz)

    Characterization of the Pathological Voices (Dysphonia) in the frequency space

    No full text
    International audienceThis paper is related to the dysphonic voice assessment. It aims at studying the characteristic of dysphonia on the frequency domain. In this context, a GMM based automatic classication system is coupled to a frequency subband architecture in order to investigate which frequency bands are relevant for dysphonia characterization. Through various experiments, the low frequencies [0- 3000] Hz tend to be more interesting for dysphonia discrimination compared with higher frequencies

    Modélisation statistique et infomations pertinentes pour la caractérisation des voix pathologiques (dysphonies)

    No full text
    International audienceCet article porte sur l'importance du type d'information appropriée pour une tâche de classification automatique de voix produite par des patients atteints de dysfonctionnement vocal. En employant un système de classification GMM (dérivé de la reconnaissance automatique du locuteur), le focus a été mis sur trois classes principales d'information : une information portant sur l'énergie, une deuxième sur les parties voisées, et une troisième en fonction des segments phonétiques. Les expériences, qui ont porté sur un corpus de dysphoniques, ont montré que cette information phonétique est particulièrement intéressante dans ce contexte puisqu'elle permet d'analyser le résultat en fonction du phonème ou de la classe de phonème

    Application of Automatic Speaker Recognition techniques to pathological voice assessment (dysphonia)

    No full text
    International audienceThis paper investigates the adaptation of Automatic Speaker Recognition (ASR) techniques to the pathological voice assessment (dysphonic voices). The aim of this study is to provide a novel method, suitable for keeping track of the evolution of the patient's pathology: easy-to-use, fast, non-invasive for the patient, and affordable for the clinicians. This method will be complementary to the existing ones - the perceptual judgment and the usual objective measurement (jitter, airflows...) which remain time and human resource consuming. The system designed for this particular task relies on the GMMbased approach, which is the state-of-the-art for speaker recognition. It is derived from the open source ASR tools (LIA_Spk- Det and ALIZE) of the LIA lab.Experiments conducted on a dysphonic corpus provide promising results, underlining the interest of such an approach and opening further research investigation

    Approches complémentaires pour l'évaluation des dysphonies : bilan méthodologique et perspectives

    No full text
    Autorisation No.3240 : TIPA est la revue du Laboratoire Parole et LangageThis paper describes comparative studies of voice quality assessment based on complementary approaches. The first study was undertaken on 449 speakers (including 391 dysphonic patients) whose voice quality was evaluated in parallel by a perceptual judgment and objective measurements on acoustic and aerodynamic data. Results showed that a non-linear combination of 7 parameters allowed the classification of 82% voice samples in the same grade as the jury. The second study relates to the adaptation of Automatic Speaker Recognition (ASR) techniques to pathological voice assessment. The system designed for this particular task relies on a GMM based approach, which is the state-of-the-art for ASR. Experiments conducted on 80 female voices provide promising results, underlining the interest of such an approach. We benefit from the multiplicity of theses techniques to evaluate the methodological situation which points fundamental differences between these complementary approaches (bottom-up vs. top-down, global vs. analytic). We also discuss some theoretical aspects about relationship between acoustic measurement and perceptual mechanisms which are often forgotten in the performance race.Nous proposons un bilan méthodologique fondé sur différentes expériences effectuées dans notre groupe de travail sur l'évaluation des troubles de la voix. Un premier axe d'étude a mis en parallèle un jugement perceptif de la qualité vocale de 449 participants (incluant 391 patients dysphoniques) avec des mesures instrumentales acoustique et aérodynamique effectuées sur le même groupe. Les résultats montrent que la combinaison de 7 paramètres instrumentaux permettent de classer 82 % des participants dans le même groupe que le jugement perceptif. Le deuxième axe d'étude, complémentaire, concerne l'adaptation de techniques de Reconnaissance Automatique du Locuteur à la catégorisation des dysphonies. Le système développé pour cette tâche est fondé sur une approche à base de GMM. Les expériences conduites sur 80 voix de femmes ont fourni des résultats plus que prometteurs et ont souligné l'intérêt d'une telle approche originale. Nous profiterons de la multiplicité de ces moyens expérimentaux pour faire un point méthodologique qui pointe des différences fondamentales entre ces approches complémentaires (montante vs descendante, globale vs analytique). Nous discuterons aussi d'aspects théoriques notamment sur les relations entre mesures physiques et mécanismes de perception, considérations qui sont souvent mises de côté du fait de la course à la performance

    Corpus de parole pathologique, état d'avancement et enjeux méthodologiques

    Get PDF
    Autorisation No.3015 : TIPA est la revue du Laboratoire Parole et LangageDepuis une quinzaine d'années, l'étude des dysfonctionnements de la voix et de la parole est sortie du simple cadre de la recherche clinique et intéresse les laboratoires de recherche issus des sciences du langage. Par l'observation des dysfonctionnements, les chercheurs SHS confrontent les résultats de leurs recherches établies sur des corpus de parole "normale" à des situations d'élocution pathologique. En effet, le dysfonctionnement aide à comprendre le fonctionnement. Ces situations permettent un enrichissement des connaissances entre les communautés de scientifiques du langage, des cliniciens mais aussi de chercheurs issus des STIC. Actuellement, les études sur le dysfonctionnement de la voix et de la parole souffrent cruellement d'une dispersion et hétérogénéité des données. Souvent, les analyses portent sur quelques locuteurs enregistrés pour les besoins ponctuels d'une étude, ce qui affaiblit considérablement la portée des résultats et permet mal de généraliser les conclusions. L'enregistrement des données et le stockage sont souvent effectués par du personnel non formé à certains aspects techniques de la prise et du formatage de données, ce qui peut entraîner une impossibilité de diffusion. A cela s'ajoute la perte quasi systématique des méta-données, ce qui explique souvent la difficulté de faire émerger des résultats clairs car l'homogénéité des populations testées devient totalement opaque.Notre projet s'inscrit dans un dessein plus vaste qui vise à décrire et évaluer les dysfonctionnements de la voix et de la parole, ceci dans une optique fédérative et multidisciplinaire, en axant notre effort, dans un premier temps, sur la mise à disposition de masses de données organisées, de méthodes d'analyse et d'outils mutualisés. Pour cela, il est nécessaire d'obtenir un consensus permettant de proposer des recommandations et un mode de fonctionnement assurant un partage effectif des données. Cela implique la rédaction d'un protocole général, de conventions et de directions d'analyse. Le principe n'est pas d'imposer une façon de faire unique mais d'offrir un cadre de travail permettant d'assurer une compatibilité des données recueillies de parole pathologique, des méta-données et enrichissements associés.La deuxième étape consiste à mettre en place et développer un système d'interrogation, d'extraction, de classification des données de parole pathologique. Cela implique l'élaboration d'une organisation en base de données associant informations cliniques et enregistrements sonores et physiologiques, ceci dans une optique multicentrique capable d'intégrer différentes informations variant selon les équipes de recherche. Cette base devra permettre de centraliser et redéployer les informations provenant de divers laboratoires de recherche et centres cliniques impliqués dans l'étude des dysfonctionnements de la voix et de la parole. La consultation de la base doit être rendue publique par Internet avec divers niveaux d'accessibilité en restreignant l'accès selon des modalités à définir entre les partenaires du projet et selon l'ouverture prévue par la suite. De plus, il nous paraît important de fournir un ensemble d'outils d'analyse de ce type de corpus. Si certains outils sont disponibles sous la forme de dispositifs informatisés de tests de perception ou de logiciels d'analyse « classique » du signal, il nous parait intéressant d'introduire des systèmes de traitement issus de la reconnaissance automatique de la parole et du locuteur afin d'être en mesure d'évaluer une grande masse de données et d'obtenir des modèles et résultats statistiquement conséquents. Enfin, il nous paraît intéressant, dans le cadre de ce projet, de proposer un sous-ensemble de données représentatives des troubles de la communication parlée, ceci dans une optique pédagogique qui permettrait de fournir un support aux enseignements à la fois dans les cursus cliniques comme les écoles d'orthophonie mais aussi en sciences du langage ayant des filières « dysfonctionnements ».Notre objectif est d'aboutir dans ce sens au premier corpus conséquent de parole pathologique (dysphonies et dysarthries) de langue française, ainsi qu'à une mise à disposition d'outils communs adaptés à ce type de données. Cela ouvrirait la portée scientifique des études portant sur les dysfonctionnements de la voix et de la parole.Il faut aussi souligner la visée sociale de ce type de projet. Nous touchons au domaine de la santé. Notre projet contribuerait fortement à améliorer ce problème de communication du malade, relevant de la santé publique. Il est clair qu'une meilleure connaissance et évaluation des troubles de la voix et de la parole aurait un impact direct sur la prise en charge des personnes atteintes de ces troubles, celles-ci souffrant bien souvent d'une rupture sociale liée à la dégradation de leur capacité de communication avec leur entourage.Enfin, il faut signaler que la mise à disposition d'un tel type de corpus est d'un grand intérêt pour les laboratoires issus des technologies de l'information et de la communication. En effet, certaines équipes, qui travaillent par exemple sur la reconnaissance automatique de la parole ou du locuteur, manquent totalement de données organisées pour tester leurs systèmes dans des situations atypiques ou encore, pour adapter leurs méthodes aux situations de dysfonctionnement dans le but de fournir des systèmes de classification automatiques dédiés à l'évaluation de la qualité vocale ; le but final de ces travaux étant de fournir une aide au diagnostic et au suivi des dysfonctionnements

    Developing an acoustic-phonetic characterization of dysarthric speech in French

    Get PDF
    - ISBN: 2-9517408-6-7 - Domaines: Phonetic Databases, Phonology, Person IdentificationInternational audienceThis paper presents the rationale, objectives and advances of an on-going project (the DesPho-APaDy project funded by the French National Agency of Research) which aims to provide a systematic and quantified description of French dysarthric speech, over a large population of patients and three dysarthria types (related to the parkinson's disease, the Amyotrophic Lateral Sclerosis disease, and a pure cerebellar alteration). The two French corpora of dysarthric patients, from which the speech data have been selected for analysis purposes, are firstly described. Secondly, this paper discusses and outlines the requirement of a structured and organized computerized platform in order to store, organize and make accessible (for selected and protected usage) dysarthric speech corpora and associated patients' clinical information (mostly disseminated in different locations: labs, hospitals, ...). The design of both a computer database and a multi-field query interface is proposed for the clinical context. Finally, advances of the project related to the selection of the population used for the dysarthria analysis, the preprocessing of the speech files, their orthographic transcription and their automatic alignment are also presented

    REAL-TIME RECOGNITION OF AFFECTIVE RESPONSES TO CLIMATE-CHANGE IMAGES: A DEEP-LEARNING MODEL A collaboration between the CREx and LPL engineer Gilles Pouchoulin (IR)

    No full text
    A model of emotion recognition is applied to test the images of French Affective Images of Climate Change (FAICC) database (Otavi, Roussel & Syssau, 2021) via real-time EEG recording. Multi-channel EEG is recorded while participants are presented images from the FAICC. In real time, brain maps of the frequency-band features of the recorded EEG are presented to a CNN (Convolutional Neural Network) . The CNN was trained and tested on the EEG data from the DEAP dataset (Koelstra et al, 2012); specifically the model was trained on EEG features related to Arousal and Valence. The ultimate aim of this work is to test, in an objective manner, the response to climate change images, with a view to ascertaining their effectiveness in inciting people to act positively

    Approche Statistique pour l’Analyse Objective et la Caractérisation de la Voix Dysphonique

    No full text
    In our society where verbal communication is essential, the assessment of the quality of the pathological voice and the causes of its degradation occupies an increasingly important place for the medical corps. A person with a temporary or long-lasting voice disorder such as dysphonia can suffer serious consequences in their social relationships, both professional and personal: lack of effectiveness in communication, work stoppage or loss, social exclusion, even loss of identity. However, faced with the limitations of ear judgement (perceptual analysis) of voice dysfunction, voice therapists feel an increasing need for a method of objective evaluation of pathological voice quality, complementary to Perceptual analysis.This thesis falls within this framework and more precisely within the adaptation of Automatic Speaker Recognition (ASR) techniques to the automatic classification of dysphonic voices according to the global grade of the GRBAS perceptual scale. All studies are conducted on a corpus of 80 dysphonic voices (including 20 control voices) provided by the ENT department of the Centre Hospitalier et Universitaire de La Timone (Marseille). The aim of the work presented here is to gain a better understanding of the acoustic phenomena related to dysphonia. The originality of such an approach lies in the use of an automatic classification system as a tool for the characterization of pathological phenomena in the speech signal in order to provide human experts with new knowledge on voice alterations. In this sense, voice specialists such as phoneticians will be able to validate and / or enrich this new knowledge by deepening it. Where appropriate, the experts will in turn be able to suggest indications / guidelines to enable the automated system to explore new avenues of investigation. This approach differs from the methodologies proposed in the literature, which are more aimed at improving the performance of the system for the targeted task.The work carried out in this thesis is subdivided into two parts: a first part which describes the automatic system adapted to the pathological context and a second part which focuses on the search for the relevant information. With this in mind, three lines of research are proposed.Dans notre société où la communication verbale est essentielle, l’évaluation de la qualité de la voix pathologique et des causes de sa dégradation occupent une place de plus en plus importante pour le corps médical. Une personne atteinte d’un trouble vocal momentané ou durable comme une dysphonie peut subir de graves conséquences dans ses relations sociales, tant sur le plan professionnel que personnel : manque d’efficacité dans la communication, arrêt ou perte du travail, exclusion sociale, voire perte identitaire. Cependant, face aux limites du jugement à l’oreille (analyse perceptive) du dysfonctionnement vocal, les thérapeutes de la voix ressentent le besoin de plus en plus pressant d’une méthode d’évaluation objective de la qualité de la voix pathologique, complémentaire à l’analyse perceptive.Cette thèse s’inscrit dans ce cadre et plus précisément dans l’adaptation des techniques de Reconnaissance Automatique du Locuteur (RAL) à la classification automatique des voix dysphoniques suivant le grade global de l’échelle perceptive GRBAS. Toutes les études sont conduites sur un corpus de 80 voix dysphoniques (dont 20 voix de contrôle) fourni par le département ENT du Centre Hospitalier et Universitaire de La Timone (Marseille). L’objectif des travaux présentés ici est d’acquérir une meilleure compréhension des phénomènes acoustiques liés à la dysphonie. L’originalité d’une telle approche réside dans l’utilisation d’un système de classification automatique comme outil de caractérisation des phénomènes pathologiques dans le signal de parole afin d’apporter aux experts humains de nouvelles connaissances sur les altérations de la voix. En ce sens, les spécialistes de la voix comme les phonéticiens pourront valider et/ou enrichir ces nouvelles connaissances en les approfondissant. Le cas échéant, les experts pourront en retour suggérer des indications/directives permettant au système automatique d’explorer de nouvelles pistes d’investigation. Cette démarche se distingue des méthodologies proposées dans la littérature qui visent davantage à améliorer les performances du système pour la tâche visée.Les travaux réalisés dans cette thèse se subdivisent en deux volets : un premier volet qui décrit le système automatique adapté au contexte pathologique et un deuxième volet qui s’intéresse à la recherche de l’information pertinente. Dans cette optique, trois axes de recherche sont proposés

    Approche statistique pour l'analyse objective et la caractérisation de la voix dysphonique

    No full text
    Toujours à l'heure actuelle, l'évaluation de la qualité de la voix pathologique et des causes de sa dégradation sont la préoccupation clinique principale du corps médical. Face aux limites du jugement auditif du dysfonctionnement vocal, les thérapeutes de la voix ressentent le besoin pressant d une méthode d évaluation objective de la qualité de la voix pathologique, complémentaire à l analyse perceptive. Cette thèse s'inscrit dans ce contexte en s'intéressant à l'adaptation des techniques de Reconnaissance Automatique du Locuteur à la tâche de classification des voix dysphoniques selon le grade de l'échelle GRBAS. Son objectif est d'acquérir une meilleure compréhension des phénomènes acoustiques liés à la dysphonie en assimilant le système de classification automatique à un outil de caractérisation des phénomènes pathologiques dans le signal de parole en vue d'apporter aux experts humains de nouvelles connaissances sur les altérations de la voix. Pour cela, trois axes de recherche sont proposés : (1) une comparaison entre différentes représentations paramétriques du signal de parole (spectrale, cepstrale, prédictive) a montré l'intérêt de l'analyse spectrale dans ce contexte expérimental, ainsi que celui des informations dynamiques. (2) une étude portant sur la manière dont les caractéristiques acoustiques de la dysphonie sont dispersées sur l'ensemble de l'espace fréquentiel a relevé la pertinence de la bande de fréquences [0-3000]Hz. (3) une étude phonétique dont la principale observation concerne la pertinence de la classe des consonnes (notamment des sourdes) exprimant un résultat plutôt inattendu sachant le type de pathologie étudiée. Cette étude a permis au système automatique de remplir pleinement son rôle d'outil caractérisant les phénomènes pathologiques et de mettre en évidence des phénomènes (par exemple le VOT) nécessitant une expertise phonétique et clinique approfondieStill currently, assessment of the pathological voice quality and the reasons of its deterioration is the main clinical worry of the medical profession. In front of the limits of the auditory judgment of the vocal dysfunction, the voice therapists strongly express the need of an objective method for assessing the quality of the pathological voice, complementary to the perceptual analysis. In this context, this thesis is interested in the adaptation of techniques drawing upon the Automatic Speaker Recognition domain to the dysphonic voice classification task according to the grade of the GRBAS scale. Its objective is to acquire a better understanding of dysphonia by using an automatic classification system as a tool of characterization of associated acoustic phenomena in the speech signal in order to provide experts with novel knowledge on voice degradation. In this way, three research axes are proposed : (1) a comparison between different parametric representations of the speech signal (spectral, cepstral, predictive) showed the interest of the spectral analysis in this experimental context, as well as the relevance of the dynamic information. (2) a study, focusing on the manner in which the acoustic features related to dysphonia are spread on the overall frequency domain, outlined the relevance of the [0-3000]Hz frequency band. (3) a phonetic study which the main observation highlights the relevance of the consonant class (notably of the unvoiced consonants) rather unexpected given the type of studied pathology. This study permitted the automatic system to fulfill its role of a tool characterizing pathological phenomena, and thus putting them in evidence (for example the VOT) for a more extensive phonetic and clinical expertiseAVIGNON-BU Centrale (840072102) / SudocSudocFranceF
    • …
    corecore