49 research outputs found

    Voice and Speech therapy using VOCALAB - From research to practice

    Get PDF
    In order to help speech therapists in the evaluation and therapy of voice and speech of patients of all ages with communication difficulties, a software platform called VOCALAB has been developed, which has been gradually deployed in France and French-speaking countries. From the feedback and suggestions of speech therapists, the platform has been enhanced and extended in order to provide the optimum tools for efficient voice/speech evaluation and therapy

    Audio Indexing Including Frequency Tracking of Simultaneous Multiple Sources in Speech and Music

    Get PDF
    National audienceIn this paper, we present a complete system for audio indexing. This system is based state-of-the-art methods of Speech-Music-Noise segmentation and Monophonic/Polyphonic estimation. After those methods we propose an original system of superposed sources detection. This approach is based on the analysis of the evolution of the predominant frequencies. In order to validate the whole system we used different corpora : Radio broadcasts, studio music and degraded field records. The first results are encouraging and show the potential of our approach which is generic and can be used on both music and speech contents

    Caractérisation acoustico-phonétique de parole provenant de patients atteints de paralysies faciales

    Get PDF
    National audienceLa caractérisation de la parole pathologique est un problème important pour la détection et le diagnostic précoces. La parole pathologique étudiée dans cet article, provient de patients paralysés faciaux, souffrant notamment de problèmes de prononciation des plosives. Plusieurs paramètres sont extraits d’un détecteur automatique de bursts en vue de caractériser cette altération. L’une des autres hypothèses étudiées ici est que les cibles vocaliques souffrent de la mauvaise prononciation des consonnes, et ont une réalisation approximative. Une analyse des voyelles et des bursts est donc proposée en fonction des différents grades de sévérité de la paralysie des patients. Une diminution significative du nombre de bursts, des écart-type des durées de ceux-ci et du F2 des voyelles /i, e, E, a/ ont été observés pour les patients du corpus. Le F3 des voyelles /i, y/ est affecté, montrant que les patients ont du mal à produire ces voyelles, faisant intervenir les lèvres

    DĂ©tection de la parole et de la musique dans les documents sonores : fusion de deux approches

    Get PDF
    Dans cet article, une segmentation de la bande sonore est effectuée en détectant les composantes parole et musique. Cette segmentation résulte de la fusion de deux approches de classification. La première, classique, est basée sur une analyse spectrale et des Modèles de Mélanges de Gaussiennes (MMG). La seconde, originale, utilise des paramètres "simples" et robustes: la modulation de l'énergie à quatre hertz, la modulation de l'entropie, la durée des segments (issus d'une segmentation automatique) et le nombre de ces segments par seconde. Notre système global se décompose en deux sous-systèmes de classification (Parole/NonParole et Musique/NonMusique). Il atteint respectivement 94 % d'accuracy pour la parole et 90 % pour la musique sachant qu'une décision est prise sur chaque seconde du signal. Il apparaît très intéressant d'améliorer un système classique, basé sur une analyse spectrale et des MMG, par des paramètres "simples" et robustes

    Génération de la « banane de la parole » en vue d'une évaluation objective de l'intelligibilité

    Get PDF
    L'aire du triangle vocalique, construit en mesurant les valeurs fréquentielles des deux premiers formants des voyelles prononcées, est l'une des mesures employées pour l'évaluation de l'intelligibilité de la parole [1,2]. Le placement des voyelles sur un graphique à deux axes, F1 et F2, permet d'interpréter les valeurs obtenues par rapport au triangle « standard ». Toutefois, les consonnes ont une importance cruciale dans l'intelligibilité de la parole. Stevens et Blumstein [3] affirmaient déjà en 1978 que le lieu d'articulation des consonnes occlusives serait identifiable par l'aspect global de leur représentation spectrale. En audiométrie, la « banane de la parole » est la représentation de la composante fréquentielle principale « standard » de chaque consonne, ainsi que de son intensité, permettant la délimitation d'une aire sur un audiogramme. Cette démarche a été réalisée pour les consonnes de l'anglais [4,5] et du Thaï [6]. Pour le français, Béchet et al. [7] ont calculé des aires consonantiques sur les occlusives sonores [b,d,g], représentant les trois lieux d'articulation les plus communs à l'échelle universelle [8], à l'aide des F2 et F3. Ainsi, nous avons tenté de construire la banane de la parole sur la base des 16 consonnes principales du français. Deux sujets sains (1 homme, 1 femme) ont produit ces 16 consonnes entourées des voyelles « extrêmes » [a,i,u] et des voyelles plus neutres [oe,ø], à trois reprises. En nous inspirant des travaux de Klangpornkun [6], nous avons employé le codage prédictif linéaire (LPC) pour identifier les pics spectraux proéminents des consonnes [9,10] dans les différents contextes vocaliques, et selon le genre du locuteur. En positionnant ces consonnes sur un graphique à deux axes - fréquence et intensité, nous avons ensuite généré la banane de la parole des consonnes du français. Notons qu'au vu de la variabilité interindividuelle des données acoustiques [11,12,13,14], le nombre de sujets dans cette étude préliminaire est limité. De nouveaux enregistrements dans des conditions standardisées sont en cours, visant à obtenir des extraits de parole d'au moins 2 hommes et 2 femmes des tranches d'âge 20-29, 30-39, 40-49, 50-59, 60-69 et 70+. Par l'automatisation de la construction d'une telle représentation des consonnes produites par le sujet, nous espérons pouvoir proposer un outil d'évaluation objective de l'intelligibilité de la parole

    Automatic Assessment of Speech Capability Loss in Disordered Speech

    Get PDF
    International audienceIn this article, we report on the use of an automatic technique to assess pronunciation in the context of several types of speech disorders. Even if such tools already exist, they are more widely used in a different context, namely, Computer-Assisted Language Learning, in which the objective is to assess nonnative pronunciation by detecting learners' mispronunciations at segmental and/or suprasegmental levels. In our work, we sought to determine if the Goodness of Pronunciation (GOP) algorithm, which aims to detect phone-level mispronunciations by means of automatic speech recognition, could also detect segmental deviances in disordered speech. Our main experiment is an analysis of speech from people with unilateral facial palsy. This pathology may impact the realization of certain phonemes such as bilabial plosives and sibilants. Speech read by 32 speakers at four different clinical severity grades was automatically aligned and GOP scores were computed for each phone realization. The highest scores, which indicate large dissimilarities with standard phone realizations, were obtained for the most severely impaired speakers. The corresponding speech subset was manually transcribed at phone level; 8.3% of the phones differed from standard pronunciations extracted from our lexicon. The GOP technique allowed the detection of 70.2% of mispronunciations with an equal rate of about 30% of false rejections and false acceptances. Finally, to broaden the scope of the study, we explored the correlation between GOP values and speech comprehensibility scores on a second corpus, composed of sentences recorded by six people with speech impairments due to cancer surgery or neurological disorders. Strong correlations were achieved between GOP scores and subjective comprehensibility scores (about 0.7 absolute). Results from both experiments tend to validate the use of GOP to measure speech capability loss, a dimension that could be used as a complement to physiological measures in pathologies causing speech disorders

    What do pause patterns in non-fluent aphasia tell us about monitoring speech? A study of morpho-syntactic complexity, accuracy and fluency in agrammatic sentence and connected discourse production

    No full text
    Compared to normal speech, agrammatic utterances are “telegraphic” with frequent closed-class words omissions, simple clauses, short utterances and reduced morpho-syntactic complexity. Besides, its predominant symptom comprises fluency disturbances and great efforts needed to produce speech. Results from previous corpora analyses confirm that variability in agrammatic performance is a key feature for understanding impaired and strategic language use (Kolk & Heeschen, 1990 ; Kolk, 2006, Sahraoui & Nespoulous, 2012). Beyond the reduced on-line processing resource related to the underlying impairment, patients adjust the surface structure to be encoded according to contextual constraints. Moreover, across-task variability in fluency may also be determined by the use of various adaptation strategies, such as elliptical and corrective encoding strategies, related to the focus on form enabling better grammatical accuracy under certain conditions. In particular, corrective strategies are due to the preserved ability, in these patients, to detect errors and monitor their speech production (Postma, 2000 ; Oomen, Postma & Kolk, 2001). This suggests that agrammatic patients may over-use the monitoring device in producing language, at a pre-articulatory or post-articulatory stage and according to the type of task (Sahraoui, 2014). In this study, we carefully look at temporal aspects of agrammatic speech production in order to understand how far does speech (non)fluency and dysfluency show a relation to the morpho-syntactic properties of sentence and connected discourse across various tasks. Indeed, describing and interpreting pause patterns may also contribute to account for non-fluent aphasia, as demonstrated in previous work dealing with fluent aphasia (Butterworth, 1979). To study pause patterns in non-fluent aphasia, we performed further speech data analyses involving agrammatic speakers (N=5) and control speakers (N=9) (Sahraoui & Nespoulous, 2012). In particular, silent and filled pauses were coded and automatically computed using speech processing methods (Mac Whinney, 2000 ; Boersma & Weenink, 2015). Analyses include speech and articulatory rate, pause durations and pause distribution in relation to the elliptical style, overt errors, dysfluencies and repair strategies (corrective adaptations). In connected discourse (spontaneous and autobiographical) with more elliptical style due to more frequent omissions of grammatical morphemes, the pattern of pauses is different from narrative and descriptive discourse, as well as in sentence production. The latter type of speech output is characterized by fewer grammatical omissions with longer and more frequent pauses, what is combined with greater morpho-syntactic accuracy and complexity (that is to say less elliptical style) and with more frequent corrective adaptations. Arising from the way the speaker deals with the underlying impairment in situ, trade-offs are thus clearly made between fluency and morpho-syntactic accuracy and complexity. Even though language processing cannot perform in a safe way anymore, the agrammatic speakers rely on still operating executive functions related to pre- or post-articulatory speech monitoring in order to improve morpho-syntactic encoding

    Fusion Of Descriptors For Speech / Music Classification

    No full text
    This work addresses the soundtrack indexing of multimedia documents. We present a speech/music classification system based on three original features: entropy modulation, stationary segment duration and number of segments. They were merged by basic score maximisation with the classical 4 Hertz modulation energy. We validate this fusion approach with the use of the probability theory and the evidence theory. The system is tested on radio corpora. Systems are simple, robust and could be improved on every corpus without training or adaptation

    Newsletter 1

    No full text
    First newsletter of the TAPAS Projec

    Sur l'utilisation de la reconnaissance automatique de la parole pour l'aide au diagnostic différentiel entre la maladie de Parkinson et l'AMS

    No full text
    Cet article présente une étude concernant l’apport du traitement automatique de la parole dans le cadre du diagnostic différentiel entre la maladie de Parkinson et l’AMS (Atrophie Multi-Systématisée). Nous proposons des outils de reconnaissance automatique de la parole pour évaluer le potentiel d’indicateurs de la parole dysarthrique caractérisant ces deux pathologies. Dans ce cadre, un corpus de parole pathologique (projet ANR Voice4PD-MSA) a été enregistré au sein des Centres Hospitaliers Universitaires (CHU) de Toulouse et Bordeaux. Les locuteurs sont des patients atteints de stades précoces de la maladie de Parkinson et d’AMS ainsi que des locuteurs témoins. Des mesures automatiques caractérisant la qualité de la reconnaissance automatique de la parole ainsi que la prosodie des patients ont montré un intérêt pour la caractérisation des pathologies étudiées et peuvent être considérées comme un outil potentiel pour l’aide à leur diagnostic différentiel
    corecore