9 research outputs found

    Description d'une unité de réponse vocale de données numériques décimales

    No full text
    International audienceThe system we describe is a vocal response unit design sedely for the synthesis of figures and numbers from 1 to 999, wich has been conseived with a view to multimetric application.It can be connected to any apparatus supplying numerised data in the form of binary coded decimal. It comprises a lexical decoder and a memory of 23 segments of variable length wich after appropriate ordering allows synthesis by concatenation.The definition is 4 bits with a sampling rate of 3,300 per second. The system may easily be extended to bigger numbers and on additional memory could used to stock the units of measurement.Nous décrivons une unité de réponse vocale pour synthétiser des chiffres et des nombres de 1 à 999. Elle doit étre connectée à des multimètres disposants d'une sortie numérique en "décimal codé binaire". Elle est constituée par un décodeur lexical et une mémoire de 23 segments de longueurs variables qui, présentés dans un ordre adéquat permettent une synthèse par concaténation. La définition du signal synthétisé est de 4 bits avec 3.300 échantillons par seconde.Il est possible très simplement de l'étendre jusqu'aux milliers ainsi qu'aux unités de mesure

    Bilan et perspectives de quinze ans d'évaluation vocale par méthodes instrumentales et perceptives

    No full text
    International audienceFor fifteen years, we have developed and studied different techniques and methodologies to assess voice quality in a clinical context. This paper exposes recent results obtained by complementary approaches. 449 speakers (including 391 dysphonic patients) participated in the experiment where voice quality was evaluated by (1) perceptual voice assessment performed by a jury and (2) instrumental voice assessment using acoustic and aerodynamic data. Results showed that a combination of 7 instrumental measures allowed the classification of 82% voice samples in the same grade as the jury. We evaluate the methodological situation and we also discuss some theoretical aspects which are often forgotten in the performance race.Dans le domaine de la phonétique, l'analyse de la qualité de la voix est généralement intégrée dans l'étude des phénomènes paralinguistiques de la communication parlée (Laver, 1981). Actuellement, la majorité des études dans le domaine portent sur les relations entre l'état émotionnel du locuteur et les indices acoustiques portés par le signal vocal, ou encore sur la variabilité de la qualité de la voix en fonction de facteurs dialectaux et socioculturels (Gobl et al., 2003). Dans notre cas, depuis une quinzaine d'années (Giovanni et al., 1991), nous nous sommes penchés plus particulièrement sur les relations entre état physiologique du locuteur et qualité vocale, notamment dans un cadre clinique de dysfonctionnement du système pneumo phonatoire. Dans ce cadre de la prise en charge des dysphonies, l'étape de l'évaluation vocale est apparue nécessaire pour permettre des comparaisons entre les différentes formes de pathologies, entre patients, pour contrôler l'évolution longitudinale de l'état vocal ou encore des différentes solutions thérapeutiques. Les deux principales méthodes retenues sont le jugement perceptif et les mesures instrumentales multiparamétriques. La première méthode consiste à faire juger la qualité vocale de patients par des experts (phoniatres, orthophonistes) dont le rôle est de fournir un grade de dysphonie sur une échelle GRBAS proposée par Hirano (1981). Le principe est de faire lire au patient un texte normalisé dont l'énoncé enregistré est ensuite soumis en aveugle à quatre juges expérimentés qui attribuent une note entre 0 (normal) et 3 (dysphonie sévère) par catégorisation directe ou à travers des échelles analogiques visuelles interprétées (Yu et al., 2002). Dans la plupart des cas, seul le grade G (global, général) de la dysphonie est exploité. Du fait des limites rencontrées par cette approche (Bonastre et al., 2007), des mesures instrumentales sont effectuées parallèlement sur les patients à l'aide du dispositif EVA (Teston et al., 1995) qui permet d'obtenir des mesures acoustiques de stabilité laryngée (jitter, shimmer, coefficient de Lyapounov), des estimations de performance pneumo-phonatoire (étendue vocale, temps maximal de phonation) et des grandeurs aérodynamiques qui explorent de façon directe et sélective certains mécanismes comme la fuite glottique (par mesure de débit d'air oral) ou la tension de la source (par estimation de la pression sous-glottique). Dans une étude récente (Yu et al. , 2007), 449 locuteurs (incluant 391 patients dysphoniques) ont été soumis à cette double évaluation perceptive et instrumentale. Les résultats montrent qu'une combinaison de six paramètres physiques (Etendue vocale, Coefficient de Lyapounov, Pression Sous-glottique estimée, Temps maximal de phonation, débit d'air oral et rapport signal/bruit) autorisent une classification identique à l'évaluation perceptive dans 82% des cas. Ce résultat est encourageant par rapport à d'autres études comme celle de Wuyts et al. (2000) mais l'adéquation reste insuffisante pour une utilisation clinique de routine. Nous pensons qu'il s'agit essentiellement d'une limite méthodologique liée à la relation non bijective entre espace perceptif et mesures physiques. De plus, les techniques instrumentales utilisées ont été conçues pour une approche analytique descendante fondée sur la mesure objective (ex : soupçon de fuite glottique => mesure de débit d'air) alors qu'elles sont utilisées comme des "machines à écouter" avec une approche montante, globale et "aveugle". Nos perspectives sont diverses. Tout d'abord, l'utilisation de techniques issues de la reconnaissance automatique du locuteur adaptées à la classification du grade de dysphonie semble prometteuse (Pouchoulin et al., 2007) car ces méthodes sont aptes, du fait de la phase d'apprentissage, à "imiter" le jugement perceptif. D'autre part, les techniques instrumentales "classiques" devraient s'utiliser pour la mesure objective à des fins de suivi longitudinal ou d'évaluation ciblée sur une ou quelques dimensions du dysfonctionnement vocal. Enfin, l'étude des relations entre perception et signal vocal devrait être appréhendée pour se rapprocher d'une évaluation auditive plus précise, comme celle de l'intelligibilité, et moins globale comme proposé par Hammarberg et al. (1980), avec notamment des liens avec la physiopathologie. Le recours à de la synthèse de voix pathologiques serait d'un grand intérêt pour explorer les relations perception/acoustique et pour avoir des matériaux calibrés pour tester les techniques de mesures objectives

    Approches complémentaires pour l'évaluation des dysphonies : bilan méthodologique et perspectives

    No full text
    Autorisation No.3240 : TIPA est la revue du Laboratoire Parole et LangageThis paper describes comparative studies of voice quality assessment based on complementary approaches. The first study was undertaken on 449 speakers (including 391 dysphonic patients) whose voice quality was evaluated in parallel by a perceptual judgment and objective measurements on acoustic and aerodynamic data. Results showed that a non-linear combination of 7 parameters allowed the classification of 82% voice samples in the same grade as the jury. The second study relates to the adaptation of Automatic Speaker Recognition (ASR) techniques to pathological voice assessment. The system designed for this particular task relies on a GMM based approach, which is the state-of-the-art for ASR. Experiments conducted on 80 female voices provide promising results, underlining the interest of such an approach. We benefit from the multiplicity of theses techniques to evaluate the methodological situation which points fundamental differences between these complementary approaches (bottom-up vs. top-down, global vs. analytic). We also discuss some theoretical aspects about relationship between acoustic measurement and perceptual mechanisms which are often forgotten in the performance race.Nous proposons un bilan méthodologique fondé sur différentes expériences effectuées dans notre groupe de travail sur l'évaluation des troubles de la voix. Un premier axe d'étude a mis en parallèle un jugement perceptif de la qualité vocale de 449 participants (incluant 391 patients dysphoniques) avec des mesures instrumentales acoustique et aérodynamique effectuées sur le même groupe. Les résultats montrent que la combinaison de 7 paramètres instrumentaux permettent de classer 82 % des participants dans le même groupe que le jugement perceptif. Le deuxième axe d'étude, complémentaire, concerne l'adaptation de techniques de Reconnaissance Automatique du Locuteur à la catégorisation des dysphonies. Le système développé pour cette tâche est fondé sur une approche à base de GMM. Les expériences conduites sur 80 voix de femmes ont fourni des résultats plus que prometteurs et ont souligné l'intérêt d'une telle approche originale. Nous profiterons de la multiplicité de ces moyens expérimentaux pour faire un point méthodologique qui pointe des différences fondamentales entre ces approches complémentaires (montante vs descendante, globale vs analytique). Nous discuterons aussi d'aspects théoriques notamment sur les relations entre mesures physiques et mécanismes de perception, considérations qui sont souvent mises de côté du fait de la course à la performance

    Mise en évidence du rôle de la proprioception laryngée dans le contrôle de la courbe mélodique lors de la production de parole

    No full text
    International audienceOBJECTIVES:Pitch change during voice production is under the control of auditive and kinesthetic feedback phenomenona. The aim of the study was to determine the role of larynx kinesthetic feedback in speech production control.MATERIALS AND METHODS:To validate our laryngeal model, five porcine larynges were excised and placed on a test bench consisting of a blower and a laser photoglottometer for measurement of vocal cord vibration. We applied vibratory stimuli to the cricothyroid muscles to determine whether vibrators supplied by a generator alter the biomechanics of the larynx. Fundamental frequency (F0) was recorded under three conditions--larynx on vibration--larynx on vibration with vibrators activation--larynx on rest and vibrators activation. Once validated, 7 male and 7 female, mean age 29 years, were enrolled. Vibrators were positioned on cricothyroid muscles, cricoid and thyroid cartilages. Masking noise was used. Fundamental frequency, intensity and speech time production was measured during speech production under three conditions--normal speech, vibrators activation, and masking activation.RESULTS:The preliminary study demonstrated that larynx on vibration with vibrators activation doesn't alter the vocal fold F0. For the human trial, between normal speech and vibrators activation conditions, we found a significant difference (p= 0.045 for male, p= 0.010 for female) in intonation, and no significant difference for intensity and speech time. Between normal speech and masking activation conditions, no significant differences were measured for any condition.CONCLUSION:Use of the vibrators is a reliable method to allow the evaluation of larynx kinesthetic feedback in speech production control.Objectif: le contrôle de la hauteur de la voix au cours de la production de la parole obéit à un schéma intonatif mélodique qui dépend aussi bien de phénomènes auditifs que proprioceptifs. Le but de cette étude fut d'évaluer le rôle de la proprioception laryngée dans le contrôle de la production de la parole. Matériels et méthodes : pour valider notre modèle laryngé, cinq larynx de porc excisés, furent placés sur un banc expérimental doté d'une soufflerie avec un laser photoglottomètre permettant la mesure de la vibration vocale. Les muscles cricothyroidiens furent soumis à une vibration alimentée par un générateur, pour déterminer si la présence de vibreurs altère la biomécanique du larynx. La fréquence fondamentale (F0) fut enregistrée sous trois conditions- larynx en vibration - larynx en vibration et activation des vibreurs - larynx au repos et activation des vibreurs. Après validation, 7 hommes et 7 femmes, âge moyen 29 ans, participèrent à cette étude. Les vibreurs furent positionnés en regard des muscles laryngés, des cartilages thyroïdes et cricoïdes; un masking auditif fut utilisé. La fréquence fondamentale, l'intensité et la durée d'émission furent analysés sous trois conditions -production normale de la parole - activation des vibreurs -activation du masking. Résultats : l'étude préliminaire démontra que l'utilisation des vibreurs n'altérait pas la F0 des cordes vocales. L'essai chez l'homme, mit en évidence une différence significative entre la production de la parole et l'activation des vibreurs pour l'intonation (homme p= 0,045, femme p= 0,010), et aucune différence significative pour l'intensité et la durée d'émission. Aucune différence significative entre la production de la parole et l'utilisation du masking ne fut retrouvée, sous aucune des conditions. Conclusion : l'utilisation des vibreurs apparut comme une méthode fiable pour permettre l'étude de la proprioception laryngée dans le contrôle de la production de parole

    The Very First Cry: A Multidisciplinary Approach Toward a Model

    No full text
    International audienceObjectives: In previous work, we showed that a rigid larynx-like geometry can generate a sound by itself. However, verylittle is known about the exact mechanistrs and control of the larynx during the first cry of life. The goal of this work wasto understand how the very first cry is generated.Methods: Sitnultaneous high-speed imaging and sound recording on 2 excised 38-week term human fetus laryngés wereperformed. The behaviors of the vocal folds and the false vocal folds were studied separately. The behavior of the vocalfolds after resection of the supraglottic structures was also analyzed. A comparative acoustic analysis of the first cry andof the sound generated by the excised organs was performed.Results: Our data showed that the vocal folds in a larynx with the pressure conditions of the first cry do not generatesound themselves, but induce aerodynamic conditions leading to vibrations of other parts of the larynx.Conclusions: The similarities between the sound generated by an excised larynx and the first cry suggest a lack of neurologiccontrol of the larynx during production of the first cry. A model-algorithm is proposed.Key Words: aerodynamics, false vocal fold, first cry, high-speed imaging, neonate, vocal fold
    corecore