30 research outputs found

    Articulation silencieuse vs. vocalisée pour une "communication parlée silencieuse" : implications des différences articulatoires

    Get PDF
    National audienceDans la présente étude, nous décrivons des tests de reconnaissance de mots produits à la fois en parole silencieuse et en parole vocalisée dans les phases de tests et d'entrainement. Dans un premier temps [6], un système d'acquisition fixe a été comparé à une ébauche de système portatif avec des scores de reconnaissance très similaires, permettant de valider l'efficacité d'un système portatif, et ainsi d'envisager l'utilisation dans un avenir proche de tels systèmes pour utilisateurs handicapés. Les résultats du système de reconnaissance à base de modèles de Markov [6] ont mis en avant une part beaucoup plus importante de la langue - comparée aux lèvres - dans le score final. Malgré tout, les modèles de Markov ne permettent pas de décrire les mouvements des lèvres et de la langue effectués par les informateurs. Nous montrons ici des différences quantifiées d'aperture, d'étirement et d'arrondissement des lèvres, ainsi que des mouvements d'inflexion, de hauteur et d'antériorité de la langue pour la parole silencieuse comparée à la parole vocalisée. Les résultats montrent pour la parole vocalisée des stratégies similaires au renforcement des traits distinctifs des phonèmes pour la parole hyperarticulée, à savoir des phonèmes arrondis plus arrondis, des voyelles ouvertes plus ouvertes, etc. dans le cas de la parole vocalisée. En [4], nous mettions en avant la nécessité d'entrainer le système de reconnaissance sur des productions silencieuses. Cette étude permet d'en comprendre les raisons et pourquoi pas, de mieux les appréhender. Le travail final présentera également une discussion du type de corpus à utiliser et de la méthodologie des interfaces de communication parlée silencieuse

    Towards a Practical Silent Speech Interface Based on Vocal Tract Imaging

    Get PDF
    Intégralité des actes de cette conférence disponible au lien suivant: http://www.issp2011.uqam.ca/upload/files/proceedings.pdfInternational audienceThe paper describes advances in the development of an ultrasound silent speech interface for use in silent communications applications or as a speaking aid for persons who have undergone a laryngectomy. It reports some first steps towards making such a device lightweight, portable, interactive, and practical to use. Simple experimental tests of an interactive silent speech interface for everyday applications are described. Possible future improvements including extension to continuous speech and real time operation are discussed.Cet article décrit les avancements dans le développement d'une interface ultrasonore de parole silencieuse, pour des applications en communication silencieuse ou comme une aide pour les personnes laryngectomisées. Nous rapportons les premiers pas pour réaliser une telle interface portable, interactive, et pratique à utiliser. De simples tests expérimentaux de cette interface pour des applications quotidiennes sont décrits. Des améliorations futures possibles incluant l'extension à la parole continue et aux traitements en temps réels sont discutées

    RANCANG BANGUN PROGRAM APLIKASI DETEKSI ISYARAT WICARA HURUF VOKAL PADA PENDERITA TUNA WICARA BERBASIS SINYAL ELECTROMYOGRAPH (EMG)

    Get PDF
    Ketidakmampuan seseorang untuk berbicara (tuna wicara) diantaranya disebabkan oleh beberapa hal : (karena keturunan) hal ini bisa terjadi karena penderita mewarisi sifat dari keturunan terdahulu yang juga memiliki keterbatasan berbicara, (karena kecelakaan) ketidakmampuan seseorang untuk berbicara juga dapat disebabkan karena orang tersebut mengalami kecelakaan yang tepat mengenai organ pita suara, yang berperan penting dalam pembangkitan suara, karena penyakit (kanker laring) untuk faktor yang ketiga ini, dikarenakan orang tersebut menderita penyakit / kanker pada tenggorokkan (kanker laring). Sehingga harus dilakukan pengangkatan terhadap kanker tersebut, agar tidak merambat ke organ – organ tubuh lainnya, yang secara otomatis juga akan mengangkat organ pita suara. Penelitian ini direalisasikan untuk membantu seseorang yang memiliki keterbatasan untuk melakukan kegiatan berbicara (tuna wicara), sehingga dapat melakukan kegiatan komunikasi. Dalam penelitian ini, media deteksi isyarat wicara memanfaatkan sinyal Electromyograph (EMG), yang ketika seseorang sedang melakukan kegiatan berbicara maka akan melibatkan aktifitas otot, baik berkontraksi maupun merenggang, terutama pada daerah mulut dan pipi. Dimana ketika seseorang mengucapkan suatu suku kata maka pada bagian inilah yang paling terlihat perubahannya. Pendeteksian isyarat wicara dibatasi dalam huruf vokal (A,I,U,E,O). Proses identifikasi isyarat wicara dilakukan menggunakan Jaring Syaraf Tiruan algoritma Radial Basis Function Network. Ketika dilakukan pengujian sinyal dari sampel pasien tuna wicara diperoleh nilai akurasi 65% sinyal teridentifikasi, sedangkan dari sampel pasien orang normal diperoleh 64% sinyal teridentifikasi. Tingkat keberhasilan secara keseluruhan sistem ini sebesar 64.44% dari 45 data sampel yang diujicobakan. Kata kunci: berbicara, kanker laring (tenggorokan), sinyal Electromyograph (EMG), huruf vokal (A,I,U,E,O)

    Silent versus modal multi-speaker speech recognition from ultrasound and video

    Get PDF
    We investigate multi-speaker speech recognition from ultrasound images of the tongue and video images of the lips. We train our systems on imaging data from modal speech, and evaluate on matched test sets of two speaking modes: silent and modal speech. We observe that silent speech recognition from imaging data underperforms compared to modal speech recognition, likely due to a speaking-mode mismatch between training and testing. We improve silent speech recognition performance using techniques that address the domain mismatch, such as fMLLR and unsupervised model adaptation. We also analyse the properties of silent and modal speech in terms of utterance duration and the size of the articulatory space. To estimate the articulatory space, we compute the convex hull of tongue splines, extracted from ultrasound tongue images. Overall, we observe that the duration of silent speech is longer than that of modal speech, and that silent speech covers a smaller articulatory space than modal speech. Although these two properties are statistically significant across speaking modes, they do not directly correlate with word error rates from speech recognition.Comment: 5 pages, 5 figures, Submitted to Interspeech 202

    Ultrasound-Based Silent Speech Interface Built on a Continuous Vocoder

    Get PDF
    Recently it was shown that within the Silent Speech Interface (SSI) field, the prediction of F0 is possible from Ultrasound Tongue Images (UTI) as the articulatory input, using Deep Neural Networks for articulatory-to-acoustic mapping. Moreover, text-to-speech synthesizers were shown to produce higher quality speech when using a continuous pitch estimate, which takes non-zero pitch values even when voicing is not present. Therefore, in this paper on UTI-based SSI, we use a simple continuous F0 tracker which does not apply a strict voiced / unvoiced decision. Continuous vocoder parameters (ContF0, Maximum Voiced Frequency and Mel-Generalized Cepstrum) are predicted using a convolutional neural network, with UTI as input. The results demonstrate that during the articulatory-to-acoustic mapping experiments, the continuous F0 is predicted with lower error, and the continuous vocoder produces slightly more natural synthesized speech than the baseline vocoder using standard discontinuous F0.Comment: 5 pages, 3 figures, accepted for publication at Interspeech 201
    corecore