6 research outputs found

    Speaker-Independent Mel-cepstrum Estimation from Articulator Movements Using D-vector Input

    Get PDF

    転置畳み込みニューラルネットワークを用いたrtMRIデータからの調音-音響変換

    Get PDF
    Tokyo University of ScienceTokyo University of ScienceTokyo University of ScienceTokyo University of Science会議名: 言語資源活用ワークショップ2021, 開催地: オンライン, 会期: 2021年9月13日-14日, 主催: 国立国語研究所 コーパス開発センター本稿では,rtMRIデータから音響特徴量を生成するための深層学習モデルを提案する。調音器官全体を高解像度で記録できるrtMRIは,調音データから音響特徴量を生成するための元データとして有用であると考えられるが,フレームレートが比較的低いという問題がある。そこで我々は,転置畳み込みネットワークを用いて時間軸方向に超解像処理を行う方法を提案する。標準的な畳み込みニューラルネットワークが畳み込みによって主に画像の近隣情報を圧縮するのに対して,転置畳み込みネットワークではこの逆の操作を行うことにより,画像の解像度を向上させる。本手法ではこの超解像処理をrtMRIデータの時間方向に適用することによって,rtMRIデータの時間解像度を向上させる。メルケプストラム歪みとPESQを評価尺度として用いた実験の結果,転置畳み込みネットワークは正確な音響特徴量の生成に有効であることがわかった。また,超解像処理の倍率を上げることで,PESQのスコアが向上することも確認した

    Fully-automated tongue detection in ultrasound images

    Get PDF
    Tracking the tongue in ultrasound images provides information about its shape and kinematics during speech. In this thesis, we propose engineering solutions to better exploit the existing frameworks and deploy them to convert a semi-automatic tongue contour tracking system to a fully-automatic one. Current methods for detecting/tracking the tongue require manual initialization or training using large amounts of labeled images. This work introduces a new method for extracting tongue contours in ultrasound images that requires no training nor manual intervention. The method consists in: (1) application of a phase symmetry filter to highlight regions possibly containing the tongue contour; (2) adaptive thresholding and rank ordering of grayscale intensities to select regions that include or are near the tongue contour; (3) skeletonization of these regions to extract a curve close to the tongue contour and (4) initialization of an accurate active contour from this curve. Two novel quality measures were also developed that predict the reliability of the method so that optimal frames can be chosen to confidently initialize fully automated tongue tracking. This is achieved by automatically generating and choosing a set of points that can replace the manually segmented points for a semi-automated tracking approach. To improve the accuracy of tracking, this work also incorporates two criteria to re-set the tracking approach from time to time so the entire tracking result does not depend on human refinements. Experiments were run on 16 free speech ultrasound recordings from healthy subjects and subjects with articulatory impairments due to Steinert’s disease. Fully automated and semi automated methods result in mean sum of distances errors of 1.01mm±0.57mm and 1.05mm± 0.63mm, respectively, showing that the proposed automatic initialization does not significantly alter accuracy. Moreover, the experiments show that the accuracy would improve with the proposed re-initialization (mean sum of distances error of 0.63mm±0.35mm)

    Makine öğrenmesi algoritmaları kullanılarak glossokinetik potansiyel tabanlı dil - makine arayüzü tasarımı

    Get PDF
    06.03.2018 tarihli ve 30352 sayılı Resmi Gazetede yayımlanan “Yükseköğretim Kanunu İle Bazı Kanun Ve Kanun Hükmünde Kararnamelerde Değişiklik Yapılması Hakkında Kanun” ile 18.06.2018 tarihli “Lisansüstü Tezlerin Elektronik Ortamda Toplanması, Düzenlenmesi ve Erişime Açılmasına İlişkin Yönerge” gereğince tam metin erişime açılmıştır.Yardımcı teknolojiler, ağır engelli bireylerin diğer aygıtlara veya bireylere niyetlerini iletmelerini sağlayabilir. Bu teknolojiler, bireylerin sürekli yardım alma ihtiyacını kolaylaştırarak, aile üyelerinin yükünü ve sağlık maliyetlerini azaltacaktır. Omurilik yaralanmalarında veya amiyotrofik lateral sklerozda, engelli insanlar dış dünyayla sınırlı derecede iletişim kurabilirler. Bu tez çalışmasında, makine öğrenmesi algoritmalarını uygulayarak 1-boyutlu hareketler içeren yardımcı teknolojileri kontrol etmek için glossokinetik potansiyel (GKP) tabanlı dil-makine arayüzü geliştirilmiştir. GKP sinyalleri, dil hareket bilgilerini içeren elektrik sinyalleridir. Tez çalışmasında GKP sinyalleri, deneysel düzenler içinde dil ucunun yanak duvarlarıyla teması sırasında kafa derisine yerleştirilen elektrotlarla ölçülmüştür. İnsan vücudunun en esnek organlarından biri olan dil, yardımcı teknolojiler alanında çalışan araştırmacılar tarafından ileri motor kontrol görevlerine aday olarak kabul edilmiştir. Dil, omurilik yaralanmaları ve çoğu sinir-kas bozukluklarında bile genellikle ağır hasarlardan kaçabilir ve beyine hipoglosal kraniel sinir yoluyla bağlanır. Bu nedenle, yüksek düzeyde omurilik yaralanması olan felçli kişiler bile, dil kontrol yeteneklerini korurlar. Bununla beraber dil, çok fazla çaba gerektirmeden ağız boşluğu içinde hızlı ve doğru bir şekilde hareket edebilir. Dahası, bu yetenekli organ, ağız boşluğu içinde olmasından dolayı engelli bireyler için mahremiyet sağlayabilir. Dil-makine arayüzlerini kullanan araştırma çalışmalarının çoğu, ağız boşluğu içinde ve baş çevresinde rahatsızlık veren, hijyenik olmayan ekipmanlara sahiptir. Ancak, bu tez çalışması, engelli insanlara yardımcı cihazları doğal, rahatsızlık vermeyen, hızlı ve güvenilir bir şekilde kontrol etmeye hizmet edebilir. Çalışmada, geleneksel makine öğrenmesi algoritmaları ve konvolüsyonel yapay sinir ağı kullanarak sırasıyla %99 ve %100'e ulaşan sınıflandırma doğrulukları elde edilmiş ve yöntemlerin karşılaştırmalı analizi yapılmıştır. Zaman alanı ve frekans alanı özellik çıkarma metotlarının yanı sıra ayrık dalgacık dönüşümü, temel bileşen analizi ve bağımsız bileşen analizi sinyal işleme teknikleri de kullanılmıştır. Ayrıca, glossokinetik potansiyel tabanlı dil-makine arayüzü, elektroensefalografi (EEG) sinyallerinden kaynaklanan önemli yetersizlikleri içeren geleneksel EEG tabanlı beyin-bilgisayar arayüzleri için alternatif veya yardımcı kontrol ve iletişim kanalı olabileceği beklenmektedir.Assistive technologies (ATs) can enable severely disabled individuals to communicate their intentions to other devices or individuals. These technologies will ease the burden on family members and health costs by facilitating the need for continuous help for individuals. In spinal cord injuries (SCIs) or amyotrophic lateral sclerosis (ALS), diasabled people can communicate with the external world to a limited degree. In this thesis study, we have developed glossokinetic potential (GKP) based tongue-machine interface (TMI) to control assistive technologies for 1-D movements via implementing machine learning algorithms. GKP signals are electrical signals that consist of information on tongue movements. In the thesis study, GKP signals were measured by electrodes placed on the scalp during contact of the tongue tip and buccal walls in the experimental setups. Tongue, one of the most flexible organs of the human body, has been accepted as a candidate for advanced motor control tasks by researchers in the field of assistive technologies. The tongue is connected to the brain via the hypoglossal cranial nerve and can generally escape severe damages in SCIs and most neuromuscular disorders. Hence, high-level SCIs still maintain intact tongue control capabilities. Then the tongue is able move quickly and accurately without so much effort. Moreover, this gifted organ may provide privacy for paralytics because in the oral cavity. Most of the research using TMIs have obtrusive, unhygienic pieces of equipment in the oral cavity and around the headset. However, this dissertation may serve disabled people to control assistive technologies in natural, unobtrusive, speedy and reliable manner. In the study, traditional machine learning algorithms and convolutional neural network were used and classification accuracies of %99 and %100 were achieved respectively. And then comparative analysis of the algorithms was performed. In addition to time domain and frequency domain feature extraction methods, discrete wavelet transform, principal component analysis and independent component analysis signal processing techniques were also used. Moreover, it is expected that GKP-based TMI could be alternative or partner control and communication channel for traditional electroencephalography (EEG)-based brain-computer interfaces (BCIs) which involve significant inadequacies arisen from the EEG signals

    <全文>言語資源活用ワークショップ2021発表論文集

    Get PDF
    会議名: 言語資源活用ワークショップ2021, 開催地: オンライン, 会期: 2021年9月13日-14日, 主催: 国立国語研究所 コーパス開発センタ
    corecore