転置畳み込みニューラルネットワークを用いたrtMRIデータからの調音-音響変換

Hidefumi OHMURA; Kouichi KATSURADA; Ryo TANJI; Shun SAWADA; 丹治 涼; 大村 英史; 桂田 浩一; 澤田 隼

転置畳み込みニューラルネットワークを用いたrtMRIデータからの調音-音響変換

Authors: Hidefumi OHMURA
Kouichi KATSURADA
Ryo TANJI
Shun SAWADA
丹治涼
大村英史
桂田浩一
澤田隼
Publication date: 1 January 2021
Publisher: 国立国語研究所

Abstract

Tokyo University of ScienceTokyo University of ScienceTokyo University of ScienceTokyo University of Science会議名: 言語資源活用ワークショップ2021, 開催地: オンライン, 会期: 2021年9月13日-14日, 主催: 国立国語研究所コーパス開発センター本稿では，rtMRIデータから音響特徴量を生成するための深層学習モデルを提案する。調音器官全体を高解像度で記録できるrtMRIは，調音データから音響特徴量を生成するための元データとして有用であると考えられるが，フレームレートが比較的低いという問題がある。そこで我々は，転置畳み込みネットワークを用いて時間軸方向に超解像処理を行う方法を提案する。標準的な畳み込みニューラルネットワークが畳み込みによって主に画像の近隣情報を圧縮するのに対して，転置畳み込みネットワークではこの逆の操作を行うことにより，画像の解像度を向上させる。本手法ではこの超解像処理をrtMRIデータの時間方向に適用することによって，rtMRIデータの時間解像度を向上させる。メルケプストラム歪みとPESQを評価尺度として用いた実験の結果，転置畳み込みネットワークは正確な音響特徴量の生成に有効であることがわかった。また，超解像処理の倍率を上げることで，PESQのスコアが向上することも確認した

Similar works

Full text

Open in the Core reader

Download PDF

Available Versions

Academic Repository of the National Institute for Japanese Language and Linguistics / 国立国語研究所学術情報リポジトリ

oai:repository.ninjal.ac.jp:00...

Last time updated on 09/01/2022