転置畳み込みニューラルネットワークを用いたrtMRIデータからの調音-音響変換

Abstract

Tokyo University of ScienceTokyo University of ScienceTokyo University of ScienceTokyo University of Science会議名: 言語資源活用ワークショップ2021, 開催地: オンライン, 会期: 2021年9月13日-14日, 主催: 国立国語研究所 コーパス開発センター本稿では,rtMRIデータから音響特徴量を生成するための深層学習モデルを提案する。調音器官全体を高解像度で記録できるrtMRIは,調音データから音響特徴量を生成するための元データとして有用であると考えられるが,フレームレートが比較的低いという問題がある。そこで我々は,転置畳み込みネットワークを用いて時間軸方向に超解像処理を行う方法を提案する。標準的な畳み込みニューラルネットワークが畳み込みによって主に画像の近隣情報を圧縮するのに対して,転置畳み込みネットワークではこの逆の操作を行うことにより,画像の解像度を向上させる。本手法ではこの超解像処理をrtMRIデータの時間方向に適用することによって,rtMRIデータの時間解像度を向上させる。メルケプストラム歪みとPESQを評価尺度として用いた実験の結果,転置畳み込みネットワークは正確な音響特徴量の生成に有効であることがわかった。また,超解像処理の倍率を上げることで,PESQのスコアが向上することも確認した

    Similar works