コーパス構築における発話アライメントの現状

Abstract

会議名: 言語資源活用ワークショップ2016, 開催地: 国立国語研究所, 会期: 2017年3月7日-8日, 主催: 国立国語研究所 コーパス開発センター音声コーパスの構築にあたり,音声信号に対し発話・音韻・韻律などの各種ラベルを付与する必要がある。これらのラベルは音声分野の知識を有した作業者による目視や聴音を基に付与されることがほとんどであり,大規模コーパス構築において大きな負担となっている。特に近年研究対象となることが多い自発発話では,言い誤りや言い澱み,曖昧な発声などの現象が頻繁に生じるため,自動ラベリングを困難にしている。本稿では,転記テキストのラベリングに焦点を絞り,既存の音声認識によるシステムを応用した自動アライメントの現状について報告する。自発発話が収録されている「日本語話し言葉コーパス(CSJ)」および「日本語日常会話コーパス(CEJC)」を用いてシステムの性能評価を行い,自動アライメントの今後の課題について述べる

    Similar works