「日本語話し言葉コーパス」における書き起こしの方法とその基準について

Abstract

国立国語研究所青山学院大学/国立国語研究所東京都立大学/国立国語研究所東京大学/国立国語研究所国立国語研究所国立国語研究所国立国語研究所国立国語研究所,通信総合研究所,東京工業大学では,科学技術振興調整費開放的融合研究制度『話し言葉の言語的・パラ言語的構造の解明に基づく「話し言葉工学」の構築』プロジェクトにおいて,自発性の高い話し言葉の情報処理基盤技術の確立を目標に活動を進めている。現在国立国語研究所では,このプロジェクトの一環として,モノローグを対象とした大規模な日本語話し言葉コーパスを作成している。このコーパスには,約700時間(約700万語に相当)の音声,書き起こしテキスト,および品詞や分節音,韻律などの情報が含まれる予定である。本稿では,本コーパスの書き起こしの方法とその基準について紹介する

    Similar works