語彙・文型調査を目的とした『幼稚園の配布文書コーパス』の作成

Abstract

会議名: 言語資源活用ワークショップ2016, 開催地: 国立国語研究所, 会期: 2017年3月7日-8日, 主催: 国立国語研究所 コーパス開発センター現在,多くの幼稚園では日本語を母語としない保護者(NonNativeSpeaker 保護者,以下NNS 保護者)が見られるが,日本語学習の機会が少なく日本語が十分に理解できない場合,幼稚園の配布文書が正しく理解されず,情報伝達がうまくいかずに保育活動に支障をきたすこともある。そのため,将来的に教師とNNS 保護者を結ぶ「保護者に伝わるやさしい日本語」のテキスト化をめざし,『幼稚園の配布文書コーパス』を作成している。コーパスの作成では,より精度の高い語彙・文型調査が行えるよう,OCR ソフトの認識誤りを人手だけで修正するのではなく,形態素解析システム(unidic-mecab2.1.2)も活用して誤りを発見して修正し,さらに正確に語に区切れない場合は表記の変更・記号の追加を行っている。本発表では,そのコーパス作成法について報告する

    Similar works