BCCWJ小説会話文への話者情報の付与とその活用

Abstract

National Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsMeiji University会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センター本稿では「現代日本語書き言葉均衡コーパス」の図書館サブコーパスに含まれる小説(NDCで913, 923など)のサンプルにおける会話文に話者情報を付与した結果とそれを用いた分析について紹介する。付与したサンプル数は2,663サンプルである。付与した話者情報は「話者名、性別、年齢層」(これらは必須)のほか、「話者の社会的属性(職業など)、会話相手の情報、会話モード(電話での会話、方言での会話、外国人の会話等)」なども全てのサンプルにではないが付けている。「話者名、性別、年齢層」については、「中納言」の検索結果に表示することを計画している。また、その他の話者情報は、中納言のサイトからBCCWJ所有者に限りダウンロードできるようにする予定である。分析から分かったこととして以下の4点を挙げる。(1)小説の全センテンスの約4割が会話文であること。(2)性別では女性の会話文が全体の約3割であること。(3)年齢層では約75%が成年層の会話であり,若年層は約20%,老年層は約5%であること。(4)会話モードでは、電話による会話が全体の約4%程度あること。また、方言による会話文が約5,000あり、その多くは大阪を中心とした関西の方言であること

    Similar works