1,314 research outputs found

    『現代日本語書き言葉コーパス』完成記念講演会ポスター

    Get PDF
    『現代日本語書き言葉均衡コーパス』完成記念講演会,JA共済ビル,2011年8月2-3日,特定領域研究「日本語コーパス」総括

    『現代日本語書き言葉コーパス』完成記念講演会予稿集

    Get PDF
    『現代日本語書き言葉均衡コーパス』完成記念講演会,JA共済ビル,2011年8月2-3日,特定領域研究「日本語コーパス」総括

    語彙密度を利用した『現代日本語書き言葉均衡コーパス』テクスト分類の試み

    Get PDF
    国立国語研究所国立国語研究所国立国語研究所国立国語研究所国立国語研究所国立国語研究所国立国語研究所国立国語研究

    『現代日本語書き言葉均衡コーパス』のロシア語翻訳データの構築とその日露対照研究への活用の可能性

    Get PDF
    東京大学東京外国語大学大学院 博士後期課程The University of TokyoPh.D. Student, Tokyo University of Foreign Studies『現代日本語書き言葉均衡コーパス』(の一部のデータ)には,既に英語,イタリア語,インドネシア語,中国語の翻訳データが構築されているが,新たにロシア語の翻訳データを構築した。対象となる起点テキストは『現代日本語書き言葉均衡コーパス』新聞(PN)コアデータ16サンプル(総語数は短単位で全16,657語)とし,ロシア語目標テキストの総語数は13,070語となった。本データの構築にあたっては,日本語からロシア語へ人手による翻訳を行ったが,日本語とロシア語の言語構造の違いや表現の違い等により,翻訳に困難が生じた箇所もあった。本稿では,翻訳データの構築方法,翻訳の際の留意点の詳細を述べる。また,原文の日本語テキストと翻訳先のロシア語テキストは人手で文単位のアライメントを取り,各文にはIDを付与した。その作業方法についても記述する。翻訳データの構築,アライメント作業により,起点テキストと目標テキストは簡易的な日露パラレルコーパスとして利用可能となり,日露対照研究や類型論研究に活用できると考えられる。本稿では,このような活用の可能性を示すために,ケーススタディとして日本語の文末表現を取り上げ,ロシア語と対照させて同異を議論する。A part of the data of the "Balanced Corpus of Contemporary Written Japanese" (BCCWJ) is translated into English, Italian, Chinese, and Indonesian. We added new translation data collected from 16 samples of newspaper (PN) core data to BCCWJ in Russian. The total length of the Japanese source text is 16,657 short unit words, which corresponds to 13,070 words in the Russian target text. The translation was conducted manually by a native Russian speaker. During the translation, various difficulties were encountered due to significant structural and lexical differences between Japanese and Russian. This study introduces the data construction method that we used and some key points that we focused on while translating. We also manually aligned all sentences in the source text with those in the translation and assigned an ID to each sentence; this study provides an explanation regarding this workflow as well. Translation and alignment make the original data and their translation function as a simple Japanese-Russian parallel corpus. This can be useful for Japanese-Russian comparative studies and linguistic typology studies. In this study, we address Japanese sentence endings and compare them with Russian ones as a case study to present the possible ways of using our new translation data

    Construction of Learner Corpora and International Corpus of Learner Japanese (ICLEAJ) in Japanese Language Education

    Get PDF
    This study has three purposes. Firstly, I summarize the standards and characteristics found in currently available corpora of English among Japanese learners and of Japanese amongforeign learners. Secondly, I discuss what aspects such learner corpuses might uncover through Granger’s CIA model and what corpus designs would be able to address the criticismsagainst natural, or non-elicited, language data. Thirdly, I describe the design standards and characteristics found in our International Corpus of Learner Japanese (ICLEAJ).研究論

    『現代日本語書き言葉均衡コーパス』書籍サンプルのNDC情報増補

    Get PDF
    National Institute for Japanese Language and LinguisticsTsuda University / National Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and Linguistics会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センター『現代日本語書き言葉均衡コーパス』の書籍サンプル(PB(出版)10,117サンプル・LB(図書館)10,551サンプル・OB(ベストセラー)1,390サンプル)に付与された日本十進分類法(NDC)分類記号の補助分類を拡張した。また、開発当時NDC分類記号が付与されていなかったサンプル(「分類なし」)などの見直しもあわせて行った。作業は、国立国会図書館のNDC情報を参照し、人手によって分類の確認と追加を進めた。本作業結果により、たとえば形式区分を利用し、ジャンルの分散する「随筆(-049)」「理論(-01)」「研究法(-07)」などのカテゴリでBCCWJサンプルを分類することが可能となった。このほか、時代情報や小項目が追加されたサンプルもあり、今まで以上に詳細な分類が可能となった。本発表では、情報付与作業の方法と基礎情報を報告し、分類例を示す。本作業結果データは「中納言」の検索結果として利用可能となる
    corecore