39 research outputs found

    〈共同研究プロジェクト紹介〉独創・発展型 : 近代語コーパス設計のための文献言語研究 『明六雑誌コーパス』『太陽コーパス』から見る近代語彙

    Get PDF
    国立国語研究所言語資源研究系本プロジェクトでは,通時的な日本語コーパスの一部として必要な近代語のコーパスを設計するための研究を実施した。本プロジェクトで作成した『明六雑誌コーパス』は,単語に関する詳細な情報が付与されたはじめての近代語コーパスである。また,2005年に公開した『太陽コーパス』に対しても詳細な単語情報を付与する試行を行った。明治期から大正期を対象とするこれら二つのコーパスデータを用いて,近代語彙の変化を概観する研究を行った。その結果,漢語の数が減少し,一部の漢語が基本語化していったことが明らかになった。さらにまた,基本語化した漢語は既存の基本語との間に,意味的に使い分けられることも明らかになった。これらは,明治から大正期に新しい語彙体系が形成されていったことを示している。This paper reports research conducted in order to design the corpus of modern Japanese that will be an essential part of the planned diachronic Japanese corpus. The "Meiroku Corpus," which was built in our project as a model for the modern Japanese corpus, is the first modern corpus with detailed morphological annotation. We also carried out trial annotations of the same kind for the "Taiyo Corpus," built in 2005. Using these two corpora, which cover Japanese in the Meiji and Taisho periods, we investigated changes in the modern Japanese vocabulary. The results show that the number of Sino-Japanese words decreased but that some Sino-Japanese words were gradually incorporated into the basic vocabulary. It also became clear that these newly incorporated words were semantically differentiated from basic words that already existed. These findings show that a new vocabulary system was formed in Meiji and Taisho periods

    〈共同研究プロジェクト紹介〉基幹型 : 通時コーパスの設計 『日本語歴史コーパス』による平安時代と室町時代の語彙の比較

    Get PDF
    明治大学国際日本学部本論文では,『日本語歴史コーパス』を用いて,平安和文と室町狂言の語彙調査を行った。その結果,全体として漢語と混種語が大きく増加していることと,高頻度の基本的な語彙においてもそれらの語種が大きく増加していることがわかった。また,漢語はその数が増加しただけではなく,その意味の範囲も拡大させていた。この変化は,時代差だけでなく,ジャンル差によるところもあると考えられる。以上の結果をもとに,コーパスによる日本語史研究の意義と課題について議論した。In this paper, I investigate lexical changes from Heian Wabun to Muromachi Kyogen using the Corpus of historical Japanese. The results show that the number of Sino-Japanese words and hybrid words increased significantly overall. The results also show that such words increased significantly in the high-frequency basic vocabulary, and that their semantic range expanded. These changes are due not only to the time difference but also to the genre difference. Based on these results, I discuss the significance of diachronic corpora for historical studies of Japanese and also some of the problems that arise

    「分類語彙表番号-UniDic語彙素番号対応表」の構築

    Get PDF
    国立国語研究所 コーパス開発センター 非常勤研究員明治大学Adjunct Researcher, Center for Corpus Development, NINJALMeiji University日本語の大規模コーパスへの網羅的・体系的な語義情報付与を目的として,語義の体系的な分類を示す大規模な現代日本語のシソーラス『分類語彙表増補改訂版データベース』の見出しと,各種大規模コーパスの構築に利用されている電子化辞書UniDicの見出し(語彙素)との同語関係による対応を表す表形式データの構築を行った。同語判別の作業は分類語彙表・UniDic両者の見出しの表記・読み・類の対応に基づいて人手により行い,その結果,『分類語彙表』の64,759見出しとUniDicの50,795語彙素との同語関係による多対多の対応を表す「分類語彙表番号-UniDic語彙素番号対応表」を構築した。本対応表を活用して大規模コーパスへの網羅的な語義情報付与作業が始まっており,また,形態素解析結果に分類語彙表番号を付与する機能を実装した形態素解析ツールも開発された。一方で,本格的な大規模コーパスへの語義情報の網羅的付与に向けて,対応表の拡張や多義語の語義選択といった課題への対処も必要である。In this study, we have constructed an alignment table between \u27Word List by Semantic Principles (revised and enlarged edition)\u27 (hereafter WLSP) and UniDic to develop large-scale Japanese corpora which is comprehensively annotated with systematic word senses. WLSP is an extensive contemporary Japanese thesaurus with systematic semantic categories. UniDic is a vast lexicon used for Japanese morphological analysis and is utilized in the development of large-scale Japanese corpora. The alignment table defines n-to-n same word relations between 64,759 WLSP entries and 50,795 UniDic lexemes. These relations were manually verified based on scripts, readings, and classes of the WLSP entries and the UniDic lexemes. The development of word-sense annotated Japanese corpora has commenced with the use of the table. A Japanese morphological analysis tool to annotate word-sense was also developed with the table. Meanwhile, for a full-scale development of word-sense annotated Japanese corpora, it is necessary that problems, such as enlargement of the table and identification of word senses in corpora are effectively dealt with

    総合雑誌『太陽』の本文の様態と電子化テキスト

    Get PDF
    国立国語研究所東京大学大学院国立国語研究所では総合雑誌『太陽』(1895-1928)のコーパス(「太陽コーパス」)作成を進めている。その一部をなす『太陽』1901年12冊分の本文の電子化テキストを試験的に公開し,批判を得たい。『太陽』の本文は,現代の総合雑誌とは異なる様態を種々示しており,それらは,電子化に際して相応の問題を生じる。そうした雑誌本文の様態を整理し,その様態に応じて必要になる仕様を策定し,その仕様にしたがって電子化テキストを作成する。基本となるデータには,XML形式を採用し,この形式を通して,データの保守,変換,検索等も行う

    『UniDic』と『分類語彙表』の見出し対応表データの構築

    Get PDF
    会議名: 言語資源活用ワークショップ2016, 開催地: 国立国語研究所, 会期: 2017年3月7日-8日, 主催: 国立国語研究所 コーパス開発センター日本語の大規模コーパスへの網羅的・系統的な語義情報付与を目的として,各種大規模コーパスの構築に利用されている形態素解析辞書の元データである電子化辞書UniDic の見出し(語彙素)と,大規模な現代日本語のシソーラス『分類語彙表増補改訂版データベース』の見出しとを対応づける表形式データの構築を行った(2017 年公開予定)。対応付け作業はUniDic・分類語彙表両者の見出しの読み・表記・類に基づき人手により行い,2017 年1 月時点で,UniDic 語彙素50,122 と分類語彙表見出し64,045 の多対多の関連を表す対応表が構築できている。一方で,見出しの単位設計の違いにより,UniDic 語彙素と対応付けできない分類語彙表見出しの存在も明らかになった。さらに,本対応表を用いた大規模コーパスへの網羅的な語義情報付与に向けて,今後検討すべき課題の存在も明らかになった
    corecore