9 research outputs found

    『UniDic』を活用した語構造情報付与の試み : 『日本語歴史コーパス』を対象に

    Get PDF
    National Institute for Japanese Language and Linguistics会議名: 言語資源活用ワークショップ2018, 開催地: 国立国語研究所, 会期: 2018年9月4日-5日, 主催: 国立国語研究所 コーパス開発センター本研究は『日本語歴史コーパス』に出現する合成語に対し,その内部構造に関する情報を新たに追加することで,日本語の語形成研究に使用可能なデータの構築をめざすものである。その方法として,各種コーパスに紐付いた解析用辞書「UniDic」の見出し語に対して,構成語情報を付与することを試みる。その設計方針と有用性を述べるとともに,現状の課題について報告する

    洒落本コーパス構築の試行

    Get PDF
    常葉大学国立国語研究所 研究系 言語変化研究領域 非常勤研究員Tokoha UniversityAdjunct Researcher, Language Change Division, Research Department, NINJAL筆者らは,現在,国立国語研究所で開発が進められている『日本語歴史コーパス』の一部として,近世洒落本を対象とするコーパスを開発しており,その試作版を『ひまわり版「洒落本コーパス」Ver. 0.5』(2015年10月28日公開)として公開した。本コーパス構築にあたっては,他の『日本語歴史コーパス』所収のコーパス同様,文書構造に関する情報や形態論情報を付与するとともに,新たに所蔵版本への画像リンクや,詳細な話者情報を付与する試みを行った。これにより,近世資料の持つ地域差・位相差にも配慮した近世語コーパスのモデルを示すことができた。This paper presents an overview, the features, and utility of the Sharebon Corpus. We attempted to construct a corpus of Early Modern Japanese text, which is a part of the Corpus of Historical Japanese (CHJ) built by The National Institute for Japanese Language and Linguistics. We released a trial version of the Sharebon Corpus on October 28, 2015. This corpus has not only annotated morphemes and document information, just as the other corpora of the CHJ, but also realized the following new functions. First, we implemented the reference function that displays images of original books printed from woodblocks. Second, we made detailed annotations of information about speakers. Early Modern Japanese texts are written in various styles because of the differences, such as region, social class, and generations among others. In this article, we will illustrate that this corpus, which provides voluminous information, will be effective for such texts

    Finishing the euchromatic sequence of the human genome

    Get PDF
    The sequence of the human genome encodes the genetic instructions for human physiology, as well as rich information about human evolution. In 2001, the International Human Genome Sequencing Consortium reported a draft sequence of the euchromatic portion of the human genome. Since then, the international collaboration has worked to convert this draft into a genome sequence with high accuracy and nearly complete coverage. Here, we report the result of this finishing process. The current genome sequence (Build 35) contains 2.85 billion nucleotides interrupted by only 341 gaps. It covers ∼99% of the euchromatic genome and is accurate to an error rate of ∼1 event per 100,000 bases. Many of the remaining euchromatic gaps are associated with segmental duplications and will require focused work with new methods. The near-complete sequence, the first for a vertebrate, greatly improves the precision of biological analyses of the human genome including studies of gene number, birth and death. Notably, the human enome seems to encode only 20,000-25,000 protein-coding genes. The genome sequence reported here should serve as a firm foundation for biomedical research in the decades ahead

    「いかがわしい」の成立と定着

    No full text
    1.はじめに / 2.接尾辞「ハシ」とその派生形容詞 / 3.「いかが」から派生した2つの形容詞 / 4.「いかがしい」から「いかがわしい」へ / 5.おわり
    corecore