37 research outputs found
Construction of the corpus of senmyō: one of the oldest materials of Japanese language
Of the oldest texts written in native Japanese that still exist today, waka (poems) and senmyō (imperial edicts) from the 8th century comprise the largest part. In this period, texts were usually written in Classical Chinese, but waka and senmyō were written in native Japanese using kanji (Chinese characters). Therefore, they are valuable materials of Old Japanese for linguists. We worked on construction of the corpus of senmyō mainly for the purpose of language research. Our corpus adheres to the writing style of the original text and is created under a unified design as part of the diachronic corpus covering from the eighth century to the present (CHJ)
近代語テキストの形態素解析
国立国語研究
多重の読みを持つテキストのコーパス化
会議名: 言語資源活用ワークショップ2016, 開催地: 国立国語研究所, 会期: 2017年3月7日-8日, 主催: 国立国語研究所 コーパス開発センター日本語のテキストには,本文漢字の通常の読みを示すのではない特殊な読みをもつ振り仮名(たとえば「強敵」と書いて「とも」とふりがなを振る類)や,掛詞(「ながめ」を「眺め」「長雨」の両用に読む類から,語形の一部から別の語を連想させる類まで),各種の洒落など,意図的に多重の読みを持たされたテキストが少なくない。従来のコーパスではこのような多重の読みは切り捨てられ,選択されたただ一つの読みを配置することが多かった。本発表では,このような多重の読みを持つテキストについて,主として『日本語歴史コーパス』の事例を整理して示すとともに,そのあるべきコーパスアノテーションの方法について論じる
〈共同研究プロジェクト紹介〉萌芽・発掘型 : 統計と機械学習による日本語史研究 歴史的日本語資料のアノテーションと自動濁点付与
国立国語研究所言語資源研究系通時コーパスの構築に必要とされる歴史的日本語資料のアノテーションの全体について俯瞰した上で,アノテーション作業の自動化の試みの一つとして濁点の自動付与に関する研究成果を紹介する。歴史的資料では,濁点が十分に付与されていないものが少なくないが,そのままでは読みにくく検索や形態素解析にとって不都合である。そこで統計的機械学習に基づく自動濁点付与の手法を開発し,適合率約96%,再現率約98%での濁点付与を可能にした。これにより通時コーパス構築の作業負担の軽減が期待できる。最後に,今後の歴史コーパスに期待される高度なアノテーションについて展望する。Following a survey of annotations for historical Japanese documents that are required for the construction of a diachronic corpus, I introduce the results of our research on adding dakuten (the voicing diacritic) automatically. Raw historical texts often include characters with dakuten omitted, but such texts degrade readability and retrievability and are not suitable for morphological analysis. We therefore developed an automatic annotation technique for dakuten based on statistical machine learning that has a precision rate of approximately 96% and a recall rate of approximately 98%. This technique can reduce the work involved in diachronic corpus construction. Finally, I discuss the high-level annotation that can be expected in diachronic corpora from now on
Long Unit Word Tokenization and Bunsetsu Segmentation of Historical Japanese
Conference name: the 1st Workshop on Machine Learning for Ancient Languages (ML4AL 2024), Conference place: Bangkok, Thailand, Session period: 2024/08/15, Organizer: Association for Computational Linguisticsapplication/pdfTokyo University of Agriculture and TechnologyTokyo University of Agriculture and TechnologyNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and Linguisticsconference pape
総合雑誌『太陽』の本文の様態と電子化テキスト
国立国語研究所東京大学大学院国立国語研究所では総合雑誌『太陽』(1895-1928)のコーパス(「太陽コーパス」)作成を進めている。その一部をなす『太陽』1901年12冊分の本文の電子化テキストを試験的に公開し,批判を得たい。『太陽』の本文は,現代の総合雑誌とは異なる様態を種々示しており,それらは,電子化に際して相応の問題を生じる。そうした雑誌本文の様態を整理し,その様態に応じて必要になる仕様を策定し,その仕様にしたがって電子化テキストを作成する。基本となるデータには,XML形式を採用し,この形式を通して,データの保守,変換,検索等も行う
日本語研究のためのXMLタグ付けプログラム : その開発と活用例
国立国語研究所国立国語研究所The National Institute for Japanese LanguageThe National Institute for Japanese Language現在XMLで作られた日本語の言語資料が普及しつつある。これを日本語研究で有効に活用するため,資料が持つ情報を十分に引き出した調査を行い,その調査結果を再利用可能な形で保存,時々の研究場面に応じて参照する研究手法を提案する。まず,その手法を実現するために必要なXMLタグ付けプログラム「たんぽぽタガー」の開発について,プログラムの概要とともに報告する。次に,このプログラムを使ったタグ付けの方法と,タグ付けしたXML文書にXSLTを適用して研究に有用なリストに変換する方法を,研究手順に沿って具体的に紹介する。At present, Japanese linguistic resources in XML format are becoming common. It is required to use these resources efficiently for Japanese linguistic studies. Therefore, we have developed a XML-tagging program Tanpopo Tagger which provides new methods for linguistic research using XML documents. This program enables linguists to mark up text strings in any XML document with original tags which have useful attributes. With this program, linguists can fully extract necessary information from the resources for their research. And also, they can save the results of the research as XML tags to reuse them in other studies. In this paper, we first describe the function and usage of this program and its usage. Next, we show some examples of study using this program, and XSLT style sheets we made for linguistic research. By applying these style sheets to the XML documents tagged by this program, linguists can easily create their original lists or tables of the strings
中古和文における個人文体とジャンル文体 : 多変量解析による歴史的資料の文体研究
日本学術振興会 特別研究員PD国立国語研究所 言語資源研究系Research Fellow (PD), Japan Society for the Promotion of ScienceDepartment of Corpus Studies, NINJAL本研究の目的は,中古和文コーパスを分析対象とし,個人文体とジャンル文体の関係を明らかにすることである。具体的には,紫式部の『源氏物語』と『紫式部日記』,そして『更級日記』における助詞・助動詞の使用傾向を調査し,テクスト間の相互関係,言語項目間の相互関係,テクストと言語項目の結びつきのパターンを定量的に分析する。そして,多変量解析の手法を援用し,中古和文のテクストにおいて,書き手による文体差よりもジャンルによる文体差の影響が大きいことを示す。さらに,個々のテクストにおける語彙使用を詳細に分析するために,対数尤度比による特徴語抽出を行い,多変量解析の結果を補完する。The aim of the present study is to investigate styles and genres in Early Middle Japanese. By applying multivariate analysis to historical corpus stylistics, the present paper examines the frequencies of postpositional particles and auxiliary verbs in The Tale of Genji, The Diary of Lady Murasaki, and The Diary of Lady Sarashina, and visualizes in a multi-dimensional space the complex interrelationships among texts, the interrelationships among stylistic features, and the association patterns between texts and stylistic features. By so doing, we demonstrate that genres have more influence than writers on the style of a text. In addition, using log-likelihood ratios, we extract keywords from each text for more detailed analysis of the stylistic differences among texts
KOTONOHA : A Corpus Concordance System for Skewer-Searching NINJAL Corpora
National Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsPicolab Inc.National Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsThe National Institute for Japanese Language and Linguistics, Japan (NINJAL, Japan), has developed several types of corpora. For each corpus NINJAL provided an online search environment, \u27Chunagon\u27, which is a morphological-information-annotation-based concor-dance system made publicly available in 2011. NINJAL has now provided a skewer-search system \u27Kotonoha\u27 based on the \u27Chunagon\u27 systems. This system enables querying of multiple corpora by certain categories, such as register type and period
『日本語歴史コーパス』における原文KWIC表示機能の実装
会議名: 言語資源活用ワークショップ2017, 開催地: 国立国語研究所, 会期: 2017年9月5日-6日, 主催: 国立国語研究所 コーパス開発センター日本語史研究の基礎資料は,残された文献に見られる用例である。用例の原文は今日一般に用いられる表記とは大幅に異なる形である場合が少なくない。例えば,『万葉集』は万葉仮名で,キリシタン資料は当時のポルトガル語のローマ字で表記されている。こうした資料をコーパスとして形態論情報を付与し,現代人に読みやすいものとするためには,原文を校訂して漢字平仮名交じりにした読み下し本文を用意する必要がある。一方で,読み下し本文では失われてしまう情報も少なくないため,用例には原文を併せて表示することが求められる。『日本語歴史コーパス』では従来,原文情報を保持しつつ必要な修正を行った上で形態論情報を付与して公開してきたが,原文情報の提供は限定的だった。今回新たに,コーパス検索アプリケーション「中納言」上で,原文の前後文脈付きで検索結果を表示できる機能を実装した。本発表ではこの原文KWIC表示機能について述べる