28 research outputs found

    BCCWJ-TimeBank: Temporal and Event Information Annotation on Japanese Text

    Get PDF

    外の関係の連体修飾節を伴う名詞述語について

    Get PDF
    会議名: 言語資源活用ワークショップ2017, 開催地: 国立国語研究所, 会期: 2017年9月5日-6日, 主催: 国立国語研究所 コーパス開発センター『現代日本語書き言葉均衡コーパス』述語項構造データを使って,人魚構文の抽出と,人魚構文になりやすい名詞の評価を行った。名詞が(1)外の関係の連体修飾節を持つか,(2)主節述語か,(3)連体修飾節の主語と主節の主語が一致するかを調べた。全ての条件を満たす場合をいわゆる人魚構文とみなし,外の関係の連体修飾節を持ちやすい名詞と,人魚構文になりやすい名詞をG検定統計量で評価した。外の関係になりやすい名詞60種についてNWJC2vecからベクトル表現を取得しクラスタリングしたところ,直感にあう分類が得られたが,分類と人魚構文へのなりやすさは必ずしも一致しなかった。同じ名詞を,G値による評価と内省評価によって真陽性,真陰性,偽陽性,偽陰性に分類し,その要因をそれぞれ記述的に分析した

    日本語名詞述語文への意味情報付与

    Get PDF
    文部科学省 初等中等教育局Elementary and Secondary Education Bureau, MEXT日本語名詞述語文に関する既存の記述的研究の集約と共有可能な研究用言語資源の構築を目的として,京都大学テキストコーパスに含まれる名詞述語文に意味情報を付与した。このタスクはi)コーパスのXML化,ii)4種類の言語資源(拡張固有表現タグ付きコーパス,CRL固有表現データ,日本語WordNet,SUMO)による語義付与,iii)名詞述語文の抽出,iv)主語と述語の意味関係付与の4つの下位タスクを含む。アノテーションの結果に基づき,意味関係と語義の共起関係や,名詞述語文の構文的,意味的特徴について検討を行った。I annotated semantic information on copular sentences contained in the Kyoto University Text Corpus for the purpose of consolidating descriptive research and constructing a sharable resource for linguistic research. This task had four subtasks: i) converting the corpus into XML format, ii) annotating word meanings using four semantic resources (Extended Named Entity Annotated Corpora, CRL named entity data, Japanese WordNet, and SUMO), iii) extracting copular sentences in the corpus, and iv) annotating a semantic relation between the subject and predicate of copular sentences. Following the results of the annotation, I investigated the semantic relationships between the subject and predicate and their word meanings, and the syntactic and semantic features of Japanese copular sentences

    『現代日本語書き言葉均衡コーパス』に対する名詞述語文アノテーション

    Get PDF
    Ministry of Education, Culture, Sports, Science and Technology会議名: 言語資源活用ワークショップ2018, 開催地: 国立国語研究所, 会期: 2018年9月4日-5日, 主催: 国立国語研究所 コーパス開発センター「現代日本語書き言葉均衡コーパス」コアデータに対して名詞述語文に関する文法情報付与を行った。付与したラベルの概数は名詞述語文の主語述語13700組、名詞述語の連体修飾節3200、機能表現などの周辺的ラベル4600である。主語は名詞主語とノ節主語に分類し、前者はis_aなど述語との意味関係を、後者は分裂文焦点に対する文法関係を付与した。述語は通常の名詞述語の他、「XはYになる」のような補語も若干数付与した。周辺表現ラベルは「する」が省略された漢語動詞、名詞述語由来の機能表現、述語が省略された節などを含む。本稿では、データの設計と既存の述語項構造データとの違い、構築したデータの計量的概観について説明し、本データが名詞述語文の文法研究における諸問題とどのように関係するかについて論じる

    語彙多様性指標の可視化と単回帰分析によるTTRの補正

    Get PDF
    Ministry of Education, Culture, Sports, Science and Technology会議名: 言語資源活用ワークショップ2018, 開催地: 国立国語研究所, 会期: 2018年9月4日-5日, 主催: 国立国語研究所 コーパス開発センター語彙多様性を評価する既存の指標には、延べ語数Nと異なり語数V(N)を入力とするもの、単語別の頻度を入力とするもの、単語列を入力とするものなどがある。本発表では、これらの指標の特徴を整理し、「現代日本語書き言葉均衡コーパス」(BCCWJ)を使用して指標値の分布を可視化する。NとV(N)を入力とする指標のいくつかは、両者の間に冪乗則V(N)=aNbを仮定している。TTRはb=1、Rはb=0.5としてaを指標値として利用するが、1では大きすぎ、0.5では小さすぎる。そこでV(N)とNの対数を単回帰分析してbの最適値を推定し、TTRを補正することを考える。実際には冪乗則は成立しないため、この補正は近似的だが、比較的簡単によい補正を得ることができる。この補正値を他の指標と比較し、テキストサイズが指標値の平均やばらつきに及ぼす影響を評価する。また、BCCWJの12のサブコーパスについてbの値を推定し、一覧で示す

    児童作文における係り受け距離と階層距離

    Get PDF
    University of Tsukuba会議名: 言語資源活用ワークショップ2021, 開催地: オンライン, 会期: 2021年9月13日-14日, 主催: 国立国語研究所 コーパス開発センター児童作文の文節係り受け構造について、係り受け距離と階層距離(係り受けの深さ)の分布を調べた。係り受け距離和と階層距離和の頻度分布はいずれも対数正規分布に従っており、それを文節数−1で除した係り受け平均と階層距離平均も同様の分布だった。係り受け距離平均と階層距離平均は文節数に従って大きくなるので、学年を変量効果としてμ=(af+ar)log(n/2)で線形混合モデル分析を行った。固定効果は後者の方が大きく、全体としては長い係り受けよりも深い係り受けを使って文を長くすることが分かった。また、変量効果を見ると小学校低学年から中学年にかけては長い係り受けを比較的多く使用し、高学年以降は比較的使わなくなっていくこと、ほぼ全学年を通じて学年が上がるほど深い係り受けをより多く使用するようになることが分かった

    The Semantics of Japanese Copular Sentences in Generative Lexicon Theory

    Get PDF

    もし小学生が『現代日本語書き言葉均衡コーパス』並みに漢字を使ったら

    Get PDF
    会議名: 言語資源活用ワークショップ2016, 開催地: 国立国語研究所, 会期: 2017年3月7日-8日, 主催: 国立国語研究所 コーパス開発センター『児童・生徒作文コーパス』と『現代日本語書き言葉均衡コーパス』(BCCWJ) を用いて,児童がBCCWJ と同等の水準で漢字を使用した場合に,各漢字の頻度がどの程度になるかを推定し,その結果をワードクラウドを用いて可視化した。また,その結果を用いて,学年ごとの推定頻度の比較,BCCWJ における漢字頻度との比較,教科書コーパスについて同様に漢字頻度を推定したものとの比較を行い,推定頻度と学年の相関,児童作文に固有の高頻度漢字,小学校配当外の高頻度漢字,小学校配当の低頻度漢字を調べた

    学校課題作文コーパスの構築

    Get PDF
    University of TsukubaUniversity of Toyama会議名: 言語資源活用ワークショップ2020, 開催地: オンライン, 会期: 2020年9月8日−9日, 主催: 国立国語研究所 コーパス開発センター児童の作文能力を研究するための資料整備を目的として、現在の児童の作文調査や、過去の作文資料の電子化を進めている。この研究の一環として、国語研究所所蔵の1980年代の作文資料(島村1987)を電子化したので、その概要を報告する。この資料は昭和58年に千葉県内の公立小学校2年、4年、6年の児童の作文を調査したもので、「学校」「先生」「ともだち」の3つの課題を含む。原資料は約1440篇ほどの規模の調査と考えられるが、資料の欠落もあり、電子化した資料は1021篇である。資料の概要と電子化作業の詳細について報告し、既に構築済みの「児童・生徒作文コーパス」(2014-2016)、「「手」作文コーパス」(1992, 2016)との違いについて、文字種の構成比を中心に説明する
    corecore