3 research outputs found

    文書領域情報を有するBERTの階層位置に関する考察

    Get PDF
    Ibaraki UniversityIbaraki UniversityIbaraki UniversityIbaraki UniversityIbaraki UniversityIbaraki University会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センターBERTはTransformerで利用されるMulti-head attentionを12層(あるいは24層)積み重ねたモデルである。各層のMulti-head attentionは、基本的に、入力単語列に対応する単語埋め込み表現列を出力している。BERTの各層では低層から徐々に何からの情報を取り出しながら、その文脈に応じた単語の埋め込み表現を構築していると考えられる。本論文では領域適応で問題となる領域情報に注目し、BERTの出力の各層が持つ領域情報がどのように推移するのかを考察する

    BERTによる単語埋め込み表現の分散値を用いた語義の広がりの分析

    Get PDF
    Ibaraki UniversityIbaraki UniversityIbaraki UniversityIbaraki UniversityIbaraki University会議名: 言語資源活用ワークショップ2020, 開催地: オンライン, 会期: 2020年9月8日−9日, 主催: 国立国語研究所 コーパス開発センターBERT が出力する単語の埋め込み表現は,その単語が現れた文の文脈に依存している.このためある単語wの用例を収集し,BERT により得られる単語wに対する埋め込み表現から,それらの分散値を計算すると,その値は単語wの語義の広がりに対応すると考えられる.そこで多義語「頭」「意味」「核」「記録」「言葉」「胸」と単義語「生産」,「政治」,「意識」,「抗議」,「成績」を対象にそれら単語の用例を収集し,分散値の比較を行った.多義語に対しては大きな分散値,単義に対しては小さな分散値が出ることが予想される.またBERT のどの位置の階層が最も語義の広がりに影響しているかも調査した.しかしこれら実験から,上記の分散値では語義の広がりを測定するのは困難であることがわかった.その原因について考察する
    corecore