Search CORE

3 research outputs found

文書領域情報を有するBERTの階層位置に関する考察

Author: Hirotaka Tanaka
Hiroyuki Shinnou
Jing Bai
Rui Cao
Wen Ma
Yanghuizi Ou
新納浩幸
曹鋭
欧陽恵子
田中裕隆
白静
馬ブン
Publication venue: 国立国語研究所
Publication date: 01/01/2019
Field of study

Ibaraki UniversityIbaraki UniversityIbaraki UniversityIbaraki UniversityIbaraki UniversityIbaraki University会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所コーパス開発センターBERTはTransformerで利用されるMulti-head attentionを12層（あるいは24層）積み重ねたモデルである。各層のMulti-head attentionは、基本的に、入力単語列に対応する単語埋め込み表現列を出力している。BERTの各層では低層から徐々に何からの情報を取り出しながら、その文脈に応じた単語の埋め込み表現を構築していると考えられる。本論文では領域適応で問題となる領域情報に注目し、BERTの出力の各層が持つ領域情報がどのように推移するのかを考察する

Academic Repository of the National Institute for Japanese Language and Linguistics / 国立国語研究所学術情報リポジトリ

BERTによる単語埋め込み表現の分散値を用いた語義の広がりの分析

Author: Hiroyuki Shinnou
Jing Bai
Rui Cao
Wen Ma
Yanghuizi Ou
新納浩幸
曹鋭
欧陽恵子
白静
馬ブン
Publication venue: 国立国語研究所
Publication date: 01/01/2020
Field of study

Ibaraki UniversityIbaraki UniversityIbaraki UniversityIbaraki UniversityIbaraki University会議名: 言語資源活用ワークショップ2020, 開催地: オンライン, 会期: 2020年9月8日−9日, 主催: 国立国語研究所コーパス開発センターBERT が出力する単語の埋め込み表現は，その単語が現れた文の文脈に依存している．このためある単語wの用例を収集し，BERT により得られる単語wに対する埋め込み表現から，それらの分散値を計算すると，その値は単語wの語義の広がりに対応すると考えられる．そこで多義語「頭」「意味」「核」「記録」「言葉」「胸」と単義語「生産」，「政治」，「意識」，「抗議」，「成績」を対象にそれら単語の用例を収集し，分散値の比較を行った．多義語に対しては大きな分散値，単義に対しては小さな分散値が出ることが予想される．またBERT のどの位置の階層が最も語義の広がりに影響しているかも調査した．しかしこれら実験から，上記の分散値では語義の広がりを測定するのは困難であることがわかった．その原因について考察する

Academic Repository of the National Institute for Japanese Language and Linguistics / 国立国語研究所学術情報リポジトリ

BERTによる単語埋め込み表現の分散値を用いた語義の広がりの分析

Author: Hiroyuki Shinnou
Jing Bai
Rui Cao
Wen Ma
Yanghuizi Ou
新納浩幸
曹鋭
欧陽恵子
白静
馬ブン
Publication venue: 国立国語研究所
Publication date: 02/03/2021
Field of study

Institutional Repositories DataBase (IRDB)