CORE
🇺🇦
make metadata, not war
Services
Services overview
Explore all CORE services
Access to raw data
API
Dataset
FastSync
Content discovery
Recommender
Discovery
OAI identifiers
OAI Resolver
Managing content
Dashboard
Bespoke contracts
Consultancy services
Support us
Support us
Membership
Sponsorship
Community governance
Advisory Board
Board of supporters
Research network
About
About us
Our mission
Team
Blog
FAQs
Contact us
語彙多様性指標の可視化と単回帰分析によるTTRの補正
Authors
Mizuho IMADA
今田 水穂
Publication date
1 January 2018
Publisher
国立国語研究所
Abstract
Ministry of Education, Culture, Sports, Science and Technology会議名: 言語資源活用ワークショップ2018, 開催地: 国立国語研究所, 会期: 2018年9月4日-5日, 主催: 国立国語研究所 コーパス開発センター語彙多様性を評価する既存の指標には、延べ語数Nと異なり語数V(N)を入力とするもの、単語別の頻度を入力とするもの、単語列を入力とするものなどがある。本発表では、これらの指標の特徴を整理し、「現代日本語書き言葉均衡コーパス」(BCCWJ)を使用して指標値の分布を可視化する。NとV(N)を入力とする指標のいくつかは、両者の間に冪乗則V(N)=aNbを仮定している。TTRはb=1、Rはb=0.5としてaを指標値として利用するが、1では大きすぎ、0.5では小さすぎる。そこでV(N)とNの対数を単回帰分析してbの最適値を推定し、TTRを補正することを考える。実際には冪乗則は成立しないため、この補正は近似的だが、比較的簡単によい補正を得ることができる。この補正値を他の指標と比較し、テキストサイズが指標値の平均やばらつきに及ぼす影響を評価する。また、BCCWJの12のサブコーパスについてbの値を推定し、一覧で示す
Similar works
Full text
Open in the Core reader
Download PDF
Available Versions
Academic Repository of the National Institute for Japanese Language and Linguistics / 国立国語研究所学術情報リポジトリ
See this paper in CORE
Go to the repository landing page
Download from data provider
oai:repository.ninjal.ac.jp:00...
Last time updated on 30/10/2019
Institutional Repositories DataBase (IRDB)
See this paper in CORE
Go to the repository landing page
Download from data provider
oai:irdb.nii.ac.jp:01129:00033...
Last time updated on 06/09/2020