research

Applying Statistical Methods to Develop a Better Vocabulary List

Abstract

これまでに数多くの学習語彙表が開発されているが,より良い語彙表を作るために,既存の語彙表における情報を統計的手法によって統合しているような研究はほとんどない。本研究では,基礎語の抽出のために,いくつかの語彙表などにおける語彙の特徴指標を統合し,より良い学習語彙表を開発するための統計的手法の検討を行うことを目的とした。まず,中学校主要英語教科書をコーパス化したものの頻度を基にした語彙表を作成し,いくつかの既存の語彙表や語に対する親密度,語の長さなどを語の特徴指標とし,それらをクラスター分析によってどのように分類できるのか確認し,因子分析によって潜在的な因子を調査した。いくつかの指標を統合するためには主成分分析が試された。結果として,これらの手法により,より良い学習語彙表が開発できるのではないかという可能性が示唆された。Many word lists for educational purposes have been developed thus far. However, no attempt has been made to integrate the information on the other word lists in the past with a statistical approach. The purpose of this study was thus to suggest statisticalmethods to incorporate several measures of individual words in order to develop a betterbasic word list. To this end, a junior high school textbook corpus was utilized to make afrequency-based word list out of it. The characteristics indices of vocabulary in this study include figures such as ranks or word levels in other word lists, word familiarity, and word length. With cluster analysis and factor analysis, categorization and latent factors behind these characteristics were examined. For the purpose of integrating the several measures for each word, principal component analysis was employed. The results suggest that the methods proposed here are promising in developing a better vocabulary list

    Similar works