Heat Map with Hierarchical Clustering: Multivariate Visualization Method for Corpus-based Language Studies

Abstract

東洋大学Toyo Universityコーパスに基づく言語研究の利点は,広範な言語項目を分析対象とすることで,言語データを包括的に記述できることである。しかしながら,複数のデータにおける多数の言語項目を効率的に分析するためには,多変量解析などの統計手法に関する知識が求められる。本稿では,言語研究で活用することができる複数の多変量解析の長所と短所を比較検討し,ヒートマップと階層型クラスター分析を組み合わせて用いることの有効性を論じる。それに加えて,R言語を用いた解析方法と,その解析結果を解釈する方法を提示する。An advantage of corpus-based language studies is that global descriptions of linguistic texts can be obtained by examining a broad range of linguistic features. However, multivariate statistical techniques are required to analyze the multiple linguistic features found in a number of texts. This study compared the strengths and weaknesses of several multivariate statistical techniques, thereby demonstrating the effectiveness of using heat map with hierarchical clustering as a powerful method for visualizing multivariate data. Explanations are also provided for how these techniques can be used in the R programming language as well as indicating how the results obtained can be interpreted

    Similar works