research

多観点類似度を用いたクラスタリングに関する研究

Abstract

 データ集合を教師データを用いた事前学習をおこなうことなくクラスタと呼ばれる部分集合に分割する手法をクラスタリングと呼ぶ。クラスタリングの基本は、類似したデータ同士を同じクラスタに所属させることである。このため、データ間の類似度の設定はクラスタリングにおいて非常に重要である。一般的に用いられる代表的な類似度としては、ユークリッド空間上の多次元ベクトルに対するユークリッド距離やcosine 類似度が知られている。Cosine 類似度は、文書データのような高次で疎なデータに対する類似度指標としてよく用いられる。Nguyenらはcosine類似度における原点を複数用いた多観点類似度(Multiviewpoint-Based Similarity:MVS) を提案した。そして、MVS を非階層クラスタリングに適用することで、文書データのクラスタリングにおいて優れた結果を示した。ただし、非階層クラスタリングは事前に分割するクラスタの数を人為的に指定する必要がある。 本研究では、この多観点類似度に関する2 つのテーマを取り扱う。 1つ目は、Nguyenらの提案した多観点なcosine 類似度を階層クラスタリングについて適用した手法の開発である。階層クラスタリングは非階層クラスタリングのように事前に分割するクラスタ数を指定する必要がなく、階層的な分割構造を抽出できる。ただしMVSはcosine類似度より計算量が大きいため、階層クラスタリング全体の計算量を悪化させる恐れがある。そこで提案手法では、クラスタ間類似度の計算を高速化する手法を開発し、一般的な階層クラスタリングと同様の計算量O(mn2+n2logn)でのクラスタリングを実現した。さらに文書データを用いた実験により、MVS を用いた階層クラスタリングが既存手法と同程度の計算時間で、より高い分類精度を示すことを確認した。 2つ目は、cosine類似度以外への多観点類似度の適用である。本研究では、ユークリッド距離に対して基準点が影響を与えるような新しい距離定義である多観点距離(Multiviewpoint-Based Distance:MVD) を提案する。さらに、このMVD を、非階層クラスタリングの代表的手法であるk-meansに対して適用したクラスタリング手法を開発した。また、開発したMVDを用いた分割クラスタリング手法が、k-meansのクラスタリング結果を改善することを実験的に示した。電気通信大学201

    Similar works