2 research outputs found

    文節の係り受け関係を用いた観点に基づく意見クラスタリング

    Get PDF
    Web上には,様々なトピックに関する意見が存在し,トピックに関する意見には様々な観点のものが混在している.例えば,「原発」というトピックに関する意見には安全性やエネルギー,健康といった観点の意見が混在している.意見をこのような観点ごとに分類することで,観点ごとに意見を容易に把握・比較でき,新たな観点の意見を発見する手がかりにもなる.意見を観点ごとに分類する研究は少なく,分類する観点を予め設定しているものや,観点の差異を考慮していない手法がほとんどである.そこで本研究では,予め観点を設定せずに,文脈情報,とりわけ名詞と動詞の係り受け関係を考慮して意見集合に適した観点を自動的に特定・分類するクラスタリング手法を提案する.本研究で提案する意見クラスタリング手法では,「意見の観点の違いは名詞と動詞の係り受け関係の違いに反映される」という仮定のもと,文節の係り受け関係から名詞Nと動詞Vのペア〈N,V〉を抽出し,これをクラスタリングに利用する.具体的には,各意見から得られた文節の係り受け関係をもとに名詞とそれが係る動詞のペア〈N,V〉を抽出する.そして,日本語WordNetと潜在意味インデキシングを用いて計算した名詞Nどうしの類似度と動詞Vどうしの類似度から抽出した〈N,V〉間の類似度を計算するが,特に,名詞Nどうしの類似度が高くなるほど動詞Vどうしの類似度が〈N,V〉間の類似度に大きく影響を与えるように計算する.最終的に意見どうしの類似度を〈N,V〉間の類似度から計算し,Ward法による階層型クラスタリングを行う.評価実験では,意見集合に対して人手による観点に基づいた分類と提案手法および従来のクラスタリング手法による分類がどの程度近いかということを指標として分類性能を調べた.実験の結果,提案手法では従来手法より高い分類性能となり,提案手法が有用であることが示された.電気通信大学201

    Clustering with multiviewpoint-based similarity measure

    No full text
    All clustering methods have to assume some cluster relationship among the data objects that they are applied on. Similarity between a pair of objects can be defined either explicitly or implicitly. In this paper, we introduce a novel multiviewpoint-based similarity measure and two related clustering methods. The major difference between a traditional dissimilarity/similarity measure and ours is that the former uses only a single viewpoint, which is the origin, while the latter utilizes many different viewpoints, which are objects assumed to not be in the same cluster with the two objects being measured. Using multiple viewpoints, more informative assessment of similarity could be achieved. Theoretical analysis and empirical study are conducted to support this claim. Two criterion functions for document clustering are proposed based on this new measure. We compare them with several well-known clustering algorithms that use other popular similarity measures on various document collections to verify the advantages of our proposal
    corecore