2 research outputs found
On clustering stability
JEL Classification: C100; C150; C380This work is dedicated to the evaluation of the stability of clustering solutions, namely
the stability of crisp clusterings or partitions. We specifically refer to stability as the
concordance of clusterings across several samples. In order to evaluate stability, we use
a weighted cross-validation procedure, the result of which is summarized by simple and
paired agreement indices values. To exclude the amount of agreement by chance of
these values, we propose a new method – IADJUST – that resorts to simulated crossclassification
tables. This contribution makes viable the correction of any index of
agreement.
Experiments on stability rely on 540 simulated data sets, design factors being the
number of clusters, their balance and overlap. Six real data with a priori known clusters
are also considered. The experiments conducted enable to illustrate the precision and
pertinence of the IADJUST procedure and allow to know the distribution of indices
under the hypothesis of agreement by chance. Therefore, we recommend the use of
adjusted indices to be common practice when addressing stability. We then compare the
stability of two clustering algorithms and conclude that Expectation-Maximization
(EM) results are more stable when referring to unbalanced data sets than K means
results. Finally, we explore the relationship between stability and external validity of a
clustering solution. When all experimental scenarios’ results are considered there is a
strong correlation between stability and external validity. However, within a specific
experimental scenario (when a practical clustering task is considered), we find no
relationship between stability and agreement with ground truth.Este trabalho é dedicado à avaliação da estabilidade de agrupamentos, nomeadamente
de partições. Consideramos a estabilidade como sendo a concordância dos
agrupamentos obtidos sobre diversas amostras. Para avaliar a estabilidade, usamos um
procedimento de validação cruzada ponderada, cujo resultado é resumido pelos valores
de Ãndices de concordância simples e pareados. Para excluir, destes valores, a parcela de
concordância por acaso, propomos um novo método - IADJUST - que recorre Ã
simulação de tabelas cruzadas de classificação. Essa contribuição torna viável a
correção de qualquer Ãndice de concordância.
A análise experimental da estabilidade baseia-se em 540 conjuntos de dados simulados,
controlando os números de grupos, dimensões relativas e graus de sobreposição dos
grupos. Também consideramos seis conjuntos de dados reais com classes a priori
conhecidas. As experiências realizadas permitem ilustrar a precisão e pertinência do
procedimento IADJUST e conhecer a distribuição dos Ãndices sob a hipótese de
concordância por acaso. Assim sendo, recomendamos a utilização de Ãndices ajustados
como prática comum ao abordar a estabilidade. Comparamos, então, a estabilidade de
dois algoritmos de agrupamento e concluÃmos que as soluções do algoritmo Expectation
Maximization são mais estáveis que as do K-médias em conjuntos de dados não
balanceados. Finalmente, estudamos a relação entre a estabilidade e validade externa de
um agrupamento. Agregando os resultados dos cenários experimentais obtemos uma
forte correlação entre estabilidade e validade externa. No entanto, num cenário
experimental particular (para uma tarefa prática de agrupamento), não encontramos
relação entre estabilidade e a concordância com a verdadeira estrutura dos dados