Algoritmo Wang-Landau e agrupamento de dados superparamagnético

Abstract

O método de agrupamento de dados não supervisionado proposto por Domany e colaboradores baseia-se no mapeamento do problema em um sistema magnético granular não homogêneo, cujas propriedades são investigadas através de algum método de Monte Carlo. A matriz que contém os dados é composta por n atributos de valor numérico e corresponde a um ponto em um espaço euclidiano n-dimensional. A cada item de dado é associado um spin de Potts. A interação entre tais spins decai exponencialmente com o aumento da distância entre eles. Isto favorece o alinhamento dos spins associados a objetos similares. O sistema físico corresponde a um ferromagneto desordenado que, por sua vez, é descrito por um hamiltoniano de Potts de q estados. Espera-se que o sistema magnético exiba três regimes quando sua temperatura seja variada. Para temperaturas muito baixas o sistema está completamente ordenado. No outro extremo, em altas temperaturas, o sistema não apresenta qualquer ordem magnética. Numa faixa intermediária de temperaturas, spins dentro de certas regiões permanecem fortemente acoplados, formando grãos. Porém, um grão não influencie o comportamento de outro grão. Ou seja, os grãos estão não correlacionados. Este estado intermediário caracteriza um estado superparamagnético. A transição de um regime para outro pode ser identificada por picos na curva de calor específico versus temperatura. Aplicamos o método aos conjuntos de dados reais da planta íris e de dados médicos, conhecido por BUPA, aos dados sintéticos conhecidos por Ruspini e a um conjunto de dados, gerado por nós, que consiste de duas figuras tridimensionais sobrepostas, um esfera e um toro. Procedemos a classificação dos dados através da correlação spin-spin em diversas temperaturas. O principal resultado foi a verificação que nem sempre o agrupamento realizado na fase superparamagnética é o ideal.The method of unsupervised data classification proposed by Domany and coworkers is based on mapping the problem onto an inhomogeneous granular magnetic system whose properties can be investigated through some Monte Carlo Method. The array containing the data consists of n numeric attributes corresponding to points in an n-dimensional Euclidean space. Each data item is associated with a Potts spin. The interaction between such spins decays exponentially with the distance. This favors the alignment of the spins associated with similar objects. The physical system corresponds to a disordered ferromagnet which, in turn, is described by a Hamiltonian of a q-states Potts model. It is expected that the magnetic system exhibits three temperature-dependent regimes. For very low temperatures the system is completely ordered. At the other extreme, high temperatures, the system shows no magnetic order. In an intermediate range of temperatures, the spins within certain regions remain tightly coupled, forming grains. However, a grain does not influence the behavior of another grain. That is, the grains are non-correlated and this intermediate state is named a superparamagnetic phase. The transition from one regime to another can be identified by peaks in the specific heat versus temperature curve. We apply the method to several artificial and real-life data sets, such as classification of flowers, summary medical data and identification of images. We measure the spin-spin correlation at several temperatures to classify the data. In disagreement with the Domany and coworkers claims we found that the best classification of the data occurred outside the superparagnetic phase.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPE

    Similar works