Supervised pattern classification using optimum path forest

Abstract

Orientador: Alexandre Xavier FalcãoTese (doutorado) - Universidade Estadual de Campinas, Instituto de ComputaçãoResumo: Padrões são geralmente representados por vetores de atributos obtidos através de amostras em uma base de dados, a qual pode estar totalmente, parcialmente ou não rotulada. Dependendo da quantidade de informação disponível dessa base de dados, podemos aplicar três tipos de técnicas para identificação desses padrões: supervisionadas, semisupervisionadas ou não-supervisionadas. No presente trabalho, estudamos técnicas supervisionadas, as quais caracterizam-se pelo total conhecimento dos rótulos das amostras da base de dados. Propusemos também um novo método para classificação supervisionada de padrões baseada em Floresta de Caminhos Ótimos (OPF - Optimum-Path Forest), a qual modela o problema de reconhecimento de padrões como sendo um grafo, onde os nós são as amostras e os arcos definidos por uma relação de adjacência. Amostras mais relevantes (protótipos) são identificadas e um processo de competição entre elas é iniciado, as quais tentam oferecer caminhos de custo ótimo para as demais amostras da base de dados. Apresentamos aqui duas abordagens, as quais diferem na relação de adjacência, função de custo de caminho e maneira de identificar os protótipos. A primeira delas utiliza como relação de adjacência o grafo completo e identifica os protótipos nas regiões de fronteira entre as classes, os quais oferecem caminhos de custo ótimo que são computados como sendo o valor do maior peso de arco do caminho entre esses protótipos e as demais amostras da base de dados, sendo o peso do arco entre duas amostras dado pela distância entre seus vetores de características. O algoritmo OPF tenta minimizar esses custos para todas as amostras. A outra abordagem utiliza como relação de adjacência um grafo k-nn e identifica os protótipos como sendo os máximos de uma função de densidade de probabilidade, a qual é computada utilizando os pesos dos arcos. O valor do custo do caminho é dado pelo menor valor de densidade ao longo do caminho. Neste caso, o algoritmo OPF tenta agora maximizar esses custos. Apresentamos também um algoritmo de aprendizado genérico, o qual ensina o classificador através de seus erros em um conjunto de validação, trocando amostras classificadas incorretamente por outras selecionadas através de certas restrições. Esse processo é repetido at'e um critério de erro ser estabelecido. Comparações com os classificadores SVM, ANN-MLP, k-NN e BC foram feitas, tendo o OPF demonstrado ser similar ao SVM, porém bem mais rápido, e superior aos restantes.Abstract: Patterns are usually represented by feature vectors obtained from samples of a dataset, which can be fully, partially or non labeled. Depending on the amount of available information of these datasets, three kinds of pattern identification techniques can be applied: supervised, semi-supervised or non supervised. In this work, we addressed the supervised ones, which are characterized by the fully knowledge of the labels from the dataset samples, and we also proposed a novel idea for supervised pattern recognition based on Optimum-Path Forest (OPF), which models the pattern recognition problem as a graph, where the nodes are the samples and the arcs are defined by some adjacency relation. The most relevant samples (prototypes) are identified and a competition process between them is started, which try to offer optimum-path costs to the remaining dataset samples. We presented here two approaches, which differ from each other in the adjacency relation, path-cost function and the prototypes identification procedure. The first ones uses as the adjacency relation the complete graph and identify the prototypes in the boundaries of the classes, which offer optimum-path costs that are computed as been the maximum path arc-weight between these prototypes and the other dataset samples, in which the arc-weight is given by the distance between their feature vectors. In this case, the OPF algorithm tries to minimize these costs for each sample of the dataset. The other approach uses as the adjacency relation a k-nn graph and identifies the prototypes as the maxima of a probability density function, which is computed using the arc-weigths. The path-cost value is given by the lowest density value among it. The OPF algorithm now tries to maximize these costs. We also presented a generic learning algorithm, which tries to teach a classifier through its erros in a validation set, replacing the misclassified samples by other selected using some constraints. This process is repeated until an error criterion is satisfied. Comparisons with SVM, ANN-MLP, k-NN and BC classifiers were also performed, being the OPF similar to SVM, but much faster, and superior to the remaining classifiers.DoutoradoMetodologia e Tecnicas da ComputaçãoDoutor em Ciência da Computaçã

    Similar works