5 research outputs found

    Aprendizado de representações e correspondências baseadas em grafos para tarefas de classificação

    Get PDF
    Orientador: Ricardo da Silva TorresTese (doutorado) - Universidade Estadual de Campinas, Instituto de ComputaçãoResumo: Muitas situações do mundo real podem ser modeladas por meio de objetos e seus relacionamentos, como, por exemplo, estradas conectando cidades em um mapa. Grafo é um conceito derivado da abstração dessas situações. Grafos são uma poderosa representação estrutural que codifica relações entre objetos e entre seus componentes em um único formalismo. Essa representação é tão poderosa que é aplicada em uma ampla gama de aplicações, de bioinformática a redes sociais. Dessa maneira, diversos problemas de reconhecimento de padrões são modelados para utilizar representações baseadas em grafos. Em problemas de classificação, os relacionamentos presentes entre objetos ou entre seus componentes são explorados para obter soluções efetivas e/ou eficientes. Nesta tese, nós investigamos o uso de grafos em problemas de classificação. Nós propomos duas linhas de pesquisa na tese: 1) uma representação baseada em grafos associados a objetos multi-modais; e 2) uma abordagem baseada em aprendizado para identificar correspondências entre grafos. Inicialmente, nós investigamos o uso do método Sacola de Grafos Visuais para representar regiões na classificação de imagens de sensoriamento remoto, considerando a distribuição espacial de pontos de interesse dentro da imagem. Quando é feita a combinação de representações de cores e textura, nós obtivemos resultados efetivos em duas bases de dados da literatura (Monte Santo e Campinas). Em segundo lugar, nós propomos duas novas extensões do método de Sacola de Grafos para a representação de objetos multi-modais. Ao utilizar essas abordagens, nós combinamos visões complementares de diferentes modalidades (por exemplo, descrições visuais e textuais). Nós validamos o uso dessas abordagens no problema de detecção de enchentes proposto pela iniciativa MediaEval, obtendo 86,9\% de acurácia nos 50 primeiros resultados retornados. Nós abordamos o problema de corresponência de grafos ao propor um arcabouço original para aprender a função de custo no método de distância de edição de grafos. Nós também apresentamos algumas implementações utilizando métodos de reconhecimento em cenário aberto e medidas de redes complexas para caracterizar propriedades locais de grafos. Até onde sabemos, nós fomos os primeiros a tratar o processo de aprendizado de custo como um problema de reconhecimento em cenário aberto e os primeiros a explorar medidas de redes complexas em tais problemas. Nós obtivemos resultados efetivos, que são comparáveis a diversos métodos da literatura em problemas de classificação de grafosAbstract: Many real-world situations can be modeled through objects and their relationships, like the roads connecting cities in a map. Graph is a concept derived from the abstraction of these situations. Graphs are a powerful structural representation, which encodes relationship among objects and among their components into a single formalism. This representation is so powerful that it is applied to a wide range of applications, ranging from bioinformatics to social networks. Thus, several pattern recognition problems are modeled to use graph-based representations. In classification problems, the relationships among objects or among their components are exploited to achieve effective and/or efficient solutions. In this thesis, we investigate the use of graphs in classification problems. Two research venues are followed: 1) proposal of graph-based multimodal object representations; and 2) proposal of learning-based approaches to support graph matching. Firstly, we investigated the use of the recently proposed Bag-of-Visual-Graphs method in the representation of regions in a remote sensing classification problem, considering the spatial distribution of interest points within the image. When we combined color and texture representations, we obtained effective results in two datasets of the literature (Monte Santo and Campinas). Secondly, we proposed two new extensions of the Bag-of-Graphs method to the representation of multimodal objects. By using these approaches, we can combine complementary views of different modalities (e.g., visual and textual descriptions). We validated the use of these approaches in the flooding detection problem proposed by the MediaEval initiative, achieving 86.9\% of accuracy at the Precision@50. We addressed the graph matching problem by proposing an original framework to learn the cost function in a graph edit distance method. We also presented a couple of formulations using open-set recognition methods and complex network measurements to characterize local graph properties. To the best of our knowledge, we were the first to conduct the cost learning process as an open-set recognition problem and to exploit complex network measurements in such problems. We have achieved effective results, which are comparable to several baselines in graph classification problemsDoutoradoCiência da ComputaçãoDoutor em Ciência da Computação2016/18429-141584/2016-5CAPESFAPESPCNP

    Reconhecimento em cenário aberto para diferentes classificadores

    Get PDF
    Orientador: Anderson de Rezende RochaTese (doutorado) - Universidade Estadual de Campinas, Instituto de ComputaçãoResumo: Neste trabalho, estudamos e analisamos o problema de reconhecimento em cenários abertos no contexto de diversos tipos de métodos de reconhecimento de padrões: baseados em distância, geométricos e redes neurais. O problema de reconhecimento em cenário aberto apresenta particularidades extras a serem tratadas, quando comparado ao já bem estudado problema de classificação em cenários fechados. Em cenários abertos, o método de reconhecimento deve ser devidamente capaz de reconhecer e também rejeitar instâncias de classes desconhecidas, i.e., de classes não consideradas durante a etapa de treino. Por outro lado, métodos de classificação em cenários fechados assumem que qualquer instância apresentada para classificação sempre pertence a uma das classes conhecidas. Extensões triviais de métodos próprios para cenários fechados, usualmente baseadas em limiares de rejeição, não lidam bem com cenários abertos e esta é a razão principal pela qual este problema tem recebido maior atenção recentemente. Nesta pesquisa, fizemos a hipótese de que limitar o espaço aberto classificado como conhecido seja uma propriedade requerida para um método de reconhecimento em cenários abertos. Isso significa que instâncias de teste fora do suporte das instâncias de treino, em uma região infinita do espaço de características, seriam devidamente rejeitadas como desconhecidas, sendo, consequentemente, o risco do desconhecido limitado. Nossos experimentos confirmam esta hipótese e mostramos como garantir esta propriedade em classificadores geométricos que, usualmente, definem semiespaços, i.e., potencialmente definem uma região ilimitada do espaço aberto classificada como conhecida. Além da abordagem trivial de aplicar um limiar à distância em si, também mostramos como melhor definir a região classificada como conhecida em classificadores baseados em distância. Além do mais, neste trabalho, realizamos uma análise perspicaz em redes neurais - que são inerentemente fechadas por design - com o objetivo de obter as mesmas propriedades com este tipo de classificadores em trabalhos futuros. As análises e discussões apresentadas neste trabalho também têm o objetivo de definir conceitos e clarificar o problema de reconhecimento em cenários abertos. Há particularidades no problema às quais devemos estar atentos e que independem do tipo de classificadores empregados para resolvê-lo, como é o caso da análise de métodos de extensão de classificadores inerentemente binários para classificação multiclasse; a estratégia de busca por parâmetros própria para cenários abertos e as medidas de acurácia próprias para cenários abertosAbstract: In this work, we have studied and analyzed the open-set recognition problem from the context of multiple types of recognition methods, namely, distance-based, geometric and neural networks. Open-set recognition problems bring some extra particularities to handle compared to well-studied closed-set classification problems. In open-set scenarios, the recognition method must be able to properly recognize and also reject instances from unknown classes, i.e., classes never seen during training phase. On the other hand, closed-set classification methods assume that any instance presented for classification always belongs to one of the known classes. Trivial threshold-based extensions of closed-set methods do not handle well the open-set recognition scenario and that is the reason this problem has received more attention nowadays. In the research, we had hypothesized that ensuring a bounded known-labeled open space is a required property for a recognition method in open-set scenarios. It means that test instances from outside the support of the training instances, on an infinity region of the feature space, would be properly rejected as unknown; consequently, the risk of the unknown would be limited. Our experiments confirm this hypothesis and we have shown how to accomplish this with geometric classifiers, that usually define half-spaces, i.e., possibly unbounded known-labeled open space, as well as with nearest neighbors classifiers, besides the trivial approach of thresholding the raw distance. Furthermore, in this work, we perform insightful analyses on neural networks¿which is inherently closed by design¿aiming at obtaining similar achievements for this type of methods in future work. The analyses and discussion presented in this work also aim at defining concepts and clarifying the open-set recognition problem. There are peculiarities on the problem for which anyone should be attentive, independently of the type of classifiers employed for solving it, as is the case of the analysis of multiclass-from-binary extensions, open-set grid search strategy, and evaluation measures employed for open-set setupsDoutoradoCiência da ComputaçãoDoutor em Ciência da Computação140468/2018-8CAPESCNP

    Data-Fusion Techniques for Open-Set Recognition Problems

    No full text

    Data fusion techniques for open set recognition problems

    No full text
    Orientador: Ricardo da Silva TorresDissertação (mestrado) - Universidade Estadual de Campinas, Instituto de ComputaçãoResumo: Na atualidade a maioria das técnicas para classificação de padrões na área de aprendizado de máquina foca a resolução de problemas de cenário fechado. Nestes problemas, o classificador é treinado com amostras de todas as classes que serão observadas na fase de teste. Em muitas situações, no entanto, amostras de classes desconhecidas, i.e., classes não encontradas na fase de treino, necessitam ser tratadas. Este tipo de cenário é conhecido como um problema de reconhecimento em cenário aberto. Neste trabalho, propomos métodos que combinam diferentes tipos de características para reconhecimento de objetos em cenário aberto. Os métodos estão baseados no classificador \emph{Optimum-Path Forest} (OPF) e utilizam Programação Genética (GP) e Contagem de Votos (\emph{Majority-Voting}) como técnicas de combinação de evidências. O OPF é um classificador multiclasse, rápido (especialmente durante a fase de treino) e está baseado em grafos. A GP é uma técnica inspirada na evolução biológica que é usada para a descoberta de funções de similaridade entre objetos. As funções de similaridade baseadas na GP combinam diferentes tipos de características visuais dos objetos (e.g., cor, textura, e forma). O \emph{Majority-Voting} combina diferentes dados operando diretamente nas etiquetas atribuídas por classificadores isolados que utilizam diferentes descritores de características. Os experimentos realizados considerando dois conjuntos de imagens demonstram que o enfoque proposto de fusão híbrida de dados produz resultados eficientesAbstract: Nowadays, most of the techniques for pattern classification in the machine learning area are focused on solving closed-set problems. In these problems, the classifier is trained with samples of all the classes that will appear in the testing phase. In many situations, however, samples of unknown classes, i.e., classes not present in the training stage, need to be handled. This kind of scenario is known as an Open-set recognition problem. In this work, we propose methods that combine different types of features for object recognition in Open-set problems. Our methods are based on the Optimum-Path Forest (OPF) classifier and use Genetic Programming (GP) and Majority-Voting as data fusion techniques. The OPF is a fast (specially during the training phase) graph-based multiclass classifier. The GP is a technique inspired in the biological evolution, which is used to discover appropriate similarity functions among objects. The GP-based similarity functions combine different kinds of object visual properties (e.g., color, texture, and shape). The Majority-Voting combine data working directly with the output (label) of isolate classifiers that use different kinds of features. Performed experiments considering two datasets demonstrate that the proposed hybrid data fusion approach yields effective results in Open-set recognition problemsMestradoCiência da ComputaçãoMestre em Ciência da Computação484254/2012-0 e 306580/2012-8CNPQCAPE
    corecore