10 research outputs found

    Efeito do Ranking Sobre Métricas de Categorização Multi Rótulo de Texto

    Get PDF
    Dado um documento para categorização, um sistema de categorização multi-rótulo de texto tipicamente ordena um conjunto de categorias pré-definido, de acordo com a adequação delas ao documento, e seleciona as categorias do topo do ranking como o conjunto de categorias do documento. Empates no ranking eventualmente existentes podem ser tratados de diferentes maneiras, mas, muito embora isso possa afetar as métricas utilizadas para avaliar o desempenho dos categorizadores multi-rótulo de texto, este problema parece ter sido pouco estudado na literatura. Neste trabalho, analisamos o impacto de diferentes tipos de ranking sobre diversas métricas de avaliação de desempenho de categorizadores multi-rótulo de texto, a saber: one-error, coverage, ranking loss, average precision, R-precision, Hamming loss, exact match, precision, recall, e 1 F . Para isso, reformulamos sua definição de modo a considerar empates de acordo com o tipo de ranking empregado. Utilizamo-las então para avaliar o desempenho das técnicas de categorização multi-rótulo de texto k -vizinhos mais próximos ( k NN), k -vizinhos mais próximos multi-rótulo (ML- k NN), rede neural sem peso do tipo VG-RAM (VG-RAM WNN) e VG-RAM com correlação de dados (VG-RAM WNNCOR) na categorização de duas bases multi-rótulo de texto com grande número de categorias (105 e 692 categorias). Descobrimos que, dependendo do tipo de ranking empregado, os resultados de desempenho são significativamente diferentes para muitas das métricas analisadas, o que sugere que o tipo de ranking deve ser claramente indicado na avaliação de técnicas de categorização multi-rótulo de texto

    Medida de Certeza na Categorização Multi-Rótulo de Texto e sua Utilização como Estratégia de Poda de Ranking de Categorias

    Get PDF
    Dado um documento de entrada, um sistema de categorização multi-rótulo de texto tipicamente computa graus de crença para as categorias de um conjunto prédefinido, ordena as categorias por grau de crença, e atribui ao documento as categorias com grau de crença superior a um determinado limiar de poda. Idealmente, o grau de crença deveria informar a probabilidade do documento de fato pertencer à categoria. Infelizmente, ainda não existem categorizadores que computam tais probabilidades e mapear graus de crença em probabilidades é um problema ainda pouco explorado na área de RI. Neste trabalho, propomos um método baseado na regra de Bayes para mapear graus de crença em medidas de certeza de categorização multi-rótulo de texto. Propomos também uma estratégia para determinar limiares de poda baseada na medida de certeza de categorização - bayesian cut (BCut) - e uma variante para BCut - position based bayesian CUT (PBCut). Avaliamos experimentalmente o impacto dos métodos propostos no desempenho de duas técnicas de categorização multi-rótulo de texto, kvizinhos mais próximos multi-rótulo (ML-kNN) e rede neural sem peso do tipo VGRAM com correlação de dados (VG-RAM WNN-COR), no contexto da categorização de descrições de atividades econômicas de empresas brasileiras segundo a Classificação Nacional de Atividades Econômicas (CNAE). Investigamos também o impacto no desempenho de categorização multi-rótulo de texto de três métodos de poda comumente usados na literatura de RI - RCut, PCut, e SCut e uma variante de RCut - RTCut. Além disso, propomos novas variantes para PCut e SCut PCut* e SCut*, respectivamente para tratar problemas existentes nestas abordagens. Nossos resultados experimentais mostram que, usando nosso método de geração de medidas de certeza de categorização, é possível prever o quão certo está o categorizador de que as categorias por ele preditas são de fato pertinentes para um dado documento. Nossos resultados mostram também que o uso de nossas estratégias de poda BCut e PBCut produz desempenho de categorização superior ao de todas as outras estratégias consideradas em termos de precisão

    Sistema de Rastreamento Visual de Objetos Baseado em Movimentos Oculares Sacádicos

    Get PDF
    A busca visual é o mecanismo por meio do qual, a partir do conhecimento prévio da imagem de um objeto de interesse, conseguimos encontrá-lo no campo visual se o mesmo nele estiver presente. A região cerebral responsável pela realização da busca visual, realizada através dos movimentos sacádicos dos olhos, é conhecida como Superior Culliculus. A criação de um sistema computacional de busca visual a partir de um conjunto de imagens do mundo externo que busque similaridade com o sistema biológico requer modelar o sistema biológico de movimentos sacádicos dos olhos, as transformações sofridas pelas imagens captadas pelos olhos em seu caminho para o Superior Culliculus (SC) no cérebro e a resposta dos neurônios do SC para padrões aprendidos anteriormente. Neste trabalho apresentamos uma modelagem matemático-computacional de uma arquitetura neural que representa o Superior Culliculus. Esta arquitetura neural é baseada em Generalização Virtual de Memória de Acesso Aleatório em Redes Neurais Sem Peso (Virtual Generalizing Random Access Memory Weightless Neural Networks VGRAM WNN) e no mapeamento log-polar da retina para o Superior Culliculus. Com a nossa implementação desta arquitetura é possível, a partir de pontos de interesse em uma determinada imagem bidimensional previamente treinados, realizar a busca visual por estes pontos em imagens diferentes da treinada. O modelo de busca visual biologicamente inspirado foi incorporado em um sistema automático de rastreamento (tracking) de longo prazo de objetos de interesse em vídeo para lidar com todos os desafios apresentados que se equipara ao estado da arte

    Rejection-oriented learning without complete class information

    Get PDF
    Machine Learning is commonly used to support decision-making in numerous, diverse contexts. Its usefulness in this regard is unquestionable: there are complex systems built on the top of machine learning techniques whose descriptive and predictive capabilities go far beyond those of human beings. However, these systems still have limitations, whose analysis enable to estimate their applicability and confidence in various cases. This is interesting considering that abstention from the provision of a response is preferable to make a mistake in doing so. In the context of classification-like tasks, the indication of such inconclusive output is called rejection. The research which culminated in this thesis led to the conception, implementation and evaluation of rejection-oriented learning systems for two distinct tasks: open set recognition and data stream clustering. These system were derived from WiSARD artificial neural network, which had rejection modelling incorporated into its functioning. This text details and discuss such realizations. It also presents experimental results which allow assess the scientific and practical importance of the proposed state-of-the-art methodology.Aprendizado de Máquina é comumente usado para apoiar a tomada de decisão em numerosos e diversos contextos. Sua utilidade neste sentido é inquestionável: existem sistemas complexos baseados em técnicas de aprendizado de máquina cujas capacidades descritivas e preditivas vão muito além das dos seres humanos. Contudo, esses sistemas ainda possuem limitações, cuja análise permite estimar sua aplicabilidade e confiança em vários casos. Isto é interessante considerando que a abstenção da provisão de uma resposta é preferível a cometer um equívoco ao realizar tal ação. No contexto de classificação e tarefas similares, a indicação desse resultado inconclusivo é chamada de rejeição. A pesquisa que culminou nesta tese proporcionou a concepção, implementação e avaliação de sistemas de aprendizado orientados `a rejeição para duas tarefas distintas: reconhecimento em cenário abertos e agrupamento de dados em fluxo contínuo. Estes sistemas foram derivados da rede neural artificial WiSARD, que teve a modelagem de rejeição incorporada a seu funcionamento. Este texto detalha e discute tais realizações. Ele também apresenta resultados experimentais que permitem avaliar a importância científica e prática da metodologia de ponta proposta
    corecore