233 research outputs found

    Uma arquitetura para utilização de ontologias em sistemas de recuperação de informação

    Get PDF
    Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia de Produção

    Um Modelo para recuperação e comunicação do conhecimento em documentos médicos

    Get PDF
    Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2011O grande número de informações disponíveis, que estão em diferentes fontes de dados, exige cada vez mais processamento dos motores de busca. Recuperar informações que estão nessas bases de dados com a melhor precisão possível é um dos desafios a serem alcançados dentro do contexto desta tese. Os registros clínicos médicos contêm uma imensa gama de informações, normalmente escritas em forma de texto livre e sem um padrão linguístico. Os médicos não escrevem os diagnósticos e os laudos do paciente com o uso de elementos de estilo, o que dificulta o processamento e a recuperação da informação por parte dos sistemas computacionais. Consequentemente, obter o conhecimento a partir desses dados não é uma tarefa fácil para um motor de busca. Este trabalho apresenta o desenvolvimento de um modelo, que permite recuperar o conhecimento de informações textuais em documentos médicos. Técnicas de expansão de pesquisas, que utilizam detecção de ativos de conhecimento da ontologia DeCS e de dicionários linguísticos, são utilizadas. O objetivo é ampliar o universo de pesquisa do usuário e criar uma base de conhecimento para permitir o seu reúso. A proposta de tese aqui apresentada difere dos anteriores porque a intenção é retornar às pesquisas dos usuários uma série de documentos médicos muito mais eficazes do que nas tradicionais ferramentas de busca. Com o intuito de melhorar os resultados de uma pesquisa, anotações semânticas e detecção de expressões negativas serão utilizadas para processar os textos médicos. O estudo de caso apresentado no final mostra que, dos dez primeiros resultados do modelo ora proposto, alcançou-se uma média de 90% de precisão, enquanto que o modelo booleano limitou-se a 60%, e com o diferencial de que no modelo tradicional, o usuário teve que refazer suas consultas várias vezes até chegar a um resultado satisfatório, ao passo que no modelo semântico obteve êxito já na primeira consulta. Justamente porque o usuário não encontrou uma resposta nas primeiras pesquisas no modelo booleano, os tempos de resposta médios foram de 49 minutos, contra 0,6 segundos do novo modelo. Conclui-se, dessa forma, que o usuário não precisará despender muito tempo para encontrar a informação ou não precisará procurar em diferentes bases de dados a fim de encontrar a informação necessária

    Um sistema voltado à indexação e recuperação de informação integrado à ontologia

    Get PDF
    TCC (graduação) - Universidade Federal de Santa Catarina, Campus Araranguá, Curso de Tecnologias da Informação e Comunicação.O aumento da quantidade de informação disponibilizada tanto na internet quanto nas organizações geram desafios, principalmente se considerada a questão de como recuperar conteúdo relevante. Muitas instituições necessitam de métodos de recuperação de informação aprimorados tendo em vista que a informação tornou-se um recurso essencial e o uso adequado desta é de suma importância em cenários competitivos. Além da questão da utilidade da informação, menciona-se como desafio a própria evolução dos motores de busca uma vez que, para satisfazerem requisitos cada vez mais complexos torna-se necessário a utilização de semântica. Para viabilizar essa evolução, cada documento pertencente a determinado corpus necessita ter seus principais conceitos e os seus relacionamentos identificados e armazenados em estruturas adequadas. Entre essas estruturas encontram-se os índices invertidos, para a realização de buscas textuais, e as ontologias, visando a capacidade de realização de inferências. Neste sentido, o presente trabalho apresenta uma proposição de integração das áreas de Recuperação de Informação e Ontologia. Para a avaliação da proposição realizada neste trabalho desenvolveu-se um protótipo e em que este foi aplicado sobre uma base exemplo contendo artigos da área de Ontologia. Visando garantir que o usuário tenha uma visão integrada da informação, o protótipo realiza consultas em duas bases (índice textual e ontologia) de forma coordenada e demonstra de forma mais abrangente as informações que compõem o contexto de consulta por ele informado. Considerando os objetivos do trabalho e analisando os resultados da integração das informações pode-se concluir que o trabalho os cumpre, pois se acredita que o mesmo seja capaz de fornecer informações que contribuem para que o usuário obtenha um entendimento mais completo de determinado domínio de interesse de maneira interativa e iterativa.The fast information growing on the Internet as well as on the organizations show challenges, especially when considering the question of how to retrieve relevant content. Many organizations require improved methods of information retrieval taking into account that the information has become essential and its appropriate use is extremely important in competitive scenarios. Beyond that, we can mention the need for evolution of the search engines, whereas in order to meet increasingly complex requirements becomes necessary to use semantics. To make this evolution feasible each document belonging to a particular corpus needs to have its main concepts and its relationships identified and stored in appropriate structures. Among these structures are inverted indexes and ontologies in order to perform textual searches and to make inferences, respectively. In this sense, this work presents a proposition for the integration of Information Retrieval and Ontology areas. For the evaluation of the proposed work it was developed a prototype in which was applied on a sample base containing articles from Ontology area. Aiming to ensure for the user an integrated view, the prototype search for information on two bases (textual index and ontology) in a coordinated way and thus demonstrating more fully the details that compose the context of the search. Analyzing the results obtained from the integration of information it can be concluded that the work has achieved its objectives, since we believe that it is able to provide content that helps users to get a more complete understanding of a particular area of interest

    Um modelo de descoberta de conhecimento baseado na correlação de elementos textuais e expansão vetorial aplicado à engenharia e gestão do conhecimento

    Get PDF
    Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia de Produção.Atualmente as informações textuais, disponíveis nos mais variados formatos, constituem-se como um importante recurso uma vez que mapeiam parte considerável das atividades diárias nas organizações. Nesse sentido, os desafios residem em como sintetizar grandes volumes de informação e em como revelar, através de processos automáticos ou semi-automáticos, o conhecimento latente inerente aos documentos, objetivando auxiliar o estabelecimento de estratégias que promovam suporte aos gestores organizacionais. Para tal, o presente trabalho propõe um modelo de descoberta de conhecimento baseado na correlação de elementos textuais e na expansão de unidades de análise chamado Latent Relation Discovery (LRD). O processo de correlação identifica, considerando-se um elemento textual de origem, o conjunto de elementos textuais mais relacionados. Esses relacionamentos são então utilizados na expansão de unidades de análise, ou seja, na redefinição do contexto de documentos. A avaliação do modelo é realizada em cinco cenários comparando-se LRD com outros métodos, entre eles, Latent Semantic Indexing (LSI), Phi-squared, Mutual Information e derivação deste, e Z score. No primeiro cenário o modelo proposto foi aplicado à recuperação de informação e, em seguida, à tarefa de agrupamento de documentos. Os demais cenários utilizaram informação provida por avaliadores humanos e por um mecanismo de busca tradicional para mensurar o grau de aderência entre os pares de elementos textuais e os métodos acima mencionados. Em todos os cenários, LRD apresentou melhores resultados em relação aos demais métodos. A principal contribuição do trabalho reside na definição de um modelo de correlação e expansão vetorial com o intuito de descobrir relacionamentos latentes entre elementos textuais, promover melhoramentos na representação de documentos e fornecer suporte a aplicações de Engenharia e Gestão do Conhecimento

    Preservação e recuperação de informação em fontes de informações digitais: estudo de caso do Greenstone

    Get PDF
    Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Ciências da Educação, Programa de Pós-Graduação em Ciência da Informação, Florianópolis, 2010Esta dissertação contribui para a Ciência da Informação, pois aprofunda e realiza estudos na área de fontes de informação, bibliotecas digitais, recuperação da informação e preservação digital tendo como foco o formato de arquivos digitais. O estudo teve como objetivo principal analisar os recursos disponíveis na Biblioteca Digital Greenstone (BDG) para preservação lógica de documentos digitais com foco no formato de arquivos e a recuperação de informação. Para atingir os objetivos específicos, adotou-se uma metodologia baseada na análise exploratória e descritiva do tema. Para análise, foi instalado o software Greenstone 3.04, e criado a coleção PGCIN que contempla as dissertações do programa de Mestrado em Ciência da Informação da UFSC. Após a realização da pesquisa, concluiu-se que a Biblioteca Digital Greenstone está preparada para atender aos requisitos de preservação lógica de arquivos digitais, pois aceita formatos de arquivos proprietários com especificação fechada, proprietários com especificação aberta, e não proprietários com especificação aberta, além de ser uma plataforma aberta e que permite o desenvolvimento de plug-ins para formatos de arquivo

    Processamento de linguagem natural para indexação automática semântico-ontológica

    Get PDF
    Tese (doutorado)—Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2013.A pesquisa propõe uma arquitetura de indexação automática de documentos utilizando mecanismos de processamento de linguagem natural em nível semântico. Por meio do arranjo de ferramentas e recursos existentes, agregado ao desenvolvimento de software para integração, é construído um sistema de indexação automática que utiliza conhecimento modelado em uma ontologia para análise semântica. A aplicação da arquitetura é exemplificada e posta à prova em um conjunto de laudos periciais de crimes cibernéticos produzidos pela Perícia Criminal da Polícia Federal. Os resultados de pesquisa apontam para a melhoria que o aprofundamento à análise semântica do processamento de linguagem natural oferece para a seleção automática de descritores e, por extensão, para a recuperação da informação. Dentre as contribuições inéditas desta tese incluem-se a arquitetura de sistema de informação para indexação automática proposta, a ontologia construída para a análise semântica e as implementações em linguagem de programação Python. Por fim, o trabalho insere-se em uma área de pesquisa que tem sido cada vez mais investigada, no entanto ainda carece de resultados amadurecidos, qual seja o processamento de linguagem natural em língua portuguesa. __________________________________________________________________________ ABSTRACTThe research proposes an automatic indexing architecture of documents using natural language processing mechanisms on semantic level. By organizing existing tools and resources, added to software development for integration, an automatic indexing system which uses knowledge modeled by ontology to semantic analysis is built. The applicability of the architecture is exemplified and put into proof on forensics reports of cybercrimes produced by Federal Police Forensics Experts. The research results point to the benefits that semantic analysis on natural language processing offers to automatic descriptor selection and information retrieval. As contributions of this thesis there are the proposed automatic indexing information system architecture, the ontology built to semantic analysis and the implementations on Python programming language. Concluding, the work inserts itself in a research area that has been increasingly more investigated, however still demanding mature results, which is natural language processing on portuguese language

    A decomposição em valores singulares e suas aplicações

    Get PDF
    Dissertação de mest., Matemática, Faculdade de Ciências e Tecnologia, Universidade do Algarve, 2007Nesta dissertação analisamos a Decomposição em Valores Singulares e algumas das suas aplicações. Começamos por evidenciar o trabalho efectuado pelos matemáticos que mais contribuíram para evolução deste tipo de decomposição até à actualidade. De seguida, é feita a exposição, demonstração de existência e interpretação geométrica da decomposição em valores singulares, assim como também são evidenciadas algumas das propriedades que fazem desta decomposição uma das mais importantes e com um maior número de utilizações em diversos campos. Posteriormente são expostas algumas das imensas aplicações da decomposição em valores singulares, nomeadamente na compressão de imagens, na reconstrução e reconhecimento facial, na recuperação da estrutura tridimensional, na recuperação de informação, na criptografia e na reconstrução da matriz de expressão dos genes

    Um Modelo de descoberta de conhecimento inerente à evolução temporal dos relacionamentos entre elementos textuais

    Get PDF
    Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2011Há algum tempo tem sido observado e discutido o aumento expressivo na quantidade de informação produzida e publicada pelo mundo. Se por um lado essa situação propicia muitas oportunidades de uso dessa informação para a tomada de decisão, por outro, lança muitos desafios em como armazenar, recuperar e transformar essa informação em conhecimento. Umas das formas de descoberta de conhecimento que tem atraído atenção de pesquisadores é a análise dos relacionamentos presentes nas informações disponíveis. Não obstante, devido à grande velocidade de criação de novos conteúdos a dimensão tempo torna-se uma propriedade intrínseca e relevante presente nestas fontes de informação. Assim, o objetivo é desenvolver um modelo para descoberta de conhecimento a partir de informações não estruturadas analisando a evolução dos relacionamentos entre os elementos textuais ao longo do tempo. O modelo proposto é dividido por fases, assim como os modelos tradicionais de descoberta de conhecimento. As fases deste modelo são: configuração dos temas de análise, identificação das ocorrências dos conceitos, correlação e correlação temporal, associação e associação temporal, criação do repositório de temas de análise, e tarefas intensivas em conhecimento, com ênfase nos relacionamentos diretos e indiretos entre os conceitos do domínio. A demonstração de viabilidade é realizada por meio de um protótipo baseado no modelo proposto e sua aplicação em um estudo de caso. É realizada também uma análise comparativa do modelo proposto com outros modelos de descoberta de conhecimento em textos

    Classificação de documentos científicos usando modelos de Recuperação da Informação

    Get PDF
    Trabalho de Conclusão de Curso (Graduação)Mecanismos de buscas como Google Scholar e Microsoft Academic, tidos como clássicos, apresentam uma deficiência ao classificar os resultados, utilizando-se de vários fatores externos aos conteúdos dos documentos, o que leva a uma classificação de resultados não interessante ao usuário. Este trabalho foi desenvolvido com o propósito de criar uma aplicação que classifique por relevância uma coleção de documentos de um repositório, em formato PDF ou TXT. O processo proposto extrai o conteúdo textual dos documentos, aplica várias técnicas de pré-processamento de Recuperação de Informação, modela na estrutura Bag of Words, aplica o modelo Vetorial com as métricas TF e IDF. A esta aplicação foi adicionado um dicionário de sinônimos a ser preenchido pelo usuário. No momento das buscas a aplicação expande a busca baseada no dicionário. Esta aplicação não considera os fatores externos ao conteúdo dos documentos e busca reduzir o tempo de pesquisa dos usuários por meio de uma classificação mais eficiente. Os resultados obtidos indicam que se alcançou o objetivo
    corecore