unknown

Modelo para descoberta de conhecimento baseado em associação semântica e temporal entre elementos textuais

Abstract

Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2016.O aumento da complexidade nas atividades organizacionais, a vertiginosa expansão da Internet e os avanços da sociedade do conhecimento são alguns dos responsáveis pelo volume inédito de dados digitais. Essa crescente massa de dados apresenta grande potencial para a análise de padrões e descoberta de conhecimento. Nesse sentido, a análise dos relacionamentos presentes nesse imenso volume de informações pode proporcionar novos e, possivelmente, inesperados insights. A presente pesquisa constatou a escassez de trabalhos que consideram adequadamente a semântica e a temporalidade dos relacionamentos entre elementos textuais, características consideradas importantes para a descoberta de conhecimento. Assim, este trabalho propõe um modelo para descoberta de conhecimento que conta com uma ontologia de alto-nível para a representação de relacionamentos e com a técnica Latent Semantic Indexing (LSI) para determinar a força de associação entre termos que não se relacionam diretamente. A representação do conhecimento de domínio, bem como, a determinação da força associativa entre os termos são realizadas levando em conta o tempo em que os relacionamentos ocorrem. A avaliação do modelo foi realizada a partir de dois tipos de experimentos: um que trata da classificação de documentos e outro que trata da associação semântica e temporal entre termos. Os resultados demonstram que o modelo: i) possui potencial para ser aplicado em tarefas intensivas em conhecimento, como a classificação e ii) é capaz de apresentar curvas da força associativa entre dois termos ao longo do tempo, contribuindo para o levantamento de hipóteses e, consequentemente, para a descoberta de conhecimento.Abstract : The increased complexity in organizational activities, the rapid expansion of the Internet and advances in the knowledge society are some of those responsible for the unprecedented volume of digital data. This growing body of data has great potential for pattern analysis and knowledge discovery. In this sense, the analysis of relationships present in this immense volume of information can provide new and possibly unexpected insights. This research found shortages of studies that adequately consider the semantics and the temporality of relationships between textual elements considered important features for knowledge discovery. This work proposes a model of knowledge discovery comprising a high-level ontology for the representation of relationships and the LSI technique to determine the strength of association between terms that do not relate directly. The representation of domain knowledge and the determination of the associative strength between the terms are made taking into account the time in which the relationships occur. The evaluation of the model was made from two types of experiments: one that deals with the classification of documents and another concerning semantics and temporal association between terms. The results show that the model: i) has the potential to be used as a text classifier and ii) is capable of displaying curves of associative force between two terms over time, contributing to the raising of hypotheses and therefore to discover of knowledge

    Similar works