Classificação de documentos com processamento de linguagem natural

Abstract

A quantidade de informação tem vindo a crescer ao longo dos anos, e a sua sobrecarga é hoje, um dos grandes problemas que as empresas e instituições enfrentam. A classificação dos documentos de forma automática surge então como uma necessidade, visto um sistema automático ser capaz de classificar milhares de documentos em apenas alguns segundos, o que seria impraticável de ser realizado por um ser humano. O maior desafio nesta área é obter os melhores resultados, maior eficiência computacional e maior capacidade de auto-aprendizagem, através nomeadamente da implementação de técnicas para a melhor seleção de features. Este trabalho analisa e compara técnicas de classificação com processamento de linguagem natural, através da linguagem Python e com apoio da biblioteca para processamento de linguagem natural Natural Language Toolkit (NLTK). Neste projeto, foram implementados algoritmos para classificação de documentos, com técnicas de Text Mining e NLP, utilizando classificadores como Redes Neuronais, SVM’s e Redes Bayesianas. Foram avaliados em vários casos de estudo e os resultados obtidos nos diferentes estudos atingiram valores médios acima de 90% de accuracy. Um dos principais objetivos deste projeto é aplicar os classificadores implementados na classificação de literatura na área das proteínas. Como resultado deste projeto, foi também implementada uma aplicação web para classificação de documentos, disponibilizando os algoritmos implementados

    Similar works