2 research outputs found
Classificação de Documentos
Dissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade No
Lisboa para obtenção de grau de Mestre em Engenharia de InformáticaNo presente trabalho de investigação pretende-se automatizar o processo de classificação temática de documentos. Foram utilizadas três técnicas de selecção de termos, com três classificadores automáticos, e sete representações de documentos: palavra, multi-palavra, pentagrama, e cadeias dos primeiros 4, 5 e 6 caracteres individualmente, e globalmente.
Entre as técnicas de selecção de termos encontra-se a medida do Terceiro Momento em relação à média. Esta medida foi recentemente proposta, por o Professor Joaquim Ferreira da Silva, e considerou-se importante realizar um estudo comparativo da sua performance em relação a outras
medidas, já muito conhecidas e comprovada a sua aplicabilidade. As medidas escolhidas foram:
Chi-Square e Information Gain.
Existem medidas de selecção de termos que demonstram melhores resultados conforme o
classificador utilizado, e por isso, as medidas foram experimentadas com diferentes
classificadores: K-Nearest Neighbour, RIPPER e Support Vector Machines. São classificadores que na área de classificação demonstraram bons resultados, e assim, avaliou-se o seu desempenho com as diferentes medidas de selecção de termos.
Nos resultados experimentais, em que foi utilizado o corpus da Reuters-21578, pode-se observar que o desempenho obtido com a técnica do terceiro momento é superior, ou equivalente, à obtida com as medidas de selecção de termos Chi-Square e Information Gain.
Utilizando diferentes representações de documentos é possível obter um desempenho, com os três classificadores, equivalente ao obtido com a representação de documentos por palavra