Search CORE

1 research outputs found

Classification de documents combinant la structure et le contenu

Author: Calabretto Sylvie
Chagheri S.
Dumoulin C.
Roussey Catherine
Publication venue: HAL CCSD
Publication date: 21/03/2013
Field of study

[Departement_IRSTEA]Ecotechnologies [TR1_IRSTEA]MOTIVENational audienceLa démocratisation et l’évolution des logiciels de traitements de texte ont révolutionné le monde du document. Les auteurs construisent des documents dits structurés c'est-à-dire dont le contenu textuel s’organise autours de balises. Toutefois, la classification traditionnelle de documents n’utilise que le contenu textuel des documents et ignore les informations de structure. Dans ce papier, nous proposons une nouvelle représentation des documents structurés basée sur un vecteur pondéré associant un mot et une balise. Les poids sont calculés en adaptant les formules TF-IDF et TF-IEF. Cette représentation est construite à partir d’une représentation synthétique du document appelé arbre résumé. Pour évaluer notre approche, nous avons mené plusieurs expérimentations avec un système de classification basé sur le classifieur SVMlight. Nous présentons les résultats de nos expérimentations menées sur les corpus REUTERS et INEX. / Developing the text processing applications has revolutionized the world of documents. The author constructs the document as structured document in which the textual content is organized around tags. However, the traditional document classification typically classifies the documents considering the text and ignoring its structural elements. In this paper, we propose a representation method which makes use of structural elements to create the vector of tag and word weighted by an extension of TF-IDF and TF-IEF formula. This representation is constructed from an aggregated tree of XML document. Several experimentations have been made using SVMlight as classifier on Reuters and INEX collections

HAL

Hal-Diderot