Search CORE

2 research outputs found

Supervised Document Classification based upon domain-specific Term Taxonomies

Author: Bellomi Francesco
Cristani Matteo
Publication venue
Publication date: 01/01/2006
Field of study

The classification of documents is an interesting topic of recent terminological investigations, in particular the technological ones. Some sophisticated techniques have been developed which provide the classification based upon the recognition of specific linguistic features, such as specific terms or occurrences of phrases. A limited number of cases exist of real document classification applications that make use of natural language processing techniques providing both statistical analysis and human supervision, where the system fully automates the classification process, but the instruction of the taxonomy is a totally human centred activity. In this paper we focus on an application with the above mentioned features; we then introduce a methodology that makes use of this application. The fundamental argument in favour of a specific methodology is that the analysis which leads to the deployment of the term 'taxonomy' can be seen as an ontology construction: we also discuss this aspect as a general motivation

Catalogo dei prodotti della ricerca

Classification hiérarchique floue basée sur le SVM et son application pour la catégorisation des documents

Author: Guernine Taoufik
Publication venue: 'Universite de Sherbrooke'
Publication date: 01/01/2010
Field of study

La croissance exponentielle des moyens de communication durant ces dernières années et en particulier l'Internet a contribué à l'augmentation du volume de données traitées via les réseaux informatiques. Cette croissance a poussé les chercheurs à penser à la meilleure façon de structurer ces données pour faciliter leur accès et leur classification. À ce problème de classification, plusieurs techniques ont été proposées. Dans la pratique, nous constatons deux grandes familles de problèmes de classification, les problèmes binaires et les problèmes multi-classes. Le premier constat ayant attiré notre attention est l'existence du problème de confusion de classes lors de la classification. Ce phénomène rend les résultats ambigus et non interprétables. Le deuxième constat est la difficulté de résoudre ces problèmes par les méthodes existantes surtout dans le cas où les données ne sont pas linéairement séparables. En outre, les méthodes existantes souffrent des problèmes de complexité en temps de calcul et d'espace mémoire. Afin de remédier à ces problèmes, nous proposons une nouvelle méthode de classification qui s'articule autour de trois principaux concepts: la classification hiérarchique, la théorie de la logique floue et la machine à vecteur de support (SVM). À cet égard et vu l'importance accordée au domaine de classification des textes, nous adaptons notre méthode pour faire face au problème de la catégorisation des textes. Nous testons la méthode proposée sur des données numériques et des données textuelles respectivement. Les résultats expérimentaux ont démontré une performance considérable comparativement à certaines méthodes de classification

Savoirs UdeS