Devant le nombre d'algorithmes de classification existants, trouver l'algorithme qui sera le plus adapté pour classer un corpus de documents est une tâche difficile. La métaclassification apparaît aujourd'hui très utile pour aider à déterminer, en fonction des expériences passées, quel devrait être l'algorithme le plus pertinent par rapport à notre corpus. L'idée sous jacente est que "si un algorithme s'est montré particulièrement adapté pour un corpus, il devrait avoir le même comportement sur un corpus assez similaire". Dans cet article, nous proposons de nouveaux méta-descripteurs reposant sur les notions de similarités pour améliorer l'étape de méta-classification. Les expérimentations menées sur différents jeux de données réelles montrent la pertinence de nos nouveaux descripteurs. (Résumé d'auteur

Bouillot, Flavien

Poncelet, Pascal

Roche, Mathieu

French

National audienceGiven the number of existing classification algorithms, finding the most appropriate for classifying a new corpus is a difficult task. Meta-classification appears today very useful to help to determine, by using past experiences, what should be the most suitable algorithm compared to our corpus. The underlying idea is that "if an algorithm was particularly suitable for a corpus, it should have the same behavior on a quite similar corpus.". In this paper, we propose new meta-descriptors based on the concept of similarity to improve the meta-classification step. Conducted experiments on real dataset show the relevance of our new meta-descriptors.Devant le nombre d'algorithmes de classification existants, trouver l'algorithme qui sera le plus adapté pour classer un corpus de documents est une tâche difficile. La méta-classification apparaît aujourd'hui très utile pour aider à déterminer, en fonction des expé-riences passées, quel devrait être l'algorithme le plus pertinent par rapport à notre corpus. L'idée sous jacente est que "si un algorithme s'est montré particulièrement adapté pour un corpus , il devrait avoir le même comportement sur un corpus assez similaire". Dans cet article, nous proposons de nouveaux méta-descripteurs reposant sur les notions de similarités pour améliorer l'étape de méta-classification. Les expérimentations menées sur différents jeux de données réelles montrent la pertinence de nos nouveaux descripteurs

Mesurer la proximité entre corpus par de nouveaux méta-descripteurs

Abstract

Similar works

Full text

Available Versions

HAL Descartes

HAL-CIRAD