32 research outputs found

    Exploitation des arbres fréquents de dépendance pour la représentation et la classifacation automatique de textes

    Get PDF
    L'intégration de l'information syntaxique dans la représentation vectorielle des documents s'est avérée une source d'amélioration de la performance des systèmes de classification automatique de documents textuels. Cette information est souvent représentée sous forme d'arbres de dépendance qui peuvent être générés automatiquement par un analyseur syntaxique de la langue naturelle. Dans ce travail, nous proposons un nouveau modèle de représentation des documents basée sur l'extraction des sous-arbres fréquents d'arbres de dépendance en utilisant l'algorithme de fouille d'arbres FREQT, que nous avons adapté à nos besoins. Dans ce modèle, un document est représenté par l'ensemble de ses phrases, et chaque phrase est représentée à l'aide d'un ensemble de sous-arbres fréquents. Afin d'appliquer efficacement cette représentation à la classification automatique non supervisée (ou clustering ) de documents, nous proposons une nouvelle mesure de similarité entre documents basée sur notre méthode de représentation. Ainsi, nous construisons un système de clustering de documents qui englobe notre méthode de représentation, notre mesure de similarité et l'algorithme de clustering hiérarchique par agglomération. Nous évaluons notre système sur des collections de textes bien connues dans la communauté de la classification de textes: la collection Reuters-21578, 20Newsgroups et OHSUMED. Nous montrons sur ces données que notre méthode améliore le clustering de documents. Nous présentons également une évaluation des approches existantes de représentation des documents
    corecore