2 research outputs found

    Structuration de données par apprentissage non-supervisé : applications aux données textuelles

    Get PDF
    En fouille de données, le succès d'une méthode tient au fait qu'elle permet de répondre par un algorithme intuitif à un besoin pratique bien théorisé. C'est avec cet éclairage que nous présentons un ensemble de contributions, élaborées durant ces dix dernières années, et répondant au besoin pratique de structurer automatiquement un ensemble de données. Dans un premier temps nous proposons de nouveaux modèles théoriques de structuration complexe en classes d’individus ; il s’agit alors d'extraire automatiquement d'un ensemble de données, des structures de classification plus proches de leur organisation réelle telle qu’observée (classification recouvrante, formes symétriques), de rendre ces structures à la fois robustes (tolérance au bruit) et manipulables par l’homme (visualisation, paramétrage) et enfin d’être en mesure de les expliquer (sémantique des classes). Dans un second temps nous nous intéressons aux données textuelles via la mise en oeuvre de modèles rendant compte de la structure thématique d’une collection de textes courts dans un contexte de recherche d’information ; enfin, nous présentons un méta-modèle permettant d’apprendre automatiquement un modèle de structuration sémantique d’un ensemble de termes

    Apprentissage non supervisé de dépendances syntaxiques à partir de texte étiqueté, plusieurs variantes de PCFG légères

    No full text
    Voir : http://editions-rnti.fr/?inprocid=1001924National audienceL’apprentissage de dépendances est une tâche consistant à établir, àpartir des phrases d’un texte, un modèle de construction d’arbres traduisant unehiérarchie syntaxique entre les mots. Nous proposons un modèle intermédiaireentre l’analyse syntaxique complète de la phrase et les sacs de mots. Il est basésur une grammaire stochastique hors-contexte se traduisant par des relations dedépendance entre les catégories grammaticales d’une phrase. Les résultats expérimentauxobtenus sur des benchmarks attestés dépassent pour cinq langues surdix les scores de l’algorithme de référence DMV, et pour la première fois desscores sont obtenus pour le français. La très grande simplicité de la grammairepermet un apprentissage très rapide, et une analyse presque instantanée
    corecore