Une extension du modèle sémantique latent probabiliste pour le partitionnement non-supervisé de documents textuels

Amini, Massih-Reza; Gallinari, Patrick; Kim, Young-Min; Pessiot, Jean-François

Une extension du modèle sémantique latent probabiliste pour le partitionnement non-supervisé de documents textuels

Authors: Massih-Reza Amini
Patrick Gallinari
Young-Min Kim
Jean-François Pessiot
Publication date: 1 May 2009
Publisher: HAL CCSD

Abstract

International audienceDans cet article, nous proposons une extension du modèle sémantique latent probabiliste (PLSA) pour la tâche de partitionnement de documents (clustering). Nous montrons que ce modèle étendu est équivalent à une combinaison linéaire de modèles de factorisation matricielle non-négative au sens de la fonction objective KL-divergence. Nous validons notre modèle sur les trois collections de documents et, montrons empiriquement que notre approche est statistiquement plus performante que le modèle PLSA de base pour la tâche de clustering

Similar works

Full text

Available Versions

Archive Ouverte en Sciences de l'Information et de la Communication

oai:HAL:hal-01294988v1

Last time updated on 29/04/2016