National audienceLes tweets échangés sur Internet constituent une source d'information importante même si leurs caractéristiques les rendent difficiles à analyser (140 caractères au maximum, notations abrégées, . . .). Dans cet article, nous définissons un modèle d'entrepôt de données permettant de valoriser et d'analyser de gros volumes de tweets en proposant des mesures pertinentes dans un contexte de découverte de connaissances. L'utilisation des entrepôts de données comme outil de stockage et d'analyse de documents textuels n'est pas nouvelle mais les mesures ne sont pas adaptées aux spécificités des données manipulées. Les résultats des expérimentations sur des données réelles soulignent la pertinence de notre proposition. / Exchanged tweets on the Internet are an important information source, even if their characteristics make them difficult to analyze (a maximum of 140 characters, shorthand notations, ...). In this paper, we define a model of data warehouse to develop and analyze large volumes of tweets by proposing relevant measures in a knowledge discovery context. Using data warehouses in order to store and analyze textual documents is not new. Traditionally they adapt classical measures which are not really adapted to the data specificities. Furthermore we propose that, if a hierarchy is available, we can automatically detect the context. Conducted experiments on real data show the relevance of our approach

Bouillot, Baptiste

Bringay, Sandra

Béchet, Nicolas

Poncelet, Pascal

Roche, Mathieu

Teisseire, Maguelonne

[Departement_IRSTEA]Territoires [TR1_IRSTEA]SYNERGIENational audienceLes tweets échangés sur Internet constituent une source d'information importante même si leurs caractéristiques les rendent difficiles à analyser (140 caractères au maximum, notations abrégées, . . .). Dans cet article, nous définissons un modèle d'entrepôt de données permettant de valoriser et d'analyser de gros volumes de tweets en proposant des mesures pertinentes dans un contexte de découverte de connaissances. L'utilisation des entrepôts de données comme outil de stockage et d'analyse de documents textuels n'est pas nouvelle mais les mesures ne sont pas adaptées aux spécificités des données manipulées. Les résultats des expérimentations sur des données réelles soulignent la pertinence de notre proposition. / Exchanged tweets on the Internet are an important information source, even if their characteristics make them difficult to analyze (a maximum of 140 characters, shorthand notations, ...). In this paper, we define a model of data warehouse to develop and analyze large volumes of tweets by proposing relevant measures in a knowledge discovery context. Using data warehouses in order to store and analyze textual documents is not new. Traditionally they adapt classical measures which are not really adapted to the data specificities. Furthermore we propose that, if a hierarchy is available, we can automatically detect the context. Conducted experiments on real data show the relevance of our approach

HAL - Normandie Université

Analyse de gazouillis en ligne

HAL-CIRAD

https://hal.archives-ouvertes.fr/hal-00828003

Analyse de gazouillis en ligne

Abstract

Similar works

Full text

Available Versions

HAL - Normandie Université

HAL-CIRAD