Exploring Topic Variants Through an Hybrid Biclustering Approach

Abstract

In large text corpora, analytic journalists need to identify facts, verify them by locating corroborating documents and survey all related viewpoints. This requires them to make sense of document relationships at two levels of granularity: high-level topics and low-level topic variants. We propose a visual analytics software allowing analytic journalists to verify and refine hypotheses without having to read all documents. Our system relies on a hybrid biclustering approach. A new Topic Weighted Map visualization conveys all top-level topics reflecting their importance and their relative similarity. Then, coordinated multiple views allow to drill down into topic variants through an interactive term hierarchy visualization. Hence, the analyst can select, compare and filter out the subtle co-occurrences of terms shared by multiple documents to find interesting facts or stories. The usefulness of the tool is shown through a usage scenario and further assessed through a qualitative evaluation by an expert user.Dans des corpus textuels volumineux, les journalistes analytiques cherchent des documents et des récits qui corroborent des faits, en les examinant sous tous les angles. Nous présentons un outil de visualisation analytique leur permettant de vérifier, d’affiner et de générer des hypothèses sans avoir à lire la totalité des contenus. Notre système repose sur une approche hybride de biclustering. Les sujets de haut niveau sont présentés via une carte pondérée de sujets, reflétant à la fois leur importance et leur similarité relative. Pour chaque sujet, une vue hiérarchique et interactive dresse un aperçu de toutes ses variantes, de manière à identifier les documents traités sous un même angle ou partageant des faits communs. Des vues multiples et coordonnées permettent une analyse plus fine, en filtrant, sélectionnant et comparant les variantes de sujet, au regard des motifs de co-occurrence de termes les plus intéressants. L’utilité de l’outil est montrée par un scénario d’usage, puis évaluée qualitativement par un journaliste analytique

    Similar works