2 research outputs found

    Design and Evaluation of Temporal Summarization Systems

    Get PDF
    Temporal Summarization (TS) is a new track introduced as part of the Text REtrieval Conference (TREC) in 2013. This track aims to develop systems which can return important updates related to an event over time. In TREC 2013, the TS track specifically used disaster related events such as earthquake, hurricane, bombing, etc. This thesis mainly focuses on building an effective TS system by using a combination of Information Retrieval techniques. The developed TS system returns updates related to disaster related events in a timely manner. By participating in TREC 2013 and with experiments conducted after TREC, we examine the effectiveness of techniques such as distributional similarity for term expansion, which can be employed in building TS systems. Also, this thesis describes the effectiveness of other techniques such as stemming, adaptive sentence selection over time and de-duplication in our system, by comparing it with other baseline systems. The second part of the thesis examines the current methodology used for evaluating TS systems. We propose a modified evaluation method which could reduce the manual effort of assessors, and also correlates well with the official track’s evaluation. We also propose a supervised learning based evaluation method, which correlates well with the official track’s evaluation of systems and could save the assessor’s time by as much as 80%

    Caractérisation de la couverture d'information : une approche computationnelle fondée sur les asymétries

    Get PDF
    De nos jours, la production accélérée d’information demande à toute personne d’adopter des stratégies de sélection d’information, d’exclusion d’information répétée et même de fusion d’information, afin de construire un panorama complet d’une thématique. Ces stratégies correspondent bien au processus de couverture d’information qui devient un exercice de plus en plus quotidien, mais aussi de plus en plus complexe. Des techniques de Traitement Automatique de Langue Naturelle (TALN) tentent de réaliser la couverture d’information de façon automatique. Dans cette thèse, nous abordons la couverture d’information avec une approche computationnelle basée sur les asymétries. Nous avons appliqué notre analyse en deux scenarios différents : Dans le premier scénario, nous avons analysé la couverture d’information dans les dissertations d’étudiants en vérifiant la présence des concepts qui proviennent des sources bibliographiques officielles telles que suggérées dans le syllabus du cours. Nous réalisons cette analyse à l’aide d’un coefficient de couverture qui utilise de l’information lexico-sémantique. Cette caractéristique hybride nous permet de capturer les différentes formes de surface lexicale qu’un étudiant peut utiliser pour exprimer un même concept. Pour déterminer si les concepts d’un livre sont couverts dans le contenu des dissertations, nous mettons en oeuvre une stratégie d’alignement de texte. Notre approche est en mesure de détecter une dissertation avec un faible degré de couverture d’information parmi un groupe de dissertations qui ont une meilleure couverture. Pour corroborer les interprétations de nos résultats, nous avons conduit une évaluation qualitative avec les enseignants du cours. Cette évaluation a fait constater que les résultats de nos analyses coïncident avec les notes octroyées aux dissertations. Conséquemment, la couverture des concepts dans les dissertations d’étudiants permet d’expliquer la note qui est attribuée aux dissertations par les enseignants. Dans le deuxième scénario, nous avons analysé la couverture d’information dans les textes journalistiques de type narratif. Dans ce type de texte, des événements, qui se produisent dans le monde, sont racontés et discutés par les journalistes. Les événements deviennent notre intérêt dans ce cas. Un événement présente une structure, celle-ci peut trouver sa forme dans les réponses des questions : qui a fait quoi ? À qui ? Où ? Et quand ? Afin de capturer le plus d’information concernant un événement, nous avons conçu un coefficient de couverture d’information basé sur des patrons linguistiques linéaires. Ces patrons, bien que simples, essaient de capturer la structure d’un événement. Nous avons aussi utilisé une stratégie de pondération des patrons afin de privilégier un patron en particulier. Nous abordons la couverture d’information, dans ce cas, avec une approche de détection de la nouvelle information, qui correspond à l’information non couverte par les autres sources. Dans l’évaluation quantitative, notre approche asymétrique est en mesure de performer aussi bien que les mesures symétriques de l’état de l’art. En plus, notre approche offre l’avantage d’expliquer l’origine de la nouvelle information grâce à la stratégie de pondération des patrons
    corecore