2 research outputs found

    Découverte de configurations de traits textuels pour la caractérisation des segments d'obsolescence

    Get PDF
    International audienceThis paper presents a data-driven methodology for the automatic identification of text segments which contain information requiring updating ("obsolescence segments"). Our approach views markers as configurations of textual features and involves tagging text for a wide range of feature types of variable scope. We then apply a statistical method based on association rules whereby feature combinations relevant for the detection of obsolescence emerge from the data : intrasentential, hierarchical, positional and external features. We propose an evaluation of the respective roles of the different feature types. The study is based on a corpus of encyclopaedic texts which have been manually annotated by experts from the field of publishingCet article présente une méthodologie de découverte de marqueurs envisagés comme des configurations de traits textuels pour la description et le repérage automatique de segments contenant des informations nécessitant des mises à jour (les segments d'obsolescence). La méthodologie mise en œuvre est fondée sur la prise en compte de traits textuels hétérogènes et à granularité variable. Nous mettons en place un système statistique à base de règles d'association pour faire émerger des données les combinaisons de traits pertinentes : traits intraphrastiques, hiérarchiques, positionnels et externes. Une évaluation de leur rôle en termes de performance est proposée. Nous travaillons sur un corpus de textes encyclopédiques annoté manuellement par des rédacteurs du monde de l'éditio

    Multi-annotation discursive de corpus Ă©crit

    Get PDF
    National audienceOn the basis of the experience acquired in the course of the ANNODIS project, the following questions are discussed: - what is the annotation campaign for? building an annotated " reference corpus" vs. annotation as an experiment; - defining annotation tasks. Naïve vs. expert annotation; - the annotation manual : from linguistic model to annotation protocol; - automatic pre-processing vs. manual annotation. Segmentation, tagging and mark-ups: steps in corpus preparation; - evaluation of annotations; - exploitation of annotations: for linguistic analysis, for validation of models, for data mining, for feedback on the experiment.A partir de la double expérience d'annotation réalisée dans le cadre du projet ANNODIS, sont abordées les questions suivantes : - Une campagne d'annotation pour quoi faire? Construire un corpus annoté "de référence" vs. annoter pour expérimenter. - Définir les tâches d'annotation. Annotation naïve vs. annotation experte. - Le guide d'annotation : du modèle linguistique au protocole d'annotation. - Pré-traitements automatiques vs. annotation manuelle. Segmentation, étiquetage et pré-marquage automatiques : préparer le corpus pour la tâche d'annotation. - Evaluation des annotations manuelles. Calcul de l'accord inter-annotateur en fonction des modalités de la tâche d'annotation. - Exploitation des annotations : pour l'analyse linguistique, pour la validation des modèles, pour la fouille de données, pour le retour d'expérience (point de vue des annotateurs)
    corecore