37 research outputs found

    Discours, corpus, traitements automatiques

    Get PDF
    This chapter concerns the application of the methodological principles and methods of corpus linguistics to the study of text/discourse organisation. On the basis of the literature and the author's own research, it examines the specific corpus requirements and analytical difficulties for the discourse level. Discourse studies tend to be too analyst-dependent and small-scale, which makes them difficult to reproduce, their results difficult to generalise. The chapter goes on to look at connections between discourse studies, corpus analysis and language technology via applications such as automatic text summarization and aids to textual navigation. The quantitative techniques used in such systems deserve to be further explored in linguistic studies of text/discourse organisation. Another important direction for discourse research is the development of sharable resources, in particular corpora annotated with discourse structures and relations.Ce chapitre traite de l'application des principes et des méthodes des linguistiques de corpus à l'étude de l'organisation du texte/discours. A partir de la littérature du domaine et des travaux de l'auteur, il pose la question des exigences spécifiques en termes de corpus, et des difficultés d'analyse propres au niveau discursif. Les études sur le discours se caractérisent actuellement par une approche qualitative, sur des données de faible volume, avec des méthodes manuelles et donc subjectives, ce qui fait obstacle à leur reproductibilité – et partant à leur validation –, et à la généralisation de leurs résultats. Les interactions entre discours, traitement automatique des langues et analyses de corpus sont examinées à travers des applications comme le résumé automatique et l'aide à la navigation. Les questions posées par ces applications recoupent en de nombreux points celles qui motivent les études linguistiques du discours. Les techniques numériques auxquelles elles font appel mériteraient d'être explorées pour leur apport potentiel à l'étude linguistique de l'organisation du discours. Un dernier aspect particulièrement positif des linguistiques de corpus est l'accent mis sur la constitution de ressources collectives, en particulier de corpus enrichis d'annotations discursives (structures, relations de discours)

    Linguistic Markers of Lexical and Textual Relations in Technical Documents

    Get PDF
    International audienceThis chapter proposes a number of linguistic " handles " for the description of technical documents, at a lexical level (terminology) and at a textual level (discourse coherence). Examples are given of uses of such insights in document production and management, in particular via document engineering systems. We provide a number of linguistic " handles " for the description of technical documents. Such insights into the " inner workings " of texts may be harnessed in various ways in the production and management of technical documents; we show some applications in document engineering, in systems designed to facilitate access to information. Our focus is on surface markers, i.e. observable text features identified through corpus analysis, signalling the kind of relations between lexical items used in building terminologies (such as generic/specific, see section 1), or relations between text segments involved in discourse coherence (such as theme, or rhetorical relations, see section 2). We insist on the relevance of the notion of genre when working with technical documents, and on the genre-dependent nature of our linguistic markers

    Titres et intertitres dans l'organisation du discours

    Get PDF
    International audienceDans cet article, nous explorons le fonctionnement discursif des titres en nous appuyant sur l'hypothèse qu'ils contribuent à la construction d'un modèle interprétatif du discours. Notre objectif est de montrer que les relations que les titres entretiennent avec le texte qu'ils chapeautent ne se laissent pas décrire avec les mêmes outils théoriques ni avec les mêmes méthodes selon le genre des textes. Parce qu'ils sont uniques, les titres d'articles de presse devraient pouvoir être décrits au travers de relations de cohérence. Parce qu'ils sont multiples, en revanche, les titres qui structurent les textes longs ne peuvent pas être abordés ainsi. La description de leur fonctionnement exige une méthode de linguistique de corpus fondée sur l'annotation systématique d'indices susceptibles de faire émerger des types fonctionnels distincts

    Énumération et structuration discursive

    Get PDF
    International audienceDans cet article, la structure énumérative est envisagée, dans une perspective discursive, en tant que procédé d'organisation du texte constituant un tout fonctionnel. Une fois précisée notre approche et explicité son ancrage, un premier objectif est d’illustrer la diversité des réalisations des structures énumératives, tout en dégageant clairement ce qui en fait l’unité : la mise en parallèle des items, l’expression (ou l’inférabilité) du critère interprétatif qui sous-tend cette mise en parallèle. Nous montrons que quelle que soit la réalisation de la structure – indices variés, potentiellement distribués sur les différents composants – elle se doit d’être perceptible, puisque c’est cette perception qui conditionne chez le lecteur la compréhension de l’intention sous-jacente. Nous décrivons les indices et la manière dont ils se combinent pour rendre la structure visible. Nous nous intéressons également à la diversité des contextes où elle s’insère, et des rôles discursifs auxquels elle se prête, ainsi que les premiers résultats concernant les corrélations entre types de réalisation et fonction. Pour cela, nous nous focalisons sur ses « marges » – l’amorce, qui la lie au texte amont et annonce l’énumération, et la clôture, segment final qui fait le lien avec le texte aval – pour mieux mettre en lumière la nécessité de la considérer dans son ensemble comme un tout fonctionnel

    Une pragmatique Ă  fleur de texte : approche en corpus de l'organisation textuelle

    Get PDF
    La première partie de cette synthèse est consacrée à l'élaboration et à l'illustration d'un cadre d'analyse pour des textes entiers, principalement produits dans le contexte de l'apprentissage de l'écrit. Dans la deuxième partie, les questionnements sur les niveaux de structuration des textes et le jeu des marques formelles se poursuivent avec la mise en relation de nouveaux modèles et la focalisation sur un objet textuel – la définition – dans des corpus de textes scientifiques ou techniques. La troisième partie prend la forme d'une réflexion sur trois thèmes doublement significatifs. Ce sont ceux qui à la fois parcourent l'ensemble des travaux présentés et motivent mes chantiers actuels et mes projets : d'abord, les niveaux d'organisation textuelle et leur articulation, ensuite la notion de marqueur, et pour finir, en relation avec la méthodologie d'analyse de corpus, les notions de variation et de genre discursif

    ANNODIS : une ressource pour l'identification de systèmes de marqueurs du discours

    Get PDF
    National audienceA la recherche des "marqueurs" impliqués dans la signalisation de l'organisation discursive, et des interactions ou jeux de contraintes entre différents systèmes de marqueurs, de nombreux travaux visent à définir des combinaisons ou faisceaux d'indices discursifs. L'étude que nous présentons s'inscrit dans cette lignée, mais de manière descriptive et empirique à travers l'application de techniques de fouille à un corpus annoté manuellement. Nous décrivons brièvement ce corpus, puis la méthode qui nous permet de passer d'abord des traits (pré-marqués automatiquement) aux indices (annotés manuellement), puis des indices aux combinaisons que nous appelons "cuesets"

    Découverte de configurations de traits textuels pour la caractérisation des segments d'obsolescence

    Get PDF
    International audienceThis paper presents a data-driven methodology for the automatic identification of text segments which contain information requiring updating ("obsolescence segments"). Our approach views markers as configurations of textual features and involves tagging text for a wide range of feature types of variable scope. We then apply a statistical method based on association rules whereby feature combinations relevant for the detection of obsolescence emerge from the data : intrasentential, hierarchical, positional and external features. We propose an evaluation of the respective roles of the different feature types. The study is based on a corpus of encyclopaedic texts which have been manually annotated by experts from the field of publishingCet article présente une méthodologie de découverte de marqueurs envisagés comme des configurations de traits textuels pour la description et le repérage automatique de segments contenant des informations nécessitant des mises à jour (les segments d'obsolescence). La méthodologie mise en œuvre est fondée sur la prise en compte de traits textuels hétérogènes et à granularité variable. Nous mettons en place un système statistique à base de règles d'association pour faire émerger des données les combinaisons de traits pertinentes : traits intraphrastiques, hiérarchiques, positionnels et externes. Une évaluation de leur rôle en termes de performance est proposée. Nous travaillons sur un corpus de textes encyclopédiques annoté manuellement par des rédacteurs du monde de l'éditio

    Annotation des structures discursives : l'expérience ANNODIS

    Get PDF
    International audienceLa ressource ANNODIS est un corpus diversifié de français écrit enrichi d'annotations concernant le niveau discursif. Son originalité réside dans sa mutualisation de deux approches complémentaires qui permettent, par leur oppositions et rapprochements, de poser un certain nombre de questions concernant l'annotation de structures discursives. cet article propose de revenir sur les enjeux principaux qui ont motivés les membres du projet ANNODIS : 1) stabiliser un certain nombre de définition linguistique de phénomènes discursives ciblées et 2) confronter aux données réelles une certaine modélisation de la construction de la cohérence discursive. Ce double objectif est révélateur des deux approches mises à l'épreuve dans l'expérience ANNODIS. Cet article revient sur les enjeux de cette ressource en terme à la fois de structures discursives et de campagne d'annotation. Un regard particulier sera porté sur la question du devenir des annotations, notamment dans un domaine encore peu stabilisé

    Glissements progressifs de " sémantique "

    Get PDF
    International audienceEtude des usages profanes (le plus souvent dépréciatifs) du mot " sémantique "

    Anatomie des Structures Énumératives

    Get PDF
    International audience{This paper presents initial results from a large scale discourse annotation project, the ANNODIS project. These results concern the top-down part of the annotation scheme, and more specifically enumerative structures. We are interested in enumerative structures as a basic text construction strategy, occurring at different levels of granularity, associated with various discourse functions, and signalled by a broad range of cues. Before manual annotation via a purpose-built interface, a pre-processing phase produced a systematic mark-up of features associated to the signalling of discourse organisation. We describe this markup phase and the annotation procedure. We then propose a first typology of enumerative structures based on a quantitative description of the manually annotated data, taking into account textual coverage, composition, types of cues.Cet article présente les premiers résultats d'une campagne d'annotation de corpus à grande échelle réalisée dans le cadre du projet ANNODIS. Ces résultats concernent la partie descendante du dispositif d'annotation, et plus spécifiquement les structures énumératives. Nous nous intéressons à la structuration énumérative en tant que stratégie de base de mise en texte, apparaissant à différents niveaux de granularité, associée à différentes fonctions discursives, et signalée par des indices divers. Avant l'annotation manuelle, une étape de pré-traitement a permis d'obtenir le marquage systématique de traits associés à la signalisation de l'organisation du discours. Nous décrivons cette étape de marquage automatique, ainsi que la procédure d'annotation. Nous proposons ensuite une première typologie des structures énumératives basée sur la description quantitative des données annotées manuellement, prenant en compte la couverture textuelle, la composition et les types d'indices
    corecore