113 research outputs found

    An exploratory data-driven analysis for describing discourse organization

    Get PDF
    International audienceThis paper focuses on the role of elements placed in the initial position i.e. elements fulfilling the role of Theme in discourse organisation. The large-scale corpus study proposes a new methodology based on automatic tagging and quantitative analysis of the discourse roles of sentence-initial elements. The theoretically-based hypothesis is that initial position has an important function in discourse organisation. Initial position, defined as the starting point of the message, is composed of the first elements that the reader perceives. The analysis of the distribution and the use in discourse of these elements gives us a great overview on the textual organisation of different types of text

    Discourse organisation through Theme position

    Get PDF
    This paper focuses on the role of elements placed in the initial position i.e. elements fulfilling the role of Theme in discourse organisation. The large-scale corpus study proposes a new methodology based on quantitative analysis of the discourse roles of sentence-initial elements. The theoretically-based hypothesis is that Theme position has an important function in discourse organisation. Theme, defined as the starting point of the message, is composed of the first elements that the reader perceives. The analysis of the distribution and the use in discourse of these elements gives us a great overview on the textual organisation of different types of text

    Private State in Public Media: Subjectivity in French Traditional and Online News

    Get PDF
    International audienceThis paper reports on ongoing work dealing with the linguistic impact of putting the news on-line. In this framework, we investigate differences in one traditional newspaper and two forms of alternative on-line media with respect to the expression of authorial stance. Our research is based on a comparable large-scale corpus of articles published on the websites of the three respective media and aims at answering the question to what extent the presence of the author varies in the different media. - Is it a matter of amount and mode of the author's presence? - Is it a matter of lexical choice and diversity? - If this were the case, what expressions are used in the respective media? Our endeavour will be a methodological one. We firstly present our data, and thus describe the different news media included in our analysis and the diverse computer aided and manual production steps we performed in order to build up the corpus. Secondly, we outline our working hypotheses that are linked to the chosen types of media and describe the theoretical framework within which they are situated. Thirdly, we present our research method as well as some first results and insights gained throughout the pilot study of our data

    La subjectivité à travers les médias : étude comparée de les médias participatifs et de la presse traditionnelle

    Get PDF
    National audienceSubjectivity in mass media: comparing participatory and traditional journalese This paper investigates linguistic differences and similarities in a traditional newspaper and participatory on-line media in order to examine to what extent the on-line production has an impact on the language use. Our method of investigation is based on corpus analysis. We analyze a large-scale corpus (8,000,000 words) composed of datasets representing different steps on a graduate scale from traditional printed newspaper to online citizen press.Cette étude propose une analyse des différences et similitudes linguistiques dans la presse écrite traditionnelle et les médias participatifs en ligne afin d'évaluer dans quelle mesure la production et la diffusion en ligne peuvent modifier nos usages linguistiques. Les analyses effectuées se basent sur un large corpus (8 millions de mots) qui représente des modes d'expression et des degrés de subjectivité a priori différents

    Les discussions Wikipedia : un corpus pour caractériser le genre « discussion »

    Get PDF
    International audienceCette présentation propose une description des caractéristiques intra-linguistiques des discussions Wikipedia, forum de discussion associé à chaque article de l'encyclopédie Wikipedia. Après un exposé des propriétés qui font de ces textes un objet d'étude particulièrement intéressant pour les linguistiques de corpus, nous présenterons la procédure de constitution du corpus de discussion et une première description quantitative du corpus constitué. Nous finirons sur une présentation rapide d'un ensemble d'études linguistiques envisagées sur ce corpus

    La position initiale dans l'organisation du discours : <br />une exploration en corpus

    Get PDF
    This thesis proposes an exploratory study of discourse organization based on a written French corpus of 700.000 words. It focuses on initial position (defined as the pre-verbal zone) constituting the starting point for textual units at different levels of granularity: sections, paragraphs and sentences. Initial position is relevant in both cognitive and discourse linguistics. It is in this position that the speaker expresses the crucial information and it is from there that the reader's interpretation proceeds. Crucial information may consist in marking either continuity (e.g. expressing old information first) or discontinuity (e.g. indicating that the discourse frame in which incoming information is to be interpreted has changed).All pre-verbal zones in the corpus have been automatically annotated (23217 sentences) and their composition has been quantitatively analysed. Our data show that the discourse role of elements that appear in initial position is significantly related to discourse factors, and more precisely to the following three factors: text-type, textual position, and collocations in initial position.Cette thèse propose une étude exploratoire de l'organisation du discours basée sur un corpus de français écrit (700 000 mots). L'organisation du discours est abordée par la position initiale définie en tant que point de départ d'unités textuelles pouvant relever de trois niveaux d'organisation : les phrases, les paragraphes et les sections. La position initiale est un sujet d'étude commun à la linguistique cognitive et à la linguistique du discours. C'est en cette position que l'auteur exprime l'information cruciale et c'est sur la base de cette information que l'interprétation du lecteur se réalise. L'information cruciale peut consister à marquer une continuité dans le discours (par exemple en commençant l'unité textuelle par une information donnée) ou une discontinuité (en signalant par exemple que le cadre dans lequel interpréter les propos a changé).Toutes les zones préverbales du corpus ont été annotées automatiquement. L'analyse quantitative de leur composition montre que le rôle discursif des éléments en position initiale varie significativement selon des facteurs discursifs tels que le type de texte, la position textuelle et les collocations présentes en cette position

    Discourse organisation through Theme position

    Get PDF
    This paper focuses on the role of elements placed in the initial position i.e. elements fulfilling the role of Theme in discourse organisation. The large-scale corpus study proposes a new methodology based on quantitative analysis of the discourse roles of sentence-initial elements. The theoretically-based hypothesis is that Theme position has an important function in discourse organisation. Theme, defined as the starting point of the message, is composed of the first elements that the reader perceives. The analysis of the distribution and the use in discourse of these elements gives us a great overview on the textual organisation of different types of text

    Échanger sur sa santé : apport de la linguistique pour l'analyse des forums de santé

    Get PDF
    National audienceLes forums issus du domaine médical permettent à des internautes d'échanger à propos de leur santé. Intermédiaires entre discours oral et écrit, les forums de discussion sont des espaces d’échanges asynchrones de messages textuels. Ce nouveau mode de communication est très prisé des patients car associé à une grande liberté du discours due notamment à l'anonymat. Dans ce contexte éminemment subjectif, la caractérisation et la compréhension des perceptions que les patients ont de leur maladie et du suivi médical est difficile, mais néanmoins particulièrement intéressante pour les professionnels de santé. De nombreux verrous sont associés à l’analyse semi-automatique de ces forums, en particulier la volumétrie des textes et leur hétérogénéité

    L'anti­correcteur : outil d'évaluation positive de l'orthographe et de la grammaire

    Get PDF
    International audienceThis study aims at testing out a new form of evaluation for spell and grammar checking. A new tool, called "anti-correcteur", was integrated in Cordial, a French spell and grammar checker, for measuring success rates in common spelling difficulties defined according to literature in French language teaching and corpus-based analysis. This module proposes to assess spelling skills not only against errors, but also by taking successes into account. This paper presents a first experiment of such a positive evaluation by exploring results given by the "anti-correcteur" applied on a diversified corpus in terms of level of literacy and genre.L'objectif de cette étude est d'expérimenter l'intégration d'une nouvelle forme d'évaluation dans un correcteur orthographique et grammatical. L'« anti-correcteur » a pour objet de mesurer le taux de réussites orthographiques et grammaticales d'un texte sur certains points jugés difficiles selon la littérature et une observation d'erreurs en corpus. L'évaluation du niveau d'écriture ne se base plus uniquement sur les erreurs commises, mais également sur les réussites réalisées. Une version bêta de ce nouveau mode d'évaluation positive a été intégré dans le correcteur Cordial. Cet article a pour but de discuter de l'intérêt de ce nouveau rapport à l'orthographe et de présenter quelques premiers éléments d'analyse résultant de l'application de l'anti-correcteur sur un corpus de productions variées en matière de niveau d'écriture et genre discursif

    ANNODIS : une ressource pour l'identification de systèmes de marqueurs du discours

    Get PDF
    National audienceA la recherche des "marqueurs" impliqués dans la signalisation de l'organisation discursive, et des interactions ou jeux de contraintes entre différents systèmes de marqueurs, de nombreux travaux visent à définir des combinaisons ou faisceaux d'indices discursifs. L'étude que nous présentons s'inscrit dans cette lignée, mais de manière descriptive et empirique à travers l'application de techniques de fouille à un corpus annoté manuellement. Nous décrivons brièvement ce corpus, puis la méthode qui nous permet de passer d'abord des traits (pré-marqués automatiquement) aux indices (annotés manuellement), puis des indices aux combinaisons que nous appelons "cuesets"