149 research outputs found

    Le corpus Polititweets : enjeux institutionnels, juridiques, techniques et philologiques

    Get PDF
    International audienceL'analyse du discours politique connaßt un renouvellement important, dû notamment aux nouveaux supports et formats d'expression, comme les réseaux sociaux numériques (RSN). Or, ces lieux de production d'écrits sont le plus souvent saisis par des disciplines qui les traitent comme des données sociales, plutÎt que comme des discours. Cet article vise à décrire les enjeux philologiques, herméneutiques, et également institutionnels et interdisciplinaires, de la constitution d'un corpus de tweets politiques. Le corpus Polititweets (Longhi et al. 2014 : 34273 messages, 205 utilisateurs) a été élaboré selon le format TEI (avec des pistes d'extension aux formats CMC proposées par un groupe européen qui s'est constitué autour de cette question), afin de tenir compte des éléments spatio-temporels, contextuels, technologiques, interactionnels, thématiques, dialogiques, etc. des messages produits. Il s'agit donc dans un premier temps de décrire le contexte d'élaboration du corpus, la méthodologie et des considérations juridiques. Dans un second temps, nous détaillons les enjeux philologiques de la constitution du corpus, en explicitant les critÚres qui ont présidé à sa structuration, pour passer d'une base de données à un corpus au format TEI. Dans un dernier temps, nous décrivons la démarche de mise à disposition du corpus et les questions d'« open access »

    A textometrical analysis of French arts workers “fr.Intermittents” on Twitter

    Get PDF
    International audienceThe term "social media" is increasingly used and tends to replace the term Web 2.0. Through social networks, people create various relationships. The aim of this paper is to describe how communities of users interact with each other on a specific subject, especially on Twitter. The theme that we will study is about the controversy concerning French arts workers (fr.intermittents). We will conduct a textometrical analysis using the software Iramuteq and then explain the statistical results

    Structuring a CMC corpus of political tweets in TEI: corpus features, ethics and workflow

    Get PDF
    International audienceThe CoMeRe project (CoMeRe, 2014) aims to build a kernel corpus of computer-mediated communication (CMC) genres with interactions in the French language. Three key words characterize the project: variety, standards and openness. The project gathered mono- and multimodal, synchronous and asynchronous communication data from both Internet and telecommunication networks (text chat, tweets, SMSs, forums, blogs). A variety of interactions was sought: public or private interactions as well as interactions from informal, learning and professional situations. Whereas some CMC data types were collected within the CoMeRe project, others had previously been collected and structured within different project partners’ local research teams. This meant that the project had to overcome disparities in corpus compilation choices. For this reason, the CoMeRe project structured the corpora in a uniform way using the Text Encoding Initiative format (TEI, Burnard & Bauman, 2013) and decided to describe each corpus using Dublin Core and OLAC standards for metadata (DCMI, 2014; OLAC, 2008). The TEI model was extended in order to encompass the Interaction Space (IS) of CMC multimodal discourse (Chanier et al., 2014). The term ‘openness’ also characterizes the project: The corpora have been released as open data on the French national platform of linguistic resources (ORTOLANG, 2013) in order to pave the way for scientific examination by partners not involved in the project as well as replicative and culumative research. This poster presentation aims to give an overview of the corpus building process using, as a case study, a corpus of political tweets cmr-polititweets (Longhi et al., 2014). The corpus stemmed from a local research project on lexicon (Digital Humanities and datajournalism, supported by the Fondation of Cergy-Pontoise University). It was built starting from seven French politicians from six different political parties. In order to generate political tweets, a set of lists citing these politicians was generated (7087 lists), and lists that have tweeted at least six times and for which the description contained the word ‘politics’ were selected (120 lists in total). Finally, 2934 tweets were recovered. In order to be sure that we selected politicians’ tweets (and not, for example, those of journalists), only the accounts cited in more than 12 lists were considered; 205 politicians were tweeting. We took the last 200 tweets of each of the 205 accounts on 27 March 2014 (34,273 tweets). This allowed us to recover data that focused on the period between the two rounds of the 2014 municipal elections in France. The poster will focus, firstly, on how features specific to Twitter were included and structured in the interaction space TEI model. We will exemplify how features including hashtags that label tweets so that other users can see tweets on the same topic, at signs that allow a user to mention or reply to other users and retweets that allow a user to repost a message from another Twitter user and share it with his own followers, were integrated into the model. Secondly, the poster will evoke some of the ethical and rights issues that had to be considered before publishing a corpus of tweets. Finally, the workflow & multi-stage quality control process adopted during the building of the corpus will be illustrated. This was an essential aspect considering that the corpus underwent format conversions: the local research team had initially structured the corpus in XML whilst the CoMeRe project applied the IS TEI model to the corpus.The political tweets corpus is now structured and available online. Analyses have started to be carried out: some ideas have been launched in Djemili et al. (2014) but further analyses must adhere rigorously to methodologies stemming from the natural language processing (NLP) field

    Explorer des corpus de tweets : du traitement informatique à l’analyse discursive complexe

    Get PDF
    Cet article synthĂ©tise les acquis et dĂ©veloppements issus de projets de recherche menĂ©s depuis 2013 Ă  propos de l’analyse d’un type particulier de donnĂ©es CMC (Computer-mediated communication) : les tweets politiques. AprĂšs une caractĂ©risation de ce genre de discours, et des problĂ©matiques soulevĂ©es, l’article dĂ©veloppe les enjeux de l’exploration des corpus de ce genre ; l’apprĂ©hension et la constitution de ces donnĂ©es sociales en corpus ; la production de rĂ©sultats scientifiques, et la mise en place de diffĂ©rents types d’exploration de corpus. Les mĂ©thodes de constitution de corpus, la standardisation et la mise au format TEI, l’utilisation d’outils d’analyse des donnĂ©es textuelles, et le dĂ©veloppement de plateformes, sont ainsi prĂ©sentĂ©s, comme diffĂ©rents points d’une mĂȘme recherche qui vise Ă  caractĂ©riser et comprendre une pratique sociale avec une mĂ©thode scientifique et une portĂ©e citoyenne. L’exploration de corpus peut ainsi passer par des nouvelles productions de ressources, outils, interfaces, dont l’interactivitĂ©, l’hypertextualitĂ©, et l’ouverture, garantissent la validitĂ© des corpus, et la possibilitĂ© d’y accĂ©der de maniĂšre contextuelle, et outillĂ©e.This paper summarizes the conclusions and developments from research projects developed since 2013, about the analysis of a specific type of CMC (Computer-mediated communication) data: political tweets. After characterizing this genre of discourse, and the issues raised, the paper develops the challenges of exploring this kind of corpus; the apprehension and constitution of these social data in corpus; the production of scientific results, and the implementation of different types of corpus exploration. The methods of constitution of corpus, the standardization and the setting in TEI format, the use of tools for analysis of textual data, and the development of platforms, are thus presented, as different points of the same research which aims to characterize and understand a social practice with a scientific method and a civic goal. The exploration of corpus can thus pass through new productions of resources, tools, interfaces, whose interactivity, hypertextuality, and openness, guarantee the validity of corpora, and the possibility of accessing it in a contextual manner, and tooled

    ThĂ©oriser le dynamique, modĂ©liser la variation, et outiller l’hermĂ©neutique : le(s) sens en question(s)

    Get PDF
    This paper examines tooled methods used to analyze digital corpora, linked with theoretical orientations of scientific research. Indeed, building corpora with various textual data is not neutral, and the process of constituting corpora gives specific meaning to the data. Currently, the use of Artificial Intelligence (AI), or Deep Learning, questions semioticians, and linguists, on the possible interpretative processes from these treatments which often come from "black boxes". From the concepts of instability, deformability, and chaotic units, this paper considers the hermeneutical dynamic which governs the use of digital corpora and their apprehension by digital tools. A double problem arises: hermeneutics of digital corpora, and hermeneutics of digital tools which allow the analysis of digital corpora. To approach this, the description of the different scientific models (Meunier 2019) makes it possible to propose a tooled analysis method that meets the principles of the Theory of discursive objects (Longhi 2015). This method is illustrated with the analysis of the term "enemy" in a corpus of political interviews, thus posing the different issues from a hermeneutical perspective for the digital analysis of discourse.Cet article interroge les mĂ©thodes outillĂ©es d’analyses des corpus numĂ©riques, en lien avec les orientations thĂ©oriques propres aux recherches qui y prĂ©sident. En effet, le rassemblement de donnĂ©es, souvent hĂ©tĂ©rogĂšnes, dans des corpus, n’est pas neutre, et le processus mĂȘme de constitution de corpus donne du sens aux donnĂ©es rapprochĂ©es ainsi dans ces ensembles. Actuellement, le recours Ă  l’Intelligence Artificielle (IA), au Deep Learning, interroge les sĂ©mioticiens, et les linguistes, sur les processus interprĂ©tatifs possibles Ă  partir de ces traitements qui sont souvent issus de « boites noires ». A partir des concepts d'instabilitĂ©, de dĂ©formabilitĂ©, et d'unitĂ©s chaotiques, cet article envisage la dynamique hermĂ©neutique qui prĂ©side Ă  l'usage des corpus numĂ©riques et Ă  leur apprĂ©hension par des outils numĂ©riques. Une double problĂ©matique se pose : hermĂ©neutique des corpus numĂ©riques, et hermĂ©neutique des outils numĂ©riques qui permettent l'analyse des corpus numĂ©riques. Pour l’aborder, la description des diffĂ©rents modĂšles scientifiques (Meunier 2019) permet de proposer une mĂ©thode d’analyse outillĂ©e qui rĂ©pond aux exigences de la ThĂ©orie des objets discursifs (Longhi 2015). Cette mĂ©thode est illustrĂ©e avec l’analyse du terme « ennemi » dans un corpus d’interviews politiques, posant ainsi les diffĂ©rents enjeux d’une perspective hermĂ©neutique pour l’analyse numĂ©rique des discours

    Les voix de l’énonciation en discours : sujet Ă©nonciateur et sujet d’énonciation

    Get PDF
    Cette contribution souhaite dĂ©gager des caractĂ©ristiques de l’apparition du sujet Ă©nonciateur/d’énonciation dans le discours. Cette distinction, qui peut ĂȘtre opĂ©rĂ©e Ă  partir des travaux contemporains ou rĂ©cents sur l’énonciation, se trouve dĂ©jĂ  chez Benveniste : l’expression sujet Ă©nonciateur concerne chez Benveniste le champ de la psychologie, et « dĂ©signe l’individu dans un procĂšs de locution. [
] Son ĂȘtre-sujet (ego) transcende les procĂšs dans lesquels il est engagĂ©, et n’est pas, en tout..

    Olga Galatanu, La sémantique des possibles argumentatifs. Génération et (re)construction discursive du sens linguistique

    Get PDF
    Cet ouvrage d’Olga Galatanu reprĂ©sente « l’aboutissement de travaux menĂ©s depuis une vingtaine d’annĂ©es, mais dont les sources sont encore plus anciennes, remontant Ă  mes premiĂšres monographies, sur les actes de langage (1984) et sur les interprĂ©tants sĂ©mantiques des verbes illocutionnaires (1988) » (p. 13). Il s’agit Ă  la fois d’une synthĂšse d’un nombre trĂšs important de travaux scientifiques, mais aussi de dĂ©veloppements nouveaux et d’articulations originales, qui donnent Ă  cette publicatio..

    Compte-rendu de : « Les Approches écologiques en linguistique » (N. Lechrevel, 2010) : pour une linguistique « verte » ?

    Get PDF
    Le projet de NadĂšge Lechevrel, Ă  travers une Ă©tude sur les approches Ă©cologiques en linguistique, participe du dĂ©cloisonnement opĂ©rĂ© depuis quelques annĂ©es, entre les sciences du vivant et les sciences humaines. Aussi, dans sa prĂ©face, Dominique Guillo, souligne que cet ouvrage est prĂ©cieux et indique que « la rĂ©fĂ©rence au vocabulaire de l’écologie en linguistique dĂ©signe moins une thĂ©orie qu’une mĂ©thode ou une approche. En tant que telle, le mĂ©rite de cette approche est surtout heuristique, ..

    Fanny Martin, Pratiques langagiÚres et basket-ball professionnel en France

    Get PDF
    PrĂ©cĂ©dĂ© d’une triple prĂ©face (scientifique, sportive et technique), cet ouvrage reprend le travail de thĂšse menĂ© par Fanny Martin Ă  l’universitĂ© de Picardie (unitĂ© de recherche Lesclap) qui propose une analyse des ressources de la communication qui soutiennent la performance dans le contexte du basket-ball professionnel. L’auteure problĂ©matise notamment la question sociolinguistique de la gestion des diffĂ©rentes langues parlĂ©es par les joueurs et le rapport de cette gestion avec les interacti..

    De intermittent du spectacle Ă  intermittent : de la reprĂ©sentation Ă  la nomination d’un objet du discours

    Get PDF
    Nous analysons ici le phĂ©nomĂšne d’ellipse observĂ© lors de la « crise des intermittents », dans un corpus du Monde et du Figaro de mai Ă  octobre 2003 : lors de cette trĂšs courte diachronie, un phĂ©nomĂšne d’ellipse est apparu, par lequel intermittent du spectacle devient intermittent. Nous rendons compte de deux dimensions prĂ©cises qui tĂ©moignent de l’originalitĂ© de l’ellipse considĂ©rĂ©e. Une description des dynamiques du sens Ă  l’Ɠuvre dans ces corpus, en relation avec les formations discursives qui en sont Ă  l’origine, montrera que la rĂ©partition de ces tournures elliptiques est inĂ©gale selon les positionnements Ă©nonciatifs. La temporalitĂ© du conflit joue Ă©galement un rĂŽle diffĂ©rent selon ces positionnements. Cela nous conduit Ă  une analyse plus prĂ©cise du cotexte de ces tournures elliptiques : nous indiquons les diffĂ©rents processus syntagmatiques qui interagissent avec intermittent et le profilent dans les textes.We analyze the phenomenon of ellipsis observed during the french “crisis of intermittent”, in a corpus of Le Monde and Le Figaro from May to October 2003: during this short diachrony, a phenomenon of ellipsis appeared: intermittent du spectacle becomes intermittent. We show two dimensions which testify to the originality of this ellipsis. A description of the dynamics of the meaning in these corpora, in relation with the discursive formations which are in the beginning, will show that the distribution of these elliptic structures depends on the enunciative positions. The temporality of the conflict is also important. That invites us to a more precise analysis of the cotexte of these elliptic structures: we indicate the various syntagmatic processes which interact with intermittent and profile it in the texts
    • 

    corecore