    Analyse d'une tâche de substitution lexicale : quelles sont les sources de difficulté ?

    International audienceThis paper provides an analysis of the results of the SemDis 2014 evaluation campaign dedicated to a lexical substitution task in French. A gold standard has been established consisting of a dataset of 300 sentences, each of them associated with a list of substitutes that annotators proposed for a given target word. Our aim is to identify the main characteristics of this dataset that have an impact on human annotation and on the performance of the systems that have participated in the campaign. Our evaluation is based on the inter-annotator agreement scores and on the recall of the systems. We show that while several characteristics are found to have an impact on both aspects (level of rarity of the target word sense, frequency of the word), some are specific to the systems (degree of polysemy of the target word and characteristics pertaining to the sentence context).Nous proposons dans cet article une analyse des résultats de la campagne SemDis 2014 qui proposait une tâche de substitution lexicale en français. Pour les 300 phrases du jeu de test, des annotateurs ont proposé des substituts à un mot cible, permettant ainsi d'établir un gold standard sur lequel les systèmes participants ont été évalués. Nous cherchons à identifier les principales caractéristiques des items du jeu de test qui peuvent expliquer les variations de performance pour les humains comme pour les systèmes, en nous basant sur l'accord inter-annotateurs des premiers et les scores de rappel des seconds. Nous montrons que si plusieurs caractéristiques communes sont associées aux deux types de difficulté (rareté du sens dans lequel le mot-cible est employé, fréquence d'emploi du mot-cible), d'autres sont spécifiques aux systèmes (degré de polysémie du mot-cible, complexité syntaxique)

    Etude des relations sémantiques dans les reformulations de requêtes sous la loupe de l'analyse distributionnelle

    International audienceStudying semantic relations in query reformulation under the scope of distributional analysis}{ In this paper, we compare a distributional resource built from a corpus of humanities and social sciences academic papers to substitutions recorded in user query logs covering the same corpus. We observed a good overlap between the two datasets (59%). These results show that distributional semantics is a fitting tool to analyze the wide variety of semantic relations involved in query reformulation. Moreover, the method that we introduce may be used for distributional resources evaluation, and is better fitted to this task than comparison with gold standards.Dans cet article, nous confrontons une base distributionnelle construite à partir d'un corpus d'articles de revues de sciences humaines à des substitutions observées dans les journaux de requêtes du moteur interrogeant ce même corpus ; le recouvrement entre les deux types de données est important (59%). Ces résultats contribuent à deux pistes de recherche : d'une part nous montrons l'adéquation de la sémantique distributionnelle pour appréhender une large palette de relations sémantiques en jeu dans les reformulations de requêtes ; d'autre part, nous introduisons des données pouvant être exploitées pour l'évaluation de ressources distributionnelles de manière bien plus satisfaisante que par la comparaison avec des "gold standards" tels que des dictionnaires de synonymes

    Ajuster l'analyse distributionnelle à un corpus spécialisé de petite taille

    International audienceApplying distributional semantic models to medium-size specialized corpora is an important objective for the extraction of lexical and terminological ressources. In this context, we seek to optimize the distributional analysis procedure on a 2 million word corpus consisting of NLP conference proceedings. Our expertise in this field allows us to establish a relevant benchmark for the task, thus providing an ideal experimental setup to observe the distributional mechanisms at work. We test several hundred configurations, with parameters ranging from syntactic analysis to similarity measures. This study highlights the variety of the results, particularly according to the POS of the target words, and allows for the identification of the best performing configurations by varying the number, nature and type of the contexts considered.L'analyse distributionnelle sur des corpus spécialisés de taille modeste constitue un objectif applicatif important pour cette famille de méthodes d'extraction des relations sémantiques. Dans ce cadre, nous cherchons à optimiser le calcul distributionnel pour traiter un corpus de 2 millions de mots composé d'articles de la conférence TALN. Notre expertise dans ce champ nous permet de constituer des données d'évaluation adaptées au corpus et à la tâche, et fait de cette configuration expérimentale un lieu idéal pour observer précisément les mécanismes distributionnels à l'œuvre. Un paramétrage précis du calcul distributionnel, depuis l'analyse syntaxique jusqu'aux mesures de proximité sémantique, met en évidence la variété des résultats obtenus, particulièrement selon les catégories grammaticales des mots cibles, et permet de dégager des combinaisons performantes en jouant sur le nombre, la nature et la qualité des contextes pris en compte dans le calcul

    Caractérisation des échanges entre patients et médecins : approche outillée d'un corpus de consultations médicales

    International audienceThis paper presents a study based on a corpus of transcribed doctor-patient interactions, which is part of an interdisciplinary project that addresses the issue of social inequalities in health. It presents the specificity of our approach compared to other ways of handling this data, and reports some results based on the automatic analysis of the corpus.Nous présentons une étude fondée sur un corpus de transcriptions de consultations médicales, dans le cadre d'un projet interdisciplinaire qui explore la question des inégalités sociales de santé. L'objet de cet article est de montrer comment, en tant que linguistes familiers du traitement outillé des corpus, nous avons choisi d'aborder ce matériau qui fait l'objet de questionnements disciplinaires complémentaires, et quels éléments de caractérisation spécifiques nous sommes en mesure d'apporter en réponse à une demande émanant de la sphère médicale

    Anomalous couplings in Higgs-boson pair production at approximate NNLO QCD

    We combine NLO predictions with full top-quark mass dependence with approximate NNLO predictions for Higgs-boson pair production in gluon fusion, including the possibility to vary coupling parameters within a non-linear Effective Field Theory framework containing five anomalous couplings for this process. We study the impact of the anomalous couplings on various observables, and present Higgs-pair invariant-mass distributions at seven benchmark points characterising different mhh_{hh} shape types. We also provide numerical coefficients for the approximate NNLO cross section as a function of the anomalous couplings at s\sqrt{s} = 14 TeV

    Analyse linguistique des interactions patient/médecin

    International audienceCet article présente les premiers résultats d'une étude linguistique initiée dans le cadre d'un projet interdisciplinaire, INTERMEDE, qui réunit des épidémiologues, des sociologues et des linguistes dans le but de comprendre dans quelle mesure les interactions médecin/patient en médecine générale peuvent contribuer à renforcer ou au contraire à réduire les inégalités sociales de santé. L'objectif de ce travail interdisciplinaire est de tester l'hypothèse selon laquelle la nature des interactions varie selon les caractéristiques sociales du patient. Le volet linguistique qui nous occupe vise à mettre en évidence ces variations sur plusieurs dimensions de l'échange langagier – lexicale, énonciative, interactionnelle - de manière à pouvoir calculer dans un stade ultérieur du projet les corrélations possibles entre ces variations linguistiques et les variables sociales dont nous disposons (âge, sexe, catégories socio-professionnelles)

    High-level discourse structures: topical chains and enumerative structures in a diversified annotated corpus

    One of the outcomes of the ANNODIS project (Ho-Dac et al 2009, 2010) is a diversified corpus annotated with two frequent textual motifs: topical chains - TCs - and enumerative structures - ESs. The corpus has been manually annotated with both the motifs and the clues signalling them. These data can now be exploited in a comparative mode in order to examine TCs and ESs in the three sub-corpora: 1) reports in the field of international relations; 2) scientific articles (proceedings of a linguistics conference); 3) encyclopaedia articles (from Wikipedia). The initial step is to take a quantitative look at each motif: composition, distribution, and match with document structure (Power et al 2003). Though the motifs are common in all three corpora, differences appear in their frequency, in their length and coverage (proportion of text involved), in their composition (for ESs: number of items, presence of a trigger and/or closure). Another important aspect is their granularity: this notion is approximated via a typology in which types correspond to different forms of interaction between the motifs and the document's layout structure (sections and headings, formatted lists and paragraphs). We then examine the data from several qualitative angles in order to arrive at a functional characterisation of the motifs. Of special interest to us is the link between particular forms of signalling and specific functions: ESs with items introduced by sequencers, for instance, are functionally different from ESs whose items are introduced by circumstantial adverbials. A continuum is proposed from ESs signalled by purely textual cues (e.g. bullet points) to ESs whose cues carry ideational contents (such as adverbials) (Halliday 1977). The different corpora are compared in terms of the functional classes and their linguistic correlates, Finally, the two motifs are observed in context and in their interaction. A special case of interaction concerns ESs interacting with themselves via recursivity, a remarkably frequent occurrence in our corpus. This analysis of how the motifs behave in text also leads to cross-corpus comparisons

    An empirical approach to the signalling of enumerative structures

    International audienceThis paper presents a data-intensive study of the signalling of enumerative structures. In contrast with semasiological studies of specific markers, the approach described here takes as its starting point annotated structures and cues, seeking to identify recurrent patterns in these data. To do so, it exploits a new resource for French, the ANNODIS resource, a large corpus of written texts manually annotated at discourse level. The data analysed - first quantitatively with large populations, then qualitatively on selected examples - allows the authors to illustrate how cues involved in signalling text organisation combine in complex ways metadiscourse and propositional content, or the textual and ideational metafunctions.Nous présentons dans cet article une analyse extensive sur corpus de la signalisation des structures énumératives. Notre étude diverge par rapport aux travaux antérieurs principalement caractérisés par une approche sémasiologique de marqueurs spécifiques, car elle se fonde sur une annotation manuelle systématique des structures et des indices. C'est à partir de ces données annotées que nous cherchons des motifs récurrents de signalisation. Nous exploitons une ressource récemment créée, la ressource ANNODIS, corpus de français écrit enrichi d'annotations discursives. Les données analysées - de manière quantitative d'abord pour embrasser des effectifs importants, puis de manière qualitative sur une sélection d'exemples - nous permettent de montrer que les indices qui contribuent à l'organisation textuelle peuvent associer métadiscours et contenu propositionnel, en d'autres termes les fonctions textuelle et idéationnelle

    An electromyographic analysis of the effects of cognitive fatigue on reactive and proactive action control

    Complex activities require a sustained mental effort that causes cognitive fatigue. This fatigue may be the source of errors by disrupting action control. In this study, we examined its effects on reactive and proactive action control. Two groups performed a Simon task (a conflict task) after completing a fatigue-inducing task (a dual task combining a 2-back task and a parity judgment task, Borragàn et al., 2017) in which the cognitive load was high or low. In order to measure reactive and proactive control, we evaluated the correction rate, distributional analyses and the Gratton effect based on electromyographic analyses. We observed that fatigue have only impaired proactive control. Participants in the high load condition were less able to adjust their behavior after observing a conflict. These results are in line with previous studies which posit a change to less demanding strategies when participants became mentally fatigued
