104 research outputs found

    Identification automatique des relations discursives implicites à partir de corpus annotés et de données brutes

    Get PDF
    Building discourse parsers is currently a major challenge in Natural Language Processing. The identification of the relations (such as Explanation, Contrast ...) linking spans of text in the document is the main difficulty. Especially, identifying the so-called implicit relations, that is the relations that lack a discourse connective (such as but, because . . .), is known as an hard task since it requires to take into account various factors, and because it leads to specific difficulties in a classification system. In this thesis, we use raw data to improve automatic identification of implicit relations.First, we propose to use discourse markers in order to automatically annotate new data. We use domain adaptation methods to deal with the distributional differences between automatically and manually annotated data : we report improvements for systems built on the French corpus ANNODIS and on the English corpus Penn Discourse Treebank. Then, we propose to use word representations built from raw data, which may be automatically annotated with discourse markers, in order to feed a representation of the data based on the words found in the spans of text to be linked. We report improvements on the English corpus Penn Discourse Treebank, and especially we show that this method alleviates the need for rich resources, available but for a few languages.Le développement de systèmes d’analyse discursive automatique des documents est un enjeu actuel majeur en Traitement Automatique des Langues. La difficulté principale correspond à l’étape d’identification des relations (comme Explication, Contraste . . .) liant les segments constituant le document. En particulier, l’identification des relations dites implicites, c’est-à-dire non marquées par un connecteur discursif (comme mais, parce que . . .), est réputée difficile car elle nécessite la prise en compte d’indices variés et correspond à des difficultés particulières dans le cadre d’un système de classification automatique. Dans cette thèse, nous utilisons des données brutes pour améliorer des systèmes d’identification automatique des relations implicites.Nous proposons d’abord d’utiliser les connecteurs pour annoter automatiquement de nouvelles don- nées. Nous mettons en place des stratégies issues de l’adaptation de domaine qui nous permettent de gérer les différences en termes distributionnels entre données annotées automatiquement et manuellement : nous rapportons des améliorations pour des systèmes construits sur le corpus français ANNODIS et sur le corpus anglais du Penn Discourse Treebank. Ensuite, nous proposons d’utiliser des représentations de mots acquises à partir de données brutes, éventuellement annotées automatiquement en connecteurs, pour enrichir la représentation des données fondées sur les mots présents dans les segments à lier. Nous rapportons des améliorations sur le corpus anglais du Penn Discourse Treebank et montrons notamment que cette méthode permet de limiter le recours à des ressources riches, disponibles seulement pour peu de langues

    Extraction non supervisée de relations sémantiques lexicales

    Get PDF
    International audienceNous prĂ©sentons une base de connaissances comportant des triplets de paires de verbes associĂ©s avec une relation sĂ©mantique/discursive, extraits du corpus français frWaC par une mĂ©thode s’appuyant sur la prĂ©sence d’unconnecteur discursif reliant deux verbes. Nous dĂ©taillons plusieurs mesures visant Ă  Ă©valuer la pertinence des triplets et la force d’association entre la relation sĂ©mantique/discursive et la paire de verbes. L’évaluation intrinsĂšque est rĂ©alisĂ©e par rapport Ă  des annotations manuelles. Une Ă©valuation de la couverture de la ressource est Ă©galement rĂ©alisĂ©e par rapport au corpus Annodis annotĂ© discursivement. Cette Ă©tude produit des rĂ©sultats prometteurs dĂ©montrant l’utilitĂ© potentielle de notre ressource pour les tĂąches d’analyse discursive mais aussi des tĂąches de nature sĂ©mantique

    La participation rĂ©gionale Ă  l’interface politiques-opĂ©rations : paradoxes dans l’administration fĂ©dĂ©rale canadienne

    Get PDF
    Cette thĂšse explore le paradoxe de participation rĂ©gionale produit de la contradiction entre le discours institutionnel d’inclusion et le sentiment rĂ©gional d’exclusion de la prise de dĂ©cision lors de la mise en Ɠuvre des politiques publiques dans l’administration fĂ©dĂ©rale canadienne. La question au cƓur de notre dĂ©marche est celle de la construction de la participation dans le discours des rĂ©unions Ă  l’interface politiques-opĂ©rations composĂ©e des cadres de direction centraux et rĂ©gionaux qui forment le niveau intermĂ©diaire entre les cadres dirigeants et les gestionnaires opĂ©rationnels. Cette thĂšse innove en Ă©tudiant, selon un cadre thĂ©orique paradoxal, des Ă©changes horizontaux d’information entre pairs dans des organisations dispersĂ©es gĂ©ographiquement. Une comparaison de deux cas de l’administration fĂ©dĂ©rale canadienne combinant l’observation non participante, des entrevues semi-dirigĂ©es et une analyse documentaire, nous a permis non seulement de distinguer les diverses interprĂ©tations de la participation rĂ©gionale Ă  la prise de dĂ©cision, mais aussi de comprendre la gestion des tensions paradoxales par les divers acteurs. Le paradoxe de participation engendre des tensions qui sont gĂ©rĂ©es selon des stratĂ©gies diffĂ©rentes. Dans un cas, le sens de la participation rĂ©gionale est rĂ©el et la contradiction entre la plurivocalitĂ© et le respect de l’échĂ©ance est gĂ©rĂ©e dans une pratique de juxtaposition des deux pĂŽles contradictoires. Dans l’autre cas, la participation rĂ©gionale est symbolique et la tension, entre le respect de l’échĂ©ance au dĂ©triment de l’inclusion des informations rĂ©gionales, suit une stratĂ©gie d’évitement des tensions. Dans ce cas, la non-participation rĂ©gionale, ou silence, est imposĂ©e sous une façade de consultation des rĂ©gions aprĂšs qu’une dĂ©cision soit prise au centre. Nous illustrons les distinctions des deux cas en proposant le modĂšle du sablier pour reprĂ©senter une organisation comme l’administration fĂ©dĂ©rale canadienne qui a un double mandat, c’est-Ă -dire de conseiller le gouvernement et de fournir des services. Cette thĂšse contribue au domaine de l’administration publique par l’attention portĂ©e au management public en rĂ©gion et contribue par une recherche empirique du concept de la participation appliquĂ© Ă  un groupe rarement Ă©tudiĂ© parce qu’il est difficile d’accĂšs : les cadres de direction. La conceptualisation de la participation comme la possibilitĂ© d’exprimer sa voix pour exercer une influence sur le travail a permis Ă©galement d’enrichir la recherche sur le silence organisationnel en distinguant le silence intentionnel du silence imposĂ©. Cette thĂšse propose que des recherches ultĂ©rieures se penchent sur les stratĂ©gies de gestion des paradoxes dans les organisations publiques

    Identifier les relations discursives implicites en combinant données naturelles et données artificielles

    Get PDF
    International audienceThis paper presents the first experiments on French in automatic identification of implicit discourse relations (i.e. relations that lack an overt connective). Our systems exploit hand-labeled implicit examples, along with artificial implicit examples obtained from explicit examples by suppressing their connective, following Marcu et Echihabi (2002). Previous work on English shows that using artificial data for training largely degrades performance on natural data, reflecting important differences in the distribution. This conclusion, that also holds for French, has led us to consider various methods inspired by domain adaptation to better combine the data. We evaluate these methods on the ANNODIS corpus: our best system achieves a 41.7 % accuracy, that is a significant gain of 4.4 % compared to a model using only the natural data. MOTS-CLÉS : structure discursive, relations discursives implicites, apprentissage automatique.Cet article prĂ©sente les premiĂšres expĂ©riences sur le français d'identification automatique des relations discursives implicites (i.e., non marquĂ©es par un connecteur). Nos systĂšmes exploitent des exemples implicites annotĂ©s, ainsi que des exemples implicites artificiels obtenus Ă  partir d'exemples explicites par suppression du connecteur, une mĂ©thode introduite par Marcu et Echihabi (2002). Les prĂ©cĂ©dentes Ă©tudes sur l'anglais montrent que l'utilisation Ă  l'entraĂźnement des donnĂ©es artificielles dĂ©grade largement les performances sur les donnĂ©es naturelles, ce qui reflĂšte des diffĂ©rences importantes en termes de distribution. Ce constat, qui tient aussi pour le français, nous a amenĂ©s Ă  envisager diffĂ©rentes mĂ©thodes, inspirĂ©es de l'adaptation de domaine, visant Ă  combiner plus efficacement les donnĂ©es. Nous Ă©valuons ces mĂ©thodes sur le corpus ANNODIS : notre meilleur systĂšme obtient 41,7 % d'exactitude, soit un gain significatif de 4,4 % par rapport Ă  un modĂšle n'utilisant que les donnĂ©es naturelles

    Actes des 29es Journées Francophones d'Ingénierie des Connaissances, IC 2018

    Get PDF
    International audienc

    GeoGebraTUTOR : dĂ©veloppement d’un systĂšme tutoriel autonome pour l’accompagnement d’élĂšves en situation de rĂ©solution de problĂšmes de dĂ©monstration en gĂ©omĂ©trie plane et genĂšse d’un espace de travail gĂ©omĂ©trique idoine

    Full text link
    Travaux d'Ă©tudes doctorales rĂ©alisĂ©es conjointement avec les travaux de recherches doctorales de Nicolas Leduc, Ă©tudiant au doctorat en gĂ©nie informatique Ă  l'École Polytechnique de MontrĂ©al.Cette thĂšse vise le dĂ©veloppement de GeoGebraTUTOR (GGBT), un espace de travail gĂ©omĂ©trique (ETG) qui intĂšgre un systĂšme tutoriel pour l’obtention d’un milieu respectueux du raisonnement idiosyncratique de l’élĂšve. Le raisonnement mathĂ©matique, comme l’apprentissage, ne s’exerce pas de maniĂšre linĂ©aire, il repose sur un remaniement conceptuel continu. Il est donc peu Ă©tonnant qu’une approche sĂ©quentielle inflexible pour l’exercice de la dĂ©monstration en gĂ©omĂ©trie soit source d’embĂ»ches. Les systĂšmes tutoriels existants pour l’exercice de la dĂ©monstration en gĂ©omĂ©trie offrent une variĂ©tĂ© d’outils sans pour autant soulager l’élĂšve de cette rigiditĂ©. Le design multidisciplinaire de GGBT repose sur une conception dans l’usage qui articule plusieurs cycles de recherche et de dĂ©veloppement successifs. Cette mĂ©thodologie itĂ©rative et anthropocentrique confĂšre Ă  GGBT une intelligence qui nait d’une convergence d’analyses a priori et a posteriori successives. Cette thĂšse concerne les deux premiers cycles du dĂ©veloppement de GGBT. La premiĂšre phase du dĂ©veloppement implique l’élaboration a priori d’un systĂšme capable de recevoir et d’analyser les dĂ©marches singuliĂšres de dĂ©monstration des Ă©lĂšves en fonction de solutions expertes prĂ©alablement identifiĂ©es. Ce premier prototype de GGBT est conçu en fonction d’une analyse de la relation didactique entre un enseignant rĂ©el et l’élĂšve, et la relation didactique simulĂ©e entre un agent tuteur virtuel et ce mĂȘme Ă©lĂšve. Cette analyse thĂ©orique a priori Ă©tablit un cadre conceptuel liminaire qui vise Ă  encadrer la crĂ©ation d’un ETG idoine permettant Ă  l’apprenti gĂ©omĂštre de se livrer Ă  son travail mathĂ©matique. Cette version initiale de GGBT est mise Ă  l’essai par des Ă©lĂšves rĂ©els guidĂ©s par leur enseignant ordinaire. Leurs interactions sont ensuite Ă©tudiĂ©es pour modĂ©liser et implĂ©menter un premier systĂšme tutoriel autonome Ă  l’image des Ă©changes tĂ©moignant du contrat didactique observĂ©. Le second cycle de dĂ©veloppement s’amorce avec la modĂ©lisation et la programmation d’une structure tutorielle autonome et d’une interface renouvelĂ©e, qui contribuent conjointement au design a priori d’un espace de travail gĂ©omĂ©trique. La deuxiĂšme version ainsi obtenue est Ă©galement testĂ©e en contexte de classe rĂ©el. Cette fois, l’exercice empirique vise la validation de la gestion des messages par le systĂšme tutoriel et l’exploration des raisonnements instrumentĂ©s dans une perspective de prĂ©cision du travail gĂ©omĂ©trique possible Ă  l’interface de l’ETG qu’est GGBT. Ce parcours doctoral se clĂŽt par l’exploration d’avenues de recherche potentielles pour la poursuite du dĂ©veloppement et du raffinement de GGBT.This thesis aims at modeling GeoGebraTUTOR, a geometrical workspace that relies on the works of a tutorial system for the definition of a milieu respectful of the student’s idiosyncratic reasoning. Mathematical reasoning, like learning, does not evolve in a linear fashion. It relies on continuous conceptual reorganizations. Therefore, it is little wonder that a linear and inflexible approach for the exercise of geometrical proof creates difficulties. Existing tutorial systems for the solving of geometrical proof problems offer a variety of tools without relieving the student of this rigidity. GGBT’s multidisciplinary design relies on a design in use approach that articulates a series of research and development cycles. This iterative anthropocentric methodology provides GGBT with an intelligence resulting from the confrontation of successive a priori and a posteriori analyses. This thesis is rooted in GGBT’s two first development cycles. The first phase of design implies the planning of a system able to take in singular student proofs and analyze their value compared to previously implemented expert answers. This first GGBT prototype is designed according to an analysis of the didactical relationship between the teacher and the student as well as the relationship that takes place between the student and the tutor agent who evolves within the didactical milieu. This a priori analysis establishes theoretical guidelines, which will steer the design of a geometrical workspace that enables the learning geometer to accomplish his mathematical work. A first GGBT prototype is put to the test with real students assisted by their regular teacher. Their interactions are then studied in order to model and implement a first self-governing tutorial system according to the dialogues reflecting the observed didactical contract. The second design cycle begins with the modeling and programming of a tutorial structure and of a renewed interface, both of which contribute to the planning of a geometrical workspace. This second prototype is also tested in a real class environment, although this time the empirical exercise aims, on the one hand, at validating the management of the tutor’s help messages, and on the other hand at exploring the student’s instrumented reasoning to specify the mathematical activity made possible by the GGBT geometrical workspace. This doctoral endeavor ends with the exploration of potential research avenues for the ongoing design and refining of GGBT

    Langage, engagement et émotions (les ressources de la génération linguistique et de l'intégration émotionnelle dans le discours scientifique)

    Get PDF
    L'Ă©motion et le discours scientifique sont traditionnellement deux domaines considĂ©rĂ©s comme incompatibles du fait du caractĂšre subjectif de la premiĂšre et des exigences d'objectivitĂ© et de neutralitĂ© du dernier. La thĂšse propose une Ă©tude des processus en Ɠuvre dans la gĂ©nĂ©ration des Ă©motions en relation avec la constitution du discours, et ensuite des stratĂ©gies ou modes d'intĂ©gration des phĂ©nomĂšnes de manifestations Ă©motionnelles dans le discours final. L'Ă©tude combine une approche psychologique et linguistique des Ă©motions et s'articule autour de la transition entre le domaine mental et celui de la prĂ©paration et de l'expression finale des Ă©motions gĂ©nĂ©rĂ©es dans le discours (lien entre l'Ă©valuation cognitive et l'Appraisal theory en linguistique). Une synthĂšse de grandes typologies des modes d'inclusion, ainsi que des grands types de manifestations de charges Ă©motionnelles-affectives globale est prĂ©sentĂ©e dans la thĂšse. Cette mĂȘme synthĂšse est issue de la recherche et de l'analyse de manifestations d'Ă©motions incluses volontairement ou non dans un corpus d'articles de la presse scientifique anglophone soumise Ă  comitĂ© de relecture. L'un des objectifs Ă©tant de dĂ©terminer si le discours scientifique prĂ©sente des manifestations de subjectivitĂ© des auteurs, et par quels biais ces phĂ©nomĂšnes de subjectivitĂ© et d'Ă©motion s'encodent dans des textes devant, selon les normes et conventions, ĂȘtre aussi objectifs et neutres que possible, quelle que soit la discipline concernĂ©e. A donc Ă©tĂ© soulevĂ©e la question de la part prise par l'Ă©motion dans le discours en gĂ©nĂ©ral, de sa constitution Ă  son expression.Emotion and scientific discourse are, by tradition, considered to be incompatible due to the subjective nature of the former and the objectivity requirements of the latter. The thesis deals with a study of the processes involved in emotion generation in relation with discourse generation. This is followed by the approach of the modes or strategies of inclusion of emotion manifestation phenomena in the final discourse. The study combines a psychological and linguistic approach of emotions, and revolves around the transition stage between the mental domain and that of language elaboration, leading to communicating the previously generated emotions in discourse (link between cognitive appraisal and the Appraisal theory in linguistics). The thesis sums up the broad categories of inclusion modes, as well as the main global emotion/affect load manifestation types. This very synthesis is the result of the research and analysis of emotion manifestations deliberately or accidentally included into a selection of articles sampled out from english-speaking peer-reviewed scientific press. One of the goals was to determine if scientific discourse contains and displays the authors' subjectivity and emotion manifestations, and how these phenomena are encoded in texts that are primarily meant (according to norms and conventions) to be as objective and neutral as possible, regardless of the subject. Thus was raised the question of the importance of the share taken by emotion in any discourse, from its generation to the moment it is uttered.BREST-SCD-Bib. electronique (290199901) / SudocSudocFranceF
    • 

    corecore