20 research outputs found

    Adjectifs dérivés de noms : analyse en corpus médical et élaboration d'un modÚle d'encodage terminologique

    Full text link
    Mémoire numérisé par la Direction des bibliothÚques de l'Université de Montréal

    ...des conférences enfin disons des causeries... Détection automatique de segments en relation de paraphrase dans les reformulations de corpus oraux.

    Get PDF
    International audienceNotre travail porte sur la dĂ©tection automatique des segments en relation de reformulation paraphrastique dans les corpus oraux. L'approche proposĂ©e est une approche syntagmatique qui tient compte des marqueurs de reformu-lation paraphrastique et des spĂ©cificitĂ©s de l'oral. Les donnĂ©es de rĂ©fĂ©rence sont consensuelles. Une mĂ©thode automatique fondĂ©e sur l'apprentissage avec les CRF est proposĂ©e afin de dĂ©tecter les segments paraphrasĂ©s. DiffĂ©rents descripteurs sont exploitĂ©s dans une fenĂȘtre de taille variable. Les tests effectuĂ©s montrent que les segments en relation de paraphrase sont assez difficiles Ă  dĂ©tecter, surtout avec leurs frontiĂšres correctes. Les meilleures moyennes atteignent 0,65 de F-mesure, 0,75 de prĂ©cision et 0,63 de rappel. Nous avons plusieurs perspectives Ă  ce travail pour amĂ©liorer la dĂ©tection des segments en relation de paraphrase et pour Ă©tudier les donnĂ©es depuis d'autres points de vue. Abstract. Our work addresses automatic detection of segments with paraphrastic rephrasing relation in spoken corpus. The proposed approach is syntagmatic. It is based on paraphrastic rephrasing markers and the specificities of the spoken language. The reference data used are consensual. Automatic method based on machine learning using CRFs is proposed in order to detect the segments that are paraphrased. Different descriptors are exploited within a window with various sizes. The tests performed indicate that the segments that are in paraphrastic relation are quite difficult to detect. Our best average reaches up to 0.65 F-measure, 0.75 precision, and 0.63 recall. We have several perspectives to this work for improving the detection of segments that are in paraphrastic relation and for studying the data from other points of view

    Affinités syntaxiques et sémantiques entre mots : apports mutuels de la linguistique et du TAL

    Get PDF
    Je présente un bilan des travaux que j'ai menés depuis mon recrutement à l'Université de Toulouse 2 - Le Mirail (1997) dans le domaine de la linguistique et du Traitement Automatique des Langues (TAL). J'ai exploré le lien entre ces deux disciplines de deux façons que j'estime complémentaires : tout d'abord, je considÚre le champ applicatif du TAL comme un terrain d'investigation important pour la linguistique. Le TAL, et de façon générale, les applications relevant du domaine de l'ingénierie des langues, sollicitent un renouvellement des objets d'étude de la linguistique et élargissent le champ de ses questionnements. En retour, la linguistique gagne à s'appuyer sur des procédures de découverte issues du TAL, basées sur le traitement de corpus numérisés et annotés et sur le recours à des techniques de quantification adaptées aux besoins de la description linguistique. Au sein de ce cadre général, les travaux que j'ai menés ont porté principalement sur deux thématiques de recherche que j'ai résumées sous les termes d'affinités sémantiques et syntaxiques. Le premier concerne la question du repérage des rapports de proximité sémantique entre différents types d'unités (mots, termes, structures prédicatives). Identifier sous la diversité des formulations des éléments de contenu similaire est un objectif crucial pour de nombreuses applications qui visent l'accÚs à l'information dans les textes. Dans cette perspective, j'ai cherché à considérer sur le plan linguistique cette question de la proximité sémantique, en faisant en particulier appel à des techniques d'analyse distributionnelle automatique qui visent à calculer les rapprochements sémantiques entre mots sur la base de la similarité de leur comportement syntaxique dans les corpus. Cette approche inductive des relations de sens déborde largement les limites des relations classiquement décrites en linguistique et sollicite des procédures nouvelles de description et de validation. Le second volet concerne la question des affinités syntaxiques entre mots : impliquée dans le projet de développement et d'exploitation d'un analyseur syntaxique automatique, syntex, je me suis intéressée à une question qui est au coeur des problÚmes d'ambiguïté syntaxique, à savoir le rattachement des groupes prépositionnels. J'ai travaillé en particulier à la mise au point d'une méthode permettant de distinguer des types différents de rattachement prépositionnel, de nature argumentale ou adjonctive. Dans ce cas également, mon travail est guidé par un objectif qui relÚve du TAL (améliorer les performances d'un analyseur), et ce projet m'a amenée en retour à retravailler une question linguistique centrale en syntaxe, la distinction entre arguments et circonstants, et à développer des méthodes d'analyse de corpus qui permettent de substituer à une conception binaire de ces notions une appréciation plus graduelle de l'autonomie du groupe prépositionnel par rapport au verbe. Je propose donc de montrer comment les outils de TAL appliqués aux corpus offrent à la linguistique des instruments d'observation et d'expérimentation qui permettent d'aborder les faits langagiers par le biais de l'observation des usages et sous l'angle de la quantification. Ma conviction est que la linguistique ainsi outillée peut jouer un rÎle plus important sur les nombreux terrains applicatifs qui nécessitent l'analyse de données langagiÚres

    La définition des annotations linguistiques selon les corpus : de l'écrit journalistique à l'oral

    Get PDF
    ConfrontĂ© Ă  Internet, le Traitement Automatique des Langues (TAL) a dĂ» relever le dĂ©fi que posait l’analyse de textes dialogiques Ă©crits (blog, forum, chat, rĂ©seaux sociaux etc.) et oraux. Les recherches prĂ©sentĂ©es ont, dans un premier temps, portĂ© sur le dĂ©veloppement de systĂšmes Ă  mĂȘme de repĂ©rer et d’analyser l’information Ă  partir d’une annotation des ressources. L’approche retenue privilĂ©gie l’intĂ©gration d’indices inhĂ©rents Ă  la nature de corpus « hors normes » afin d’amĂ©liorer les techniques de traitement automatique. La chaĂźne d’opĂ©rations comprend quatre Ă©tapes :(i) L’observation et l’analyse manuelle des donnĂ©es afin de recenser les variations dans les occurrences et d’évaluer l’ampleur des phĂ©nomĂšnes Ă  annoter, leur classification et l’identification de leurs marqueurs formels.(ii) La modĂ©lisation de l’information Ă  partir d’une typologie sous la forme d’un jeu d’étiquettes ajustĂ© Ă  la nature du corpus.(iii) La dĂ©finition de la technologie congrue (gĂ©nĂ©ralement, l’arbitrage entre le dĂ©veloppement d’un nouvel outil et l’adaptation d’un outil existant).(iv) L’implĂ©mentation du schĂ©ma d’annotation dĂ©fini afin de procĂ©der Ă  une analyse quantitative et qualitative des rĂ©sultats.L’annotation effectuĂ©e concerne les domaines de la syntaxe (Ă©tiquetage morpho-syntaxique et chunking), sĂ©mantique et/ou pragmatique (entitĂ©s nommĂ©es, indices d’identification de la personne, reformulations etc.). L’application concerne aussi bien des entretiens transcrits que des titres de cartes gĂ©ographiques, des recettes d’omelette que des articles du Monde. Les mĂ©thodes utilisĂ©es varient en fonction du corpus et de la tĂąche traitĂ©e. L’annotation syntaxique et le repĂ©rage des segments reformulĂ©s sont fondĂ©s sur la technique d’apprentissage automatique avec les CRFs ; le repĂ©rage des entitĂ©s nommĂ©es et des indices d’identification de la personne dans les transcriptions de l’oral utilise les mĂ©thodes symboliques ; la dĂ©tection automatique des tours de parole contenant la reformulation emploie les mĂ©thodes heuristiques. Le travail sur le français parlĂ© et son annotation a conduit Ă  la modĂ©lisation des caractĂ©ristiques propres Ă  l’oral : disfluences, marqueurs discursifs, prĂ©sentateurs, segmentation, commentaires personnels etc. Un autre phĂ©nomĂšne caractĂ©ristique de l’oral, la reformulation, a fait l’objet d’une Ă©tude particuliĂšre. Le travail sur l’annotation du corpus oral, du corpus Web ou du corpus mĂ©diatique a permis de reconsidĂ©rer la notion de subjectivitĂ© qui constitue l’une des difficultĂ©s rĂ©currentes du traitement automatique. L’étude de la subjectivitĂ© et son expression dans le discours a Ă©tĂ© poursuivie dans plusieurs des recherches menĂ©es : la subjectivitĂ© Ă  partir des informations personnelles livrĂ©es par le locuteur, la subjectivitĂ© dans la perception et l’appropriation des lieux, la subjectivitĂ© dans les recettes de cuisine et enfin la subjectivitĂ© exprimĂ©e Ă  travers les noms gĂ©nĂ©raux
    corecore