20 research outputs found
Adjectifs dérivés de noms : analyse en corpus médical et élaboration d'un modÚle d'encodage terminologique
Mémoire numérisé par la Direction des bibliothÚques de l'Université de Montréal
...des conférences enfin disons des causeries... Détection automatique de segments en relation de paraphrase dans les reformulations de corpus oraux.
International audienceNotre travail porte sur la dĂ©tection automatique des segments en relation de reformulation paraphrastique dans les corpus oraux. L'approche proposĂ©e est une approche syntagmatique qui tient compte des marqueurs de reformu-lation paraphrastique et des spĂ©cificitĂ©s de l'oral. Les donnĂ©es de rĂ©fĂ©rence sont consensuelles. Une mĂ©thode automatique fondĂ©e sur l'apprentissage avec les CRF est proposĂ©e afin de dĂ©tecter les segments paraphrasĂ©s. DiffĂ©rents descripteurs sont exploitĂ©s dans une fenĂȘtre de taille variable. Les tests effectuĂ©s montrent que les segments en relation de paraphrase sont assez difficiles Ă dĂ©tecter, surtout avec leurs frontiĂšres correctes. Les meilleures moyennes atteignent 0,65 de F-mesure, 0,75 de prĂ©cision et 0,63 de rappel. Nous avons plusieurs perspectives Ă ce travail pour amĂ©liorer la dĂ©tection des segments en relation de paraphrase et pour Ă©tudier les donnĂ©es depuis d'autres points de vue. Abstract. Our work addresses automatic detection of segments with paraphrastic rephrasing relation in spoken corpus. The proposed approach is syntagmatic. It is based on paraphrastic rephrasing markers and the specificities of the spoken language. The reference data used are consensual. Automatic method based on machine learning using CRFs is proposed in order to detect the segments that are paraphrased. Different descriptors are exploited within a window with various sizes. The tests performed indicate that the segments that are in paraphrastic relation are quite difficult to detect. Our best average reaches up to 0.65 F-measure, 0.75 precision, and 0.63 recall. We have several perspectives to this work for improving the detection of segments that are in paraphrastic relation and for studying the data from other points of view
Actes de la conférence Traitement Automatique de la Langue Naturelle, TALN 2018: Volume 2 : Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
International audienc
Actes de la 6e confĂ©rence conjointe JournĂ©es d'Ătudes sur la Parole (JEP, 33e Ă©dition), Traitement Automatique des Langues Naturelles (TALN, 27e Ă©dition), Rencontre des Ătudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RĂCITAL, 22e Ă©dition. Volume 2 : Traitement Automatique des Langues Naturelles
@ 6Úme conférence conjointe: JEP-TALN-RECITAL 2020no abstrac
Affinités syntaxiques et sémantiques entre mots : apports mutuels de la linguistique et du TAL
Je présente un bilan des travaux que j'ai menés depuis mon recrutement à l'Université de Toulouse 2 - Le Mirail (1997) dans le domaine de la linguistique et du Traitement Automatique des Langues (TAL). J'ai exploré le lien entre ces deux disciplines de deux façons que j'estime complémentaires : tout d'abord, je considÚre le champ applicatif du TAL comme un terrain d'investigation important pour la linguistique. Le TAL, et de façon générale, les applications relevant du domaine de l'ingénierie des langues, sollicitent un renouvellement des objets d'étude de la linguistique et élargissent le champ de ses questionnements. En retour, la linguistique gagne à s'appuyer sur des procédures de découverte issues du TAL, basées sur le traitement de corpus numérisés et annotés et sur le recours à des techniques de quantification adaptées aux besoins de la description linguistique. Au sein de ce cadre général, les travaux que j'ai menés ont porté principalement sur deux thématiques de recherche que j'ai résumées sous les termes d'affinités sémantiques et syntaxiques. Le premier concerne la question du repérage des rapports de proximité sémantique entre différents types d'unités (mots, termes, structures prédicatives). Identifier sous la diversité des formulations des éléments de contenu similaire est un objectif crucial pour de nombreuses applications qui visent l'accÚs à l'information dans les textes. Dans cette perspective, j'ai cherché à considérer sur le plan linguistique cette question de la proximité sémantique, en faisant en particulier appel à des techniques d'analyse distributionnelle automatique qui visent à calculer les rapprochements sémantiques entre mots sur la base de la similarité de leur comportement syntaxique dans les corpus. Cette approche inductive des relations de sens déborde largement les limites des relations classiquement décrites en linguistique et sollicite des procédures nouvelles de description et de validation. Le second volet concerne la question des affinités syntaxiques entre mots : impliquée dans le projet de développement et d'exploitation d'un analyseur syntaxique automatique, syntex, je me suis intéressée à une question qui est au coeur des problÚmes d'ambiguïté syntaxique, à savoir le rattachement des groupes prépositionnels. J'ai travaillé en particulier à la mise au point d'une méthode permettant de distinguer des types différents de rattachement prépositionnel, de nature argumentale ou adjonctive. Dans ce cas également, mon travail est guidé par un objectif qui relÚve du TAL (améliorer les performances d'un analyseur), et ce projet m'a amenée en retour à retravailler une question linguistique centrale en syntaxe, la distinction entre arguments et circonstants, et à développer des méthodes d'analyse de corpus qui permettent de substituer à une conception binaire de ces notions une appréciation plus graduelle de l'autonomie du groupe prépositionnel par rapport au verbe. Je propose donc de montrer comment les outils de TAL appliqués aux corpus offrent à la linguistique des instruments d'observation et d'expérimentation qui permettent d'aborder les faits langagiers par le biais de l'observation des usages et sous l'angle de la quantification. Ma conviction est que la linguistique ainsi outillée peut jouer un rÎle plus important sur les nombreux terrains applicatifs qui nécessitent l'analyse de données langagiÚres
La définition des annotations linguistiques selon les corpus : de l'écrit journalistique à l'oral
ConfrontĂ© Ă Internet, le Traitement Automatique des Langues (TAL) a dĂ» relever le dĂ©fi que posait lâanalyse de textes dialogiques Ă©crits (blog, forum, chat, rĂ©seaux sociaux etc.) et oraux. Les recherches prĂ©sentĂ©es ont, dans un premier temps, portĂ© sur le dĂ©veloppement de systĂšmes Ă mĂȘme de repĂ©rer et dâanalyser lâinformation Ă partir dâune annotation des ressources. Lâapproche retenue privilĂ©gie lâintĂ©gration dâindices inhĂ©rents Ă la nature de corpus « hors normes » afin dâamĂ©liorer les techniques de traitement automatique. La chaĂźne dâopĂ©rations comprend quatre Ă©tapes :(i) Lâobservation et lâanalyse manuelle des donnĂ©es afin de recenser les variations dans les occurrences et dâĂ©valuer lâampleur des phĂ©nomĂšnes Ă annoter, leur classification et lâidentification de leurs marqueurs formels.(ii) La modĂ©lisation de lâinformation Ă partir dâune typologie sous la forme dâun jeu dâĂ©tiquettes ajustĂ© Ă la nature du corpus.(iii) La dĂ©finition de la technologie congrue (gĂ©nĂ©ralement, lâarbitrage entre le dĂ©veloppement dâun nouvel outil et lâadaptation dâun outil existant).(iv) LâimplĂ©mentation du schĂ©ma dâannotation dĂ©fini afin de procĂ©der Ă une analyse quantitative et qualitative des rĂ©sultats.Lâannotation effectuĂ©e concerne les domaines de la syntaxe (Ă©tiquetage morpho-syntaxique et chunking), sĂ©mantique et/ou pragmatique (entitĂ©s nommĂ©es, indices dâidentification de la personne, reformulations etc.). Lâapplication concerne aussi bien des entretiens transcrits que des titres de cartes gĂ©ographiques, des recettes dâomelette que des articles du Monde. Les mĂ©thodes utilisĂ©es varient en fonction du corpus et de la tĂąche traitĂ©e. Lâannotation syntaxique et le repĂ©rage des segments reformulĂ©s sont fondĂ©s sur la technique dâapprentissage automatique avec les CRFs ; le repĂ©rage des entitĂ©s nommĂ©es et des indices dâidentification de la personne dans les transcriptions de lâoral utilise les mĂ©thodes symboliques ; la dĂ©tection automatique des tours de parole contenant la reformulation emploie les mĂ©thodes heuristiques. Le travail sur le français parlĂ© et son annotation a conduit Ă la modĂ©lisation des caractĂ©ristiques propres Ă lâoral : disfluences, marqueurs discursifs, prĂ©sentateurs, segmentation, commentaires personnels etc. Un autre phĂ©nomĂšne caractĂ©ristique de lâoral, la reformulation, a fait lâobjet dâune Ă©tude particuliĂšre. Le travail sur lâannotation du corpus oral, du corpus Web ou du corpus mĂ©diatique a permis de reconsidĂ©rer la notion de subjectivitĂ© qui constitue lâune des difficultĂ©s rĂ©currentes du traitement automatique. LâĂ©tude de la subjectivitĂ© et son expression dans le discours a Ă©tĂ© poursuivie dans plusieurs des recherches menĂ©es : la subjectivitĂ© Ă partir des informations personnelles livrĂ©es par le locuteur, la subjectivitĂ© dans la perception et lâappropriation des lieux, la subjectivitĂ© dans les recettes de cuisine et enfin la subjectivitĂ© exprimĂ©e Ă travers les noms gĂ©nĂ©raux