5 research outputs found
La définition des annotations linguistiques selon les corpus : de l'écrit journalistique à l'oral
ConfrontĂ© Ă Internet, le Traitement Automatique des Langues (TAL) a dĂ» relever le dĂ©fi que posait lâanalyse de textes dialogiques Ă©crits (blog, forum, chat, rĂ©seaux sociaux etc.) et oraux. Les recherches prĂ©sentĂ©es ont, dans un premier temps, portĂ© sur le dĂ©veloppement de systĂšmes Ă mĂȘme de repĂ©rer et dâanalyser lâinformation Ă partir dâune annotation des ressources. Lâapproche retenue privilĂ©gie lâintĂ©gration dâindices inhĂ©rents Ă la nature de corpus « hors normes » afin dâamĂ©liorer les techniques de traitement automatique. La chaĂźne dâopĂ©rations comprend quatre Ă©tapes :(i) Lâobservation et lâanalyse manuelle des donnĂ©es afin de recenser les variations dans les occurrences et dâĂ©valuer lâampleur des phĂ©nomĂšnes Ă annoter, leur classification et lâidentification de leurs marqueurs formels.(ii) La modĂ©lisation de lâinformation Ă partir dâune typologie sous la forme dâun jeu dâĂ©tiquettes ajustĂ© Ă la nature du corpus.(iii) La dĂ©finition de la technologie congrue (gĂ©nĂ©ralement, lâarbitrage entre le dĂ©veloppement dâun nouvel outil et lâadaptation dâun outil existant).(iv) LâimplĂ©mentation du schĂ©ma dâannotation dĂ©fini afin de procĂ©der Ă une analyse quantitative et qualitative des rĂ©sultats.Lâannotation effectuĂ©e concerne les domaines de la syntaxe (Ă©tiquetage morpho-syntaxique et chunking), sĂ©mantique et/ou pragmatique (entitĂ©s nommĂ©es, indices dâidentification de la personne, reformulations etc.). Lâapplication concerne aussi bien des entretiens transcrits que des titres de cartes gĂ©ographiques, des recettes dâomelette que des articles du Monde. Les mĂ©thodes utilisĂ©es varient en fonction du corpus et de la tĂąche traitĂ©e. Lâannotation syntaxique et le repĂ©rage des segments reformulĂ©s sont fondĂ©s sur la technique dâapprentissage automatique avec les CRFs ; le repĂ©rage des entitĂ©s nommĂ©es et des indices dâidentification de la personne dans les transcriptions de lâoral utilise les mĂ©thodes symboliques ; la dĂ©tection automatique des tours de parole contenant la reformulation emploie les mĂ©thodes heuristiques. Le travail sur le français parlĂ© et son annotation a conduit Ă la modĂ©lisation des caractĂ©ristiques propres Ă lâoral : disfluences, marqueurs discursifs, prĂ©sentateurs, segmentation, commentaires personnels etc. Un autre phĂ©nomĂšne caractĂ©ristique de lâoral, la reformulation, a fait lâobjet dâune Ă©tude particuliĂšre. Le travail sur lâannotation du corpus oral, du corpus Web ou du corpus mĂ©diatique a permis de reconsidĂ©rer la notion de subjectivitĂ© qui constitue lâune des difficultĂ©s rĂ©currentes du traitement automatique. LâĂ©tude de la subjectivitĂ© et son expression dans le discours a Ă©tĂ© poursuivie dans plusieurs des recherches menĂ©es : la subjectivitĂ© Ă partir des informations personnelles livrĂ©es par le locuteur, la subjectivitĂ© dans la perception et lâappropriation des lieux, la subjectivitĂ© dans les recettes de cuisine et enfin la subjectivitĂ© exprimĂ©e Ă travers les noms gĂ©nĂ©raux
Actes de la 6e confĂ©rence conjointe JournĂ©es d'Ătudes sur la Parole (JEP, 33e Ă©dition), Traitement Automatique des Langues Naturelles (TALN, 27e Ă©dition), Rencontre des Ătudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RĂCITAL, 22e Ă©dition. Volume 2 : Traitement Automatique des Langues Naturelles
@ 6Úme conférence conjointe: JEP-TALN-RECITAL 2020no abstrac
Etude de la paraphrase sous-phrastique en traitement automatique des langues
Language variation, or the fact that messages can be conveyed in a great variety of ways by means of linguistic expressions, is one of the most challenging and certainly fascinating features of language for Natural Language Processing, with wide applications in language analysis and generation. The term paraphrase is now commonly used to refer to textual units of equivalent meaning, down to the level of sub-sentential fragments. Although one can envisage to manually build high-coverage lists of synonyms, enumerating meaning equivalences at the level of phrases is too daunting a task for humans. Consequently, acquiring this type of knowledge by automatic means has attracted a lot of attention and significant research efforts have been devoted to this objective. In this thesis we use parallel monolingual corpora for a detailed study of the task of sub-sentential paraphrase acquisition. We argue that the scarcity of this type of resource is compensated by the fact that it is the most suited corpus type for studies on paraphrasing. We propose a large exploration of this task with experiments on two languages with five different acquisition techniques, selected for their complementarity, their combinations, as well as four monolingual corpus types of varying comparability. We report, under all conditions, a significant improvement over all techniques by validating candidate paraphrases using a maximum entropy classifier. An important result of our study is the identification of difficult-to-acquire paraphrase pairs, which are classified and quantified in a bilingual typology.La variabilitĂ© en langue est une source majeure de difficultĂ©s dans la plupart des applications du traitement automatique des langues. Elle se manifeste dans le fait quâune mĂȘme idĂ©e ou un mĂȘme Ă©vĂ©nement peut ĂȘtre exprimĂ© avec des mots ou des groupes de mots diffĂ©rents ayant la mĂȘme signification dans leur contexte respectif. Capturer automatiquement des Ă©quivalences sĂ©mantiques entre des unitĂ©s de texte est une tĂąche complexe mais qui sâavĂšre indispensable dans de nombreux contextes. Lâacquisition a priori de listes dâĂ©quivalences met Ă disposition des ressources utiles pour, par exemple, amĂ©liorer le repĂ©rage dâune rĂ©ponse Ă une question, autoriser des formulations diffĂ©rentes en Ă©valuation de la traduction automatique, ou encore aider des auteurs Ă trouver des formulations plus adaptĂ©es. Dans cette thĂšse, nous proposons une Ă©tude dĂ©taillĂ©e de la tĂąche dâacquisition de paraphrases sous-phrastiques Ă partir de paires dâĂ©noncĂ©s sĂ©mantiquement liĂ©s. Nous dĂ©montrons empiriquement que les corpus parallĂšles monolingues, bien quâextrĂȘmement rares, constituent le type de ressource le plus adaptĂ© pour ce genre dâĂ©tude. Nos expĂ©riences mettent en jeu cinq techniques dâacquisition, reprĂ©sentatives de diffĂ©rentes approches et connaissances, en anglais et en français. Afin dâamĂ©liorer la performance en acquisition, nous rĂ©alisons la combinaison des paraphrases produites par ces techniques par une validation reposant sur un classifieur automatique Ă maximum dâentropie bi-classe. Un rĂ©sultat important de notre Ă©tude est lâidentification de paraphrases qui dĂ©fient actuellement les techniques Ă©tudiĂ©es, lesquelles sont classĂ©es et quantifiĂ©es en anglais et français. Nous examinons Ă©galement dans cette thĂšse lâimpact de la langue, du type du corpus et la comparabilitĂ© des paires des Ă©noncĂ©s utilisĂ©s sur la tĂąche dâacquisition de paraphrases sous- phrastiques. Nous prĂ©sentons le rĂ©sultat dâune analyse de la performance des diffĂ©rentes mĂ©thodes testĂ©es en fonction des difficultĂ©s dâalignement des paires de paraphrases dâĂ©noncĂ©s. Nous donnons, ensuite, un compte rendu descriptif et quantitatif des caractĂ©ristiques des paraphrases trouvĂ©es dans les diffĂ©rents types de corpus Ă©tudiĂ©s ainsi que celles qui dĂ©fient les approches actuelles dâidentification automatique
Etude de la paraphrase sous-phrastique en traitement automatique des langues
La variabilitĂ© en langue est une source majeure de difficultĂ©s dans la plupart des applications du traitement automatique des langues. Elle se manifeste dans le fait qu une mĂȘme idĂ©e ou un mĂȘme Ă©vĂ©nement peut ĂȘtre exprimĂ© avec des mots ou des groupes de mots diffĂ©rents ayant la mĂȘme signification dans leur contexte respectif. Capturer automatiquement des Ă©quivalences sĂ©mantiques entre des unitĂ©s de texte est une tĂąche complexe mais qui s avĂšre indispensable dans de nombreux contextes. L acquisition a priori de listes d Ă©quivalences met Ă disposition des ressources utiles pour, par exemple, amĂ©liorer le repĂ©rage d une rĂ©ponse Ă une question, autoriser des formulations diffĂ©rentes en Ă©valuation de la traduction automatique, ou encore aider des auteurs Ă trouver des formulations plus adaptĂ©es. Dans cette thĂšse, nous proposons une Ă©tude dĂ©taillĂ©e de la tĂąche d acquisition de paraphrases sous-phrastiques Ă partir de paires d Ă©noncĂ©s sĂ©mantiquement liĂ©s. Nous dĂ©montrons empiriquement que les corpus parallĂšles monolingues, bien qu extrĂȘmement rares, constituent le type de ressource le plus adaptĂ© pour ce genre d Ă©tude. Nos expĂ©riences mettent en jeu cinq techniques d acquisition, reprĂ©sentatives de diffĂ©rentes approches et connaissances, en anglais et en français. Afin d amĂ©liorer la performance en acquisition, nous rĂ©alisons la combinaison des paraphrases produites par ces techniques par une validation reposant sur un classifieur automatique Ă maximum d entropie bi-classe. Un rĂ©sultat important de notre Ă©tude est l identification de paraphrases qui dĂ©fient actuellement les techniques Ă©tudiĂ©es, lesquelles sont classĂ©es et quantifiĂ©es en anglais et français. Nous examinons Ă©galement dans cette thĂšse l impact de la langue, du type du corpus et la comparabilitĂ© des paires des Ă©noncĂ©s utilisĂ©s sur la tĂąche d acquisition de paraphrases sous- phrastiques. Nous prĂ©sentons le rĂ©sultat d une analyse de la performance des diffĂ©rentes mĂ©thodes testĂ©es en fonction des difficultĂ©s d alignement des paires de paraphrases d Ă©noncĂ©s. Nous donnons, ensuite, un compte rendu descriptif et quantitatif des caractĂ©ristiques des paraphrases trouvĂ©es dans les diffĂ©rents types de corpus Ă©tudiĂ©s ainsi que celles qui dĂ©fient les approches actuelles d identification automatique.Language variation, or the fact that messages can be conveyed in a great variety of ways by means of linguistic expressions, is one of the most challenging and certainly fascinating features of language for Natural Language Processing, with wide applications in language analysis and generation. The term paraphrase is now commonly used to refer to textual units of equivalent meaning, down to the level of sub-sentential fragments. Although one can envisage to manually build high-coverage lists of synonyms, enumerating meaning equivalences at the level of phrases is too daunting a task for humans. Consequently, acquiring this type of knowledge by automatic means has attracted a lot of attention and significant research efforts have been devoted to this objective. In this thesis we use parallel monolingual corpora for a detailed study of the task of sub-sentential paraphrase acquisition. We argue that the scarcity of this type of resource is compensated by the fact that it is the most suited corpus type for studies on paraphrasing. We propose a large exploration of this task with experiments on two languages with five different acquisition techniques, selected for their complementarity, their combinations, as well as four monolingual corpus types of varying comparability. We report, under all conditions, a significant improvement over all techniques by validating candidate paraphrases using a maximum entropy classifier. An important result of our study is the identification of difficult-to-acquire paraphrase pairs, which are classified and quantified in a bilingual typology.PARIS11-SCD-Bib. Ă©lectronique (914719901) / SudocSudocFranceF
Etude de la paraphrase sous-phrastique en traitement automatique des langues
Language variation, or the fact that messages can be conveyed in a great variety of ways by means of linguistic expressions, is one of the most challenging and certainly fascinating features of language for Natural Language Processing, with wide applications in language analysis and generation. The term paraphrase is now commonly used to refer to textual units of equivalent meaning, down to the level of sub-sentential fragments. Although one can envisage to manually build high-coverage lists of synonyms, enumerating meaning equivalences at the level of phrases is too daunting a task for humans. Consequently, acquiring this type of knowledge by automatic means has attracted a lot of attention and significant research efforts have been devoted to this objective. In this thesis we use parallel monolingual corpora for a detailed study of the task of sub-sentential paraphrase acquisition. We argue that the scarcity of this type of resource is compensated by the fact that it is the most suited corpus type for studies on paraphrasing. We propose a large exploration of this task with experiments on two languages with five different acquisition techniques, selected for their complementarity, their combinations, as well as four monolingual corpus types of varying comparability. We report, under all conditions, a significant improvement over all techniques by validating candidate paraphrases using a maximum entropy classifier. An important result of our study is the identification of difficult-to-acquire paraphrase pairs, which are classified and quantified in a bilingual typology.La variabilitĂ© en langue est une source majeure de difficultĂ©s dans la plupart des applications du traitement automatique des langues. Elle se manifeste dans le fait quâune mĂȘme idĂ©e ou un mĂȘme Ă©vĂ©nement peut ĂȘtre exprimĂ© avec des mots ou des groupes de mots diffĂ©rents ayant la mĂȘme signification dans leur contexte respectif. Capturer automatiquement des Ă©quivalences sĂ©mantiques entre des unitĂ©s de texte est une tĂąche complexe mais qui sâavĂšre indispensable dans de nombreux contextes. Lâacquisition a priori de listes dâĂ©quivalences met Ă disposition des ressources utiles pour, par exemple, amĂ©liorer le repĂ©rage dâune rĂ©ponse Ă une question, autoriser des formulations diffĂ©rentes en Ă©valuation de la traduction automatique, ou encore aider des auteurs Ă trouver des formulations plus adaptĂ©es. Dans cette thĂšse, nous proposons une Ă©tude dĂ©taillĂ©e de la tĂąche dâacquisition de paraphrases sous-phrastiques Ă partir de paires dâĂ©noncĂ©s sĂ©mantiquement liĂ©s. Nous dĂ©montrons empiriquement que les corpus parallĂšles monolingues, bien quâextrĂȘmement rares, constituent le type de ressource le plus adaptĂ© pour ce genre dâĂ©tude. Nos expĂ©riences mettent en jeu cinq techniques dâacquisition, reprĂ©sentatives de diffĂ©rentes approches et connaissances, en anglais et en français. Afin dâamĂ©liorer la performance en acquisition, nous rĂ©alisons la combinaison des paraphrases produites par ces techniques par une validation reposant sur un classifieur automatique Ă maximum dâentropie bi-classe. Un rĂ©sultat important de notre Ă©tude est lâidentification de paraphrases qui dĂ©fient actuellement les techniques Ă©tudiĂ©es, lesquelles sont classĂ©es et quantifiĂ©es en anglais et français. Nous examinons Ă©galement dans cette thĂšse lâimpact de la langue, du type du corpus et la comparabilitĂ© des paires des Ă©noncĂ©s utilisĂ©s sur la tĂąche dâacquisition de paraphrases sous- phrastiques. Nous prĂ©sentons le rĂ©sultat dâune analyse de la performance des diffĂ©rentes mĂ©thodes testĂ©es en fonction des difficultĂ©s dâalignement des paires de paraphrases dâĂ©noncĂ©s. Nous donnons, ensuite, un compte rendu descriptif et quantitatif des caractĂ©ristiques des paraphrases trouvĂ©es dans les diffĂ©rents types de corpus Ă©tudiĂ©s ainsi que celles qui dĂ©fient les approches actuelles dâidentification automatique