5 research outputs found

    La définition des annotations linguistiques selon les corpus : de l'écrit journalistique à l'oral

    Get PDF
    ConfrontĂ© Ă  Internet, le Traitement Automatique des Langues (TAL) a dĂ» relever le dĂ©fi que posait l’analyse de textes dialogiques Ă©crits (blog, forum, chat, rĂ©seaux sociaux etc.) et oraux. Les recherches prĂ©sentĂ©es ont, dans un premier temps, portĂ© sur le dĂ©veloppement de systĂšmes Ă  mĂȘme de repĂ©rer et d’analyser l’information Ă  partir d’une annotation des ressources. L’approche retenue privilĂ©gie l’intĂ©gration d’indices inhĂ©rents Ă  la nature de corpus « hors normes » afin d’amĂ©liorer les techniques de traitement automatique. La chaĂźne d’opĂ©rations comprend quatre Ă©tapes :(i) L’observation et l’analyse manuelle des donnĂ©es afin de recenser les variations dans les occurrences et d’évaluer l’ampleur des phĂ©nomĂšnes Ă  annoter, leur classification et l’identification de leurs marqueurs formels.(ii) La modĂ©lisation de l’information Ă  partir d’une typologie sous la forme d’un jeu d’étiquettes ajustĂ© Ă  la nature du corpus.(iii) La dĂ©finition de la technologie congrue (gĂ©nĂ©ralement, l’arbitrage entre le dĂ©veloppement d’un nouvel outil et l’adaptation d’un outil existant).(iv) L’implĂ©mentation du schĂ©ma d’annotation dĂ©fini afin de procĂ©der Ă  une analyse quantitative et qualitative des rĂ©sultats.L’annotation effectuĂ©e concerne les domaines de la syntaxe (Ă©tiquetage morpho-syntaxique et chunking), sĂ©mantique et/ou pragmatique (entitĂ©s nommĂ©es, indices d’identification de la personne, reformulations etc.). L’application concerne aussi bien des entretiens transcrits que des titres de cartes gĂ©ographiques, des recettes d’omelette que des articles du Monde. Les mĂ©thodes utilisĂ©es varient en fonction du corpus et de la tĂąche traitĂ©e. L’annotation syntaxique et le repĂ©rage des segments reformulĂ©s sont fondĂ©s sur la technique d’apprentissage automatique avec les CRFs ; le repĂ©rage des entitĂ©s nommĂ©es et des indices d’identification de la personne dans les transcriptions de l’oral utilise les mĂ©thodes symboliques ; la dĂ©tection automatique des tours de parole contenant la reformulation emploie les mĂ©thodes heuristiques. Le travail sur le français parlĂ© et son annotation a conduit Ă  la modĂ©lisation des caractĂ©ristiques propres Ă  l’oral : disfluences, marqueurs discursifs, prĂ©sentateurs, segmentation, commentaires personnels etc. Un autre phĂ©nomĂšne caractĂ©ristique de l’oral, la reformulation, a fait l’objet d’une Ă©tude particuliĂšre. Le travail sur l’annotation du corpus oral, du corpus Web ou du corpus mĂ©diatique a permis de reconsidĂ©rer la notion de subjectivitĂ© qui constitue l’une des difficultĂ©s rĂ©currentes du traitement automatique. L’étude de la subjectivitĂ© et son expression dans le discours a Ă©tĂ© poursuivie dans plusieurs des recherches menĂ©es : la subjectivitĂ© Ă  partir des informations personnelles livrĂ©es par le locuteur, la subjectivitĂ© dans la perception et l’appropriation des lieux, la subjectivitĂ© dans les recettes de cuisine et enfin la subjectivitĂ© exprimĂ©e Ă  travers les noms gĂ©nĂ©raux

    Etude de la paraphrase sous-phrastique en traitement automatique des langues

    No full text
    Language variation, or the fact that messages can be conveyed in a great variety of ways by means of linguistic expressions, is one of the most challenging and certainly fascinating features of language for Natural Language Processing, with wide applications in language analysis and generation. The term paraphrase is now commonly used to refer to textual units of equivalent meaning, down to the level of sub-sentential fragments. Although one can envisage to manually build high-coverage lists of synonyms, enumerating meaning equivalences at the level of phrases is too daunting a task for humans. Consequently, acquiring this type of knowledge by automatic means has attracted a lot of attention and significant research efforts have been devoted to this objective. In this thesis we use parallel monolingual corpora for a detailed study of the task of sub-sentential paraphrase acquisition. We argue that the scarcity of this type of resource is compensated by the fact that it is the most suited corpus type for studies on paraphrasing. We propose a large exploration of this task with experiments on two languages with five different acquisition techniques, selected for their complementarity, their combinations, as well as four monolingual corpus types of varying comparability. We report, under all conditions, a significant improvement over all techniques by validating candidate paraphrases using a maximum entropy classifier. An important result of our study is the identification of difficult-to-acquire paraphrase pairs, which are classified and quantified in a bilingual typology.La variabilitĂ© en langue est une source majeure de difficultĂ©s dans la plupart des applications du traitement automatique des langues. Elle se manifeste dans le fait qu’une mĂȘme idĂ©e ou un mĂȘme Ă©vĂ©nement peut ĂȘtre exprimĂ© avec des mots ou des groupes de mots diffĂ©rents ayant la mĂȘme signification dans leur contexte respectif. Capturer automatiquement des Ă©quivalences sĂ©mantiques entre des unitĂ©s de texte est une tĂąche complexe mais qui s’avĂšre indispensable dans de nombreux contextes. L’acquisition a priori de listes d’équivalences met Ă  disposition des ressources utiles pour, par exemple, amĂ©liorer le repĂ©rage d’une rĂ©ponse Ă  une question, autoriser des formulations diffĂ©rentes en Ă©valuation de la traduction automatique, ou encore aider des auteurs Ă  trouver des formulations plus adaptĂ©es. Dans cette thĂšse, nous proposons une Ă©tude dĂ©taillĂ©e de la tĂąche d’acquisition de paraphrases sous-phrastiques Ă  partir de paires d’énoncĂ©s sĂ©mantiquement liĂ©s. Nous dĂ©montrons empiriquement que les corpus parallĂšles monolingues, bien qu’extrĂȘmement rares, constituent le type de ressource le plus adaptĂ© pour ce genre d’étude. Nos expĂ©riences mettent en jeu cinq techniques d’acquisition, reprĂ©sentatives de diffĂ©rentes approches et connaissances, en anglais et en français. Afin d’amĂ©liorer la performance en acquisition, nous rĂ©alisons la combinaison des paraphrases produites par ces techniques par une validation reposant sur un classifieur automatique Ă  maximum d’entropie bi-classe. Un rĂ©sultat important de notre Ă©tude est l’identification de paraphrases qui dĂ©fient actuellement les techniques Ă©tudiĂ©es, lesquelles sont classĂ©es et quantifiĂ©es en anglais et français. Nous examinons Ă©galement dans cette thĂšse l’impact de la langue, du type du corpus et la comparabilitĂ© des paires des Ă©noncĂ©s utilisĂ©s sur la tĂąche d’acquisition de paraphrases sous- phrastiques. Nous prĂ©sentons le rĂ©sultat d’une analyse de la performance des diffĂ©rentes mĂ©thodes testĂ©es en fonction des difficultĂ©s d’alignement des paires de paraphrases d’énoncĂ©s. Nous donnons, ensuite, un compte rendu descriptif et quantitatif des caractĂ©ristiques des paraphrases trouvĂ©es dans les diffĂ©rents types de corpus Ă©tudiĂ©s ainsi que celles qui dĂ©fient les approches actuelles d’identification automatique

    Etude de la paraphrase sous-phrastique en traitement automatique des langues

    No full text
    La variabilitĂ© en langue est une source majeure de difficultĂ©s dans la plupart des applications du traitement automatique des langues. Elle se manifeste dans le fait qu une mĂȘme idĂ©e ou un mĂȘme Ă©vĂ©nement peut ĂȘtre exprimĂ© avec des mots ou des groupes de mots diffĂ©rents ayant la mĂȘme signification dans leur contexte respectif. Capturer automatiquement des Ă©quivalences sĂ©mantiques entre des unitĂ©s de texte est une tĂąche complexe mais qui s avĂšre indispensable dans de nombreux contextes. L acquisition a priori de listes d Ă©quivalences met Ă  disposition des ressources utiles pour, par exemple, amĂ©liorer le repĂ©rage d une rĂ©ponse Ă  une question, autoriser des formulations diffĂ©rentes en Ă©valuation de la traduction automatique, ou encore aider des auteurs Ă  trouver des formulations plus adaptĂ©es. Dans cette thĂšse, nous proposons une Ă©tude dĂ©taillĂ©e de la tĂąche d acquisition de paraphrases sous-phrastiques Ă  partir de paires d Ă©noncĂ©s sĂ©mantiquement liĂ©s. Nous dĂ©montrons empiriquement que les corpus parallĂšles monolingues, bien qu extrĂȘmement rares, constituent le type de ressource le plus adaptĂ© pour ce genre d Ă©tude. Nos expĂ©riences mettent en jeu cinq techniques d acquisition, reprĂ©sentatives de diffĂ©rentes approches et connaissances, en anglais et en français. Afin d amĂ©liorer la performance en acquisition, nous rĂ©alisons la combinaison des paraphrases produites par ces techniques par une validation reposant sur un classifieur automatique Ă  maximum d entropie bi-classe. Un rĂ©sultat important de notre Ă©tude est l identification de paraphrases qui dĂ©fient actuellement les techniques Ă©tudiĂ©es, lesquelles sont classĂ©es et quantifiĂ©es en anglais et français. Nous examinons Ă©galement dans cette thĂšse l impact de la langue, du type du corpus et la comparabilitĂ© des paires des Ă©noncĂ©s utilisĂ©s sur la tĂąche d acquisition de paraphrases sous- phrastiques. Nous prĂ©sentons le rĂ©sultat d une analyse de la performance des diffĂ©rentes mĂ©thodes testĂ©es en fonction des difficultĂ©s d alignement des paires de paraphrases d Ă©noncĂ©s. Nous donnons, ensuite, un compte rendu descriptif et quantitatif des caractĂ©ristiques des paraphrases trouvĂ©es dans les diffĂ©rents types de corpus Ă©tudiĂ©s ainsi que celles qui dĂ©fient les approches actuelles d identification automatique.Language variation, or the fact that messages can be conveyed in a great variety of ways by means of linguistic expressions, is one of the most challenging and certainly fascinating features of language for Natural Language Processing, with wide applications in language analysis and generation. The term paraphrase is now commonly used to refer to textual units of equivalent meaning, down to the level of sub-sentential fragments. Although one can envisage to manually build high-coverage lists of synonyms, enumerating meaning equivalences at the level of phrases is too daunting a task for humans. Consequently, acquiring this type of knowledge by automatic means has attracted a lot of attention and significant research efforts have been devoted to this objective. In this thesis we use parallel monolingual corpora for a detailed study of the task of sub-sentential paraphrase acquisition. We argue that the scarcity of this type of resource is compensated by the fact that it is the most suited corpus type for studies on paraphrasing. We propose a large exploration of this task with experiments on two languages with five different acquisition techniques, selected for their complementarity, their combinations, as well as four monolingual corpus types of varying comparability. We report, under all conditions, a significant improvement over all techniques by validating candidate paraphrases using a maximum entropy classifier. An important result of our study is the identification of difficult-to-acquire paraphrase pairs, which are classified and quantified in a bilingual typology.PARIS11-SCD-Bib. Ă©lectronique (914719901) / SudocSudocFranceF

    Etude de la paraphrase sous-phrastique en traitement automatique des langues

    No full text
    Language variation, or the fact that messages can be conveyed in a great variety of ways by means of linguistic expressions, is one of the most challenging and certainly fascinating features of language for Natural Language Processing, with wide applications in language analysis and generation. The term paraphrase is now commonly used to refer to textual units of equivalent meaning, down to the level of sub-sentential fragments. Although one can envisage to manually build high-coverage lists of synonyms, enumerating meaning equivalences at the level of phrases is too daunting a task for humans. Consequently, acquiring this type of knowledge by automatic means has attracted a lot of attention and significant research efforts have been devoted to this objective. In this thesis we use parallel monolingual corpora for a detailed study of the task of sub-sentential paraphrase acquisition. We argue that the scarcity of this type of resource is compensated by the fact that it is the most suited corpus type for studies on paraphrasing. We propose a large exploration of this task with experiments on two languages with five different acquisition techniques, selected for their complementarity, their combinations, as well as four monolingual corpus types of varying comparability. We report, under all conditions, a significant improvement over all techniques by validating candidate paraphrases using a maximum entropy classifier. An important result of our study is the identification of difficult-to-acquire paraphrase pairs, which are classified and quantified in a bilingual typology.La variabilitĂ© en langue est une source majeure de difficultĂ©s dans la plupart des applications du traitement automatique des langues. Elle se manifeste dans le fait qu’une mĂȘme idĂ©e ou un mĂȘme Ă©vĂ©nement peut ĂȘtre exprimĂ© avec des mots ou des groupes de mots diffĂ©rents ayant la mĂȘme signification dans leur contexte respectif. Capturer automatiquement des Ă©quivalences sĂ©mantiques entre des unitĂ©s de texte est une tĂąche complexe mais qui s’avĂšre indispensable dans de nombreux contextes. L’acquisition a priori de listes d’équivalences met Ă  disposition des ressources utiles pour, par exemple, amĂ©liorer le repĂ©rage d’une rĂ©ponse Ă  une question, autoriser des formulations diffĂ©rentes en Ă©valuation de la traduction automatique, ou encore aider des auteurs Ă  trouver des formulations plus adaptĂ©es. Dans cette thĂšse, nous proposons une Ă©tude dĂ©taillĂ©e de la tĂąche d’acquisition de paraphrases sous-phrastiques Ă  partir de paires d’énoncĂ©s sĂ©mantiquement liĂ©s. Nous dĂ©montrons empiriquement que les corpus parallĂšles monolingues, bien qu’extrĂȘmement rares, constituent le type de ressource le plus adaptĂ© pour ce genre d’étude. Nos expĂ©riences mettent en jeu cinq techniques d’acquisition, reprĂ©sentatives de diffĂ©rentes approches et connaissances, en anglais et en français. Afin d’amĂ©liorer la performance en acquisition, nous rĂ©alisons la combinaison des paraphrases produites par ces techniques par une validation reposant sur un classifieur automatique Ă  maximum d’entropie bi-classe. Un rĂ©sultat important de notre Ă©tude est l’identification de paraphrases qui dĂ©fient actuellement les techniques Ă©tudiĂ©es, lesquelles sont classĂ©es et quantifiĂ©es en anglais et français. Nous examinons Ă©galement dans cette thĂšse l’impact de la langue, du type du corpus et la comparabilitĂ© des paires des Ă©noncĂ©s utilisĂ©s sur la tĂąche d’acquisition de paraphrases sous- phrastiques. Nous prĂ©sentons le rĂ©sultat d’une analyse de la performance des diffĂ©rentes mĂ©thodes testĂ©es en fonction des difficultĂ©s d’alignement des paires de paraphrases d’énoncĂ©s. Nous donnons, ensuite, un compte rendu descriptif et quantitatif des caractĂ©ristiques des paraphrases trouvĂ©es dans les diffĂ©rents types de corpus Ă©tudiĂ©s ainsi que celles qui dĂ©fient les approches actuelles d’identification automatique
    corecore