1 research outputs found

    Identification automatique des relations discursives implicites Ơ partir de corpus annotƩs et de donnƩes brutes

    Get PDF
    Building discourse parsers is currently a major challenge in Natural Language Processing. The identification of the relations (such as Explanation, Contrast ...) linking spans of text in the document is the main difficulty. Especially, identifying the so-called implicit relations, that is the relations that lack a discourse connective (such as but, because . . .), is known as an hard task since it requires to take into account various factors, and because it leads to specific difficulties in a classification system. In this thesis, we use raw data to improve automatic identification of implicit relations.First, we propose to use discourse markers in order to automatically annotate new data. We use domain adaptation methods to deal with the distributional differences between automatically and manually annotated data : we report improvements for systems built on the French corpus ANNODIS and on the English corpus Penn Discourse Treebank. Then, we propose to use word representations built from raw data, which may be automatically annotated with discourse markers, in order to feed a representation of the data based on the words found in the spans of text to be linked. We report improvements on the English corpus Penn Discourse Treebank, and especially we show that this method alleviates the need for rich resources, available but for a few languages.Le deĢveloppement de systeĢ€mes dā€™analyse discursive automatique des documents est un enjeu actuel majeur en Traitement Automatique des Langues. La difficulteĢ principale correspond aĢ€ lā€™eĢtape dā€™identification des relations (comme Explication, Contraste . . .) liant les segments constituant le document. En particulier, lā€™identification des relations dites implicites, cā€™est-aĢ€-dire non marqueĢes par un connecteur discursif (comme mais, parce que . . .), est reĢputeĢe difficile car elle neĢcessite la prise en compte dā€™indices varieĢs et correspond aĢ€ des difficulteĢs particulieĢ€res dans le cadre dā€™un systeĢ€me de classification automatique. Dans cette theĢ€se, nous utilisons des donneĢes brutes pour ameĢliorer des systeĢ€mes dā€™identification automatique des relations implicites.Nous proposons dā€™abord dā€™utiliser les connecteurs pour annoter automatiquement de nouvelles don- neĢes. Nous mettons en place des strateĢgies issues de lā€™adaptation de domaine qui nous permettent de geĢrer les diffeĢrences en termes distributionnels entre donneĢes annoteĢes automatiquement et manuellement : nous rapportons des ameĢliorations pour des systeĢ€mes construits sur le corpus francĢ§ais ANNODIS et sur le corpus anglais du Penn Discourse Treebank. Ensuite, nous proposons dā€™utiliser des repreĢsentations de mots acquises aĢ€ partir de donneĢes brutes, eĢventuellement annoteĢes automatiquement en connecteurs, pour enrichir la repreĢsentation des donneĢes fondeĢes sur les mots preĢsents dans les segments aĢ€ lier. Nous rapportons des ameĢliorations sur le corpus anglais du Penn Discourse Treebank et montrons notamment que cette meĢthode permet de limiter le recours aĢ€ des ressources riches, disponibles seulement pour peu de langues
    corecore