Représentation et apprentissage à partir de textes pour des informations émotionnelles et pour des informations dynamiques

Abstract

Automatic knowledge extraction from texts consists in mapping lowlevel information, as carried by the words and phrases extracted fromdocuments, to higher level information. The choice of datarepresentation for describing documents is, thus, essential and thedefinition of a learning algorithm is subject to theirspecifics. This thesis addresses these two issues in the context ofemotional information on the one hand and dynamic information on theother.In the first part, we consider the task of emotion extraction forwhich the semantic gap is wider than it is with more traditionalthematic information. Therefore, we propose to study representationsaimed at modeling the many nuances of natural language used fordescribing emotional, hence subjective, information. Furthermore, wepropose to study the integration of semantic knowledge which provides,from a characterization perspective, support for extracting theemotional content of documents and, from a prediction perspective,assistance to the learning algorithm.In the second part, we study information dynamics: any corpus ofdocuments published over the Internet can be associated to sources inperpetual activity which exchange information in a continuousmovement. We explore three main lines of work: automaticallyidentified sources; the communities they form in a dynamic and verysparse description space; and the noteworthy themes they develop. Foreach we propose original extraction methods which we apply to a corpusof real data we have collected from information streams over the Internet.L'extraction de connaissances automatique à partir de textes consiste àmettre en correspondance une information bas niveau, extraite desdocuments au travers des mots et des groupes de mots, avec uneinformation de plus haut niveau. Les choix de représentation pourdécrire les documents sont alors essentiels et leurs particularitéscontraignent la définition de l'algorithme d'apprentissage mis enoeuvre. Les travaux de cette thèse considèrent ces deux problématiquesd'une part pour des informations émotionnelles, d'autre part pour desinformations dynamiques.Dans une première partie, nous considérons une tâche d'extraction desémotions pour laquelle le fossé sémantique est plus important que pourdes informations traditionnellement thématiques. Aussi, nous étudionsdes représentations destinées à capturer les nuances du langage pourdécrire une information subjective puisque émotionnelle. Nous étudionsde plus l'intégration de connaissances sémantiques qui permettent, dans unetâche de caractérisation, d'extraire la charge émotionnelle desdocuments, dans une tâche de prédiction de guider l'apprentissageréalisé.Dans une seconde partie, nous étudions la dynamique de l'information :à tout corpus de documents publié sur Internet peut être associé dessources en perpétuelle activité qui échangent des informations dansun mouvement continu. Nous explorons trois axes d'étude : les sourcesidentifiées, les communautés qu'elles forment dans un espace dynamiquetrès parcimonieux, et les thématiques remarquables qu'ellesdéveloppent. Pour chacun nous proposons des méthodes d'extractionoriginales que nous mettons en oeuvre sur un corpus réel collecté encontinu sur Internet.PARIS-BIUSJ-Mathématiques rech (751052111) / SudocSudocFranceF

    Similar works

    Full text

    thumbnail-image

    Available Versions

    Last time updated on 14/06/2016