28 research outputs found

    SystĂšmes du LIA Ă  DEFT'13

    Get PDF
    National audienceThe Systems of LIA at DEFT'13 The 2013 Défi de Fouille de Textes (DEFT) campaign is interested in two types of language analysis tasks, the document classification and the information extraction in the specialized domain of cuisine recipes. We present the systems that the LIA has used in DEFT 2013. Our systems show interesting results, even though the complexity of the proposed tasks.La campagne Défi de Fouille de Textes (DEFT) en 2013 s'est intéressée à deux types de fonctions d'analyse du langage, la classification de documents et l'extraction d'information dans le domaine de spécialité des recettes de cuisine. Nous présentons les systÚmes du LIA appliqués à DEFT 2013. Malgré la difficulté des tùches proposées, des résultats intéressants ont été obtenus par nos systÚmes

    Classification automatique pour la compréhension de la parole (vers des systÚmes semi-supervisés et auto-évolutifs)

    Get PDF
    La compréhension automatique de la parole est au confluent des deux grands domaines que sont la reconnaissance automatique de la parole et l'apprentissage automatique. Un des problÚmes majeurs dans ce domaine est l'obtention d'un corpus de données conséquent afin d'obtenir des modÚles statistiques performants. Les corpus de parole pour entraßner des modÚles de compréhension nécessitent une intervention humaine importante, notamment dans les tùches de transcription et d'annotation sémantique. Leur coût de production est élevé et c'est la raison pour laquelle ils sont disponibles en quantité limitée.Cette thÚse vise principalement à réduire ce besoin d'intervention humaine de deux façons : d'une part en réduisant la quantité de corpus annoté nécessaire à l'obtention d'un modÚle grùce à des techniques d'apprentissage semi-supervisé (Self-Training, Co-Training et Active-Learning) ; et d'autre part en tirant parti des réponses de l'utilisateur du systÚme pour améliorer le modÚle de compréhension.Ce dernier point touche à un second problÚme rencontré par les systÚmes de compréhension automatique de la parole et adressé par cette thÚse : le besoin d'adapter réguliÚrement leurs modÚles aux variations de comportement des utilisateurs ou aux modifications de l'offre de services du systÚmeTwo wide research fields named Speech Recognition and Machine Learning meet with the Automatic Speech Language Understanding. One of the main problems in this domain is to obtain a sufficient corpus to train an efficient statistical model. Such speech corpora need a lot of human involvement to transcript and semantically annotate them. Their production cost is therefore quite high and they are difficultly available.This thesis mainly aims at reducing the need of human intervention in two ways: firstly, reducing the amount of corpus needed to build a model thanks to some semi-supervised learning methods (Self-Training, Co-Training and Active-Learning); And lastly, using the answers of the system end-user to improve the comprehension model.This last point addresses another problem related to automatic speech understanding systems: the need to adapt their models to the fluctuation of end-user habits or to the modification of the services list offered by the systemAVIGNON-Bib. numérique (840079901) / SudocSudocFranceF

    Analyse de l’image de marque sur le Web 2.0

    Get PDF
    Analyse of entities representation over the Web 2.0Every day, millions of people publish their views on Web 2.0 (social networks,blogs, etc.). These comments focus on subjects as diverse as news, politics,sports scores, consumer objects, etc. The accumulation and agglomerationof these notices on an entity (be it a product, a company or a public entity) givebirth to the brand image of that entity. Internet has become in recent years aprivileged place for the emergence and dissemination of opinions and puttingWeb 2.0 at the head of observatories of opinions. The latter being a means ofaccessing the knowledge of the opinion of the world population.The image is here understood as the idea that a person or a group of peopleis that entity. This idea carries a priori on a particular subject and is onlyvalid in context for a given time. This perceived image is different from theentity initially wanted to broadcast (eg via a communication campaign). Moreover,in reality, there are several images in the end living together in parallel onthe network, each specific to a community and all evolve differently over time(imagine how would be perceived in each camp together two politicians edgesopposite). Finally, in addition to the controversy caused by the voluntary behaviorof some entities to attract attention (think of the declarations required orshocking). It also happens that the dissemination of an image beyond the frameworkthat governed the and sometimes turns against the entity (for example,« marriage for all » became « the demonstration for all »). The views expressedthen are so many clues to understand the logic of construction and evolution ofthese images. The aim is to be able to know what we are talking about and howwe talk with filigree opportunity to know who is speaking.viiIn this thesis we propose to use several simple supervised statistical automaticmethods to monitor entity’s online reputation based on textual contentsmentioning it. More precisely we look the most important contents and theirsauthors (from a reputation manager point-of-view). We introduce an optimizationprocess allowing us to enrich the data using a simulated relevance feedback(without any human involvement). We also compare content contextualizationmethod using information retrieval and automatic summarization methods.Wealso propose a reflection and a new approach to model online reputation, improveand evaluate reputation monitoring methods using Partial Least SquaresPath Modelling (PLS-PM). In designing the system, we wanted to address localand global context of the reputation. That is to say the features can explain thedecision and the correlation betweens topics and reputation. The goal of ourwork was to propose a different way to combine usual methods and featuresthat may render reputation monitoring systems more accurate than the existingones. We evaluate and compare our systems using state of the art frameworks: Imagiweb and RepLab. The performances of our proposals are comparableto the state of the art. In addition, the fact that we provide reputation modelsmake our methods even more attractive for reputation manager or scientistsfrom various fields.Image sur le web : analyse de la dynamique des images sur le Web 2.0. En plus d’ĂȘtre un moyen d’accĂšs Ă  la connaissance, Internet est devenu en quelques annĂ©es un lieu privilĂ©giĂ© pour l’apparition et la diffusion d’opinions.Chaque jour, des millions d’individus publient leurs avis sur le Web 2.0 (rĂ©seaux sociaux, blogs, etc.). Ces commentaires portent sur des sujets aussi variĂ©s que l’actualitĂ©, la politique, les rĂ©sultats sportifs, biens culturels, des objets de consommation, etc. L’amoncellement et l’agglomĂ©ration de ces avis publiĂ©s sur une entitĂ© (qu’il s’agisse d’un produit, une entreprise ou une personnalitĂ© publique)donnent naissance Ă  l’image de marque de cette entitĂ©.L’image d’une entitĂ© est ici comprise comme l’idĂ©e qu’une personne ou qu’un groupe de personnes se fait de cette entitĂ©. Cette idĂ©e porte a priori sur un sujet particulier et n’est valable que dans un contexte, Ă  un instant donnĂ©.Cette image perçue est par nature diffĂ©rente de celle que l’entitĂ© souhaitait initialement diffuser (par exemple via une campagne de communication). De plus,dans la rĂ©alitĂ©, il existe au final plusieurs images qui cohabitent en parallĂšle sur le rĂ©seau, chacune propre Ă  une communautĂ© et toutes Ă©voluant diffĂ©remment au fil du temps (imaginons comment serait perçu dans chaque camp le rapprochement de deux hommes politiques de bords opposĂ©s). Enfin, en plus des polĂ©miques volontairement provoquĂ©es par le comportement de certaines entitĂ©s en vue d’attirer l’attention sur elles (pensons aux tenues ou dĂ©clarations choquantes), il arrive Ă©galement que la diffusion d’une image dĂ©passe le cadre qui la rĂ©gissait et mĂȘme parfois se retourne contre l’entitĂ© (par exemple, «le mariage pour tous» devenu « la manif pour tous »). Les opinions exprimĂ©es constituent alors autant d’indices permettant de comprendre la logique de construction et d’évolution de ces images. Ce travail d’analyse est jusqu’à prĂ©sent confiĂ© Ă  des spĂ©cialistes de l’e-communication qui monnaient leur subjectivitĂ©. Ces derniers ne peuvent considĂ©rer qu’un volume restreint d’information et ne sont que rarement d’accord entre eux. Dans cette thĂšse, nous proposons d’utiliser diffĂ©rentes mĂ©thodes automatiques, statistiques, supervisĂ©es et d’une faible complexitĂ© permettant d’analyser et reprĂ©senter l’image de marque d’entitĂ© Ă  partir de contenus textuels les mentionnant. Plus spĂ©cifiquement, nous cherchons Ă  identifier les contenus(ainsi que leurs auteurs) qui sont les plus prĂ©judiciables Ă  l’image de marque d’une entitĂ©. Nous introduisons un processus d’optimisation automatique de ces mĂ©thodes automatiques permettant d’enrichir les donnĂ©es en utilisant un retour de pertinence simulĂ© (sans qu’aucune action de la part de l’entitĂ© concernĂ©e ne soit nĂ©cessaire). Nous comparer Ă©galement plusieurs approches de contextualisation de messages courts Ă  partir de mĂ©thodes de recherche d’information et de rĂ©sumĂ© automatique. Nous tirons Ă©galement parti d’algorithmes de modĂ©lisation(tels que la RĂ©gression des moindres carrĂ©s partiels), dans le cadre d’une modĂ©lisation conceptuelle de l’image de marque, pour amĂ©liorer nos systĂšmes automatiques de catĂ©gorisation de documents textuels. Ces mĂ©thodes de modĂ©lisation et notamment les reprĂ©sentations des corrĂ©lations entre les diffĂ©rents concepts que nous manipulons nous permettent de reprĂ©senter d’une part, le contexte thĂ©matique d’une requĂȘte de l’entitĂ© et d’autre, le contexte gĂ©nĂ©ral de son image de marque. Nous expĂ©rimentons l’utilisation et la combinaison de diffĂ©rentes sources d’information gĂ©nĂ©rales reprĂ©sentant les grands types d’information auxquels nous sommes confrontĂ©s sur internet : de long les contenus objectifs rĂ©digĂ©s Ă  des informatives, les contenus brefs gĂ©nĂ©rĂ©s par les utilisateurs visant Ă  partager des opinions. Nous Ă©valuons nos approches en utilisant deux collections de donnĂ©es, la premiĂšre est celle constituĂ©e dans le cadre du projet Imagiweb, la seconde est la collection de rĂ©fĂ©rence sur le sujet : CLEFRepLa

    Représentations robustes de documents bruités dans des espaces homogÚnes

    Get PDF
    In the Information Retrieval field, documents are usually considered as a "bagof-words". This model does not take into account the temporal structure of thedocument and is sensitive to noises which can alter its lexical form. These noisescan be produced by different sources : uncontrolled form of documents in microbloggingplatforms, automatic transcription of speech documents which are errorprone,lexical and grammatical variabilities in Web forums. . . The work presented inthis thesis addresses issues related to document representations from noisy sources.The thesis consists of three parts in which different representations of content areavailable. The first one compares a classical representation based on a term-frequencyrepresentation to a higher level representation based on a topic space. The abstractionof the document content allows us to limit the alteration of the noisy document byrepresenting its content with a set of high-level features. Our experiments confirm thatmapping a noisy document into a topic space allows us to improve the results obtainedduring different information retrieval tasks compared to a classical approach based onterm frequency. The major problem with such a high-level representation is that it isbased on a space theme whose parameters are chosen empirically.The second part presents a novel representation based on multiple topic spaces thatallow us to solve three main problems : the closeness of the subjects discussed in thedocument, the tricky choice of the "right" values of the topic space parameters and therobustness of the topic-based representation. Based on the idea that a single representationof the contents cannot capture all the relevant information, we propose to increasethe number of views on a single document. This multiplication of views generates "artificial"observations that contain fragments of useful information. The first experimentvalidated the multi-view approach to represent noisy texts. However, it has the disadvantageof being very large and redundant and of containing additional variability associatedwith the diversity of views. In the second step, we propose a method based onfactor analysis to compact the different views and to obtain a new robust representationof low dimension which contains only the informative part of the document whilethe noisy variabilities are compensated. During a dialogue classification task, the compressionprocess confirmed that this compact representation allows us to improve therobustness of noisy document representation.Nonetheless, during the learning process of topic spaces, the document is consideredas a "bag-of-words" while many studies have showed that the word position in a7document is useful. A representation which takes into account the temporal structureof the document based on hyper-complex numbers is proposed in the third part. Thisrepresentation is based on the hyper-complex numbers of dimension four named quaternions.Our experiments on a classification task have showed the effectiveness of theproposed approach compared to a conventional "bag-of-words" representation.En recherche d’information, les documents sont le plus souvent considĂ©rĂ©s comme des "sacs-de-mots". Ce modĂšle ne tient pas compte de la structure temporelle du document et est sensible aux bruits qui peuvent altĂ©rer la forme lexicale. Ces bruits peuvent ĂȘtre produits par diffĂ©rentes sources : forme peu contrĂŽlĂ©e des messages des sites de micro-blogging, messages vocaux dont la transcription automatique contient des erreurs, variabilitĂ©s lexicales et grammaticales dans les forums du Web. . . Le travail prĂ©sentĂ© dans cette thĂšse s’intĂ©resse au problĂšme de la reprĂ©sentation de documents issus de sources bruitĂ©es.La thĂšse comporte trois parties dans lesquelles diffĂ©rentes reprĂ©sentations des contenus sont proposĂ©es. La premiĂšre partie compare une reprĂ©sentation classique utilisant la frĂ©quence des mots Ă  une reprĂ©sentation de haut-niveau s’appuyant sur un espace de thĂšmes. Cette abstraction du contenu permet de limiter l’altĂ©ration de la forme de surface du document bruitĂ© en le reprĂ©sentant par un ensemble de caractĂ©ristiques de haut-niveau. Nos expĂ©riences confirment que cette projection dans un espace de thĂšmes permet d’amĂ©liorer les rĂ©sultats obtenus sur diverses tĂąches de recherche d’information en comparaison d’une reprĂ©sentation plus classique utilisant la frĂ©quence des mots.Le problĂšme majeur d’une telle reprĂ©sentation est qu’elle est fondĂ©e sur un espace de thĂšmes dont les paramĂštres sont choisis empiriquement.La deuxiĂšme partie dĂ©crit une nouvelle reprĂ©sentation s’appuyant sur des espaces multiples et permettant de rĂ©soudre trois problĂšmes majeurs : la proximitĂ© des sujets traitĂ©s dans le document, le choix difficile des paramĂštres du modĂšle de thĂšmes ainsi que la robustesse de la reprĂ©sentation. Partant de l’idĂ©e qu’une seule reprĂ©sentation des contenus ne peut pas capturer l’ensemble des informations utiles, nous proposons d’augmenter le nombre de vues sur un mĂȘme document. Cette multiplication des vues permet de gĂ©nĂ©rer des observations "artificielles" qui contiennent des fragments de l’information utile. Une premiĂšre expĂ©rience a validĂ© cette approche multi-vues de la reprĂ©sentation de textes bruitĂ©s. Elle a cependant l’inconvĂ©nient d’ĂȘtre trĂšs volumineuse,redondante, et de contenir une variabilitĂ© additionnelle liĂ©e Ă  la diversitĂ© des vues. Dans un deuxiĂšme temps, nous proposons une mĂ©thode s’appuyant sur l’analyse factorielle pour fusionner les vues multiples et obtenir une nouvelle reprĂ©sentation robuste,de dimension rĂ©duite, ne contenant que la partie "utile" du document tout en rĂ©duisant les variabilitĂ©s "parasites". Lors d’une tĂąche de catĂ©gorisation de conversations,ce processus de compression a confirmĂ© qu’il permettait d’augmenter la robustesse de la reprĂ©sentation du document bruitĂ©.Cependant, lors de l’élaboration des espaces de thĂšmes, le document reste considĂ©rĂ© comme un "sac-de-mots" alors que plusieurs Ă©tudes montrent que la position d’un terme au sein du document est importante. Une reprĂ©sentation tenant compte de cette structure temporelle du document est proposĂ©e dans la troisiĂšme partie. Cette reprĂ©sentation s’appuie sur les nombres hyper-complexes de dimension appelĂ©s quaternions. Nos expĂ©riences menĂ©es sur une tĂąche de catĂ©gorisation ont montrĂ© l’efficacitĂ© de cette mĂ©thode comparativement aux reprĂ©sentations classiques en "sacs-de-mots"

    TOTh 2010, Terminology & Ontology: Theories and applications

    Get PDF
    International audienceAvant proposCette annĂ©e la confĂ©rence a Ă©tĂ© prĂ©cĂ©dĂ©e d’une journĂ©e de formation consacrĂ©e Ă  la terminologie et l’ontologie, Ă  leurs liens et leurs apports mutuels. L’intĂ©rĂȘt qu’a suscitĂ© cette journĂ©e nous amĂšnera certainement Ă  rĂ©itĂ©rer l’opĂ©ration les annĂ©es suivantes.Le succĂšs de la confĂ©rence d’ouverture de notre collĂšgue FrĂ©dĂ©ric Nef, portant sur l’ontologie prise dans sa dimension philosophique, a montrĂ©, s’il en Ă©tait encore besoin, la richesse d’une approche pluridisciplinaire.AnimĂ©es par diffĂ©rents prĂ©sidents, les sessions ont alternĂ© prĂ©sentations thĂ©oriques et dĂ©monstrations de systĂšmes, offrant ainsi l’opportunitĂ© Ă  plusieurs industriels de nous parler de leurs projets. L’éventail des sujets abordĂ©s, Ă  travers les quatorze prĂ©sentations retenues (incluant la confĂ©rence d’ouverture) rĂ©parties sur deux jours, illustre la richesse mais aussi la vitalitĂ© de notre communautĂ© : aide Ă  la traduction, thĂ©saurus multilingue, phrasĂ©ologie, entitĂ© nommĂ©, recherche d’information, etc. L’ « actualitĂ© » n’était pas oubliĂ©e Ă  travers une ontologie des risques financiers.Enfin, les ConfĂ©rences TOTh sont devenues internationales Ă  partir de cette annĂ©e avec le français et l’anglais comme langues officielles. Le comitĂ© de programme s’est ouvert Ă  de nouveaux membres portant Ă  dix le nombre de pays reprĂ©sentĂ©s et Ă  plus de 40% le nombre de personnalitĂ©s Ă©trangĂšres. Gageons que cette ouverture sera prometteuse.Christophe RochePrĂ©sident du ComitĂ© Scientifiqu

    ModĂšles de langage ad hoc pour la reconnaissance automatique de la parole

    Get PDF
    Les trois piliers d un systĂšme de reconnaissance automatique de la parole sont le lexique,le modĂšle de langage et le modĂšle acoustique. Le lexique fournit l ensemble des mots qu il est possible de transcrire, associĂ©s Ă  leur prononciation. Le modĂšle acoustique donne une indication sur la maniĂšre dont sont rĂ©alisĂ©s les unitĂ©s acoustiques et le modĂšle de langage apporte la connaissance de la maniĂšre dont les mots s enchaĂźnent.Dans les systĂšmes de reconnaissance automatique de la parole markoviens, les modĂšles acoustiques et linguistiques sont de nature statistique. Leur estimation nĂ©cessite de gros volumes de donnĂ©es sĂ©lectionnĂ©es, normalisĂ©es et annotĂ©es.A l heure actuelle, les donnĂ©es disponibles sur le Web constituent de loin le plus gros corpus textuel disponible pour les langues française et anglaise. Ces donnĂ©es peuvent potentiellement servir Ă  la construction du lexique et Ă  l estimation et l adaptation du modĂšle de langage. Le travail prĂ©sentĂ© ici consiste Ă  proposer de nouvelles approches permettant de tirer parti de cette ressource.Ce document est organisĂ© en deux parties. La premiĂšre traite de l utilisation des donnĂ©es prĂ©sentes sur le Web pour mettre Ă  jour dynamiquement le lexique du moteur de reconnaissance automatique de la parole. L approche proposĂ©e consiste Ă  augmenter dynamiquement et localement le lexique du moteur de reconnaissance automatique de la parole lorsque des mots inconnus apparaissent dans le flux de parole. Les nouveaux mots sont extraits du Web grĂące Ă  la formulation automatique de requĂȘtes soumises Ă  un moteur de recherche. La phonĂ©tisation de ces mots est obtenue grĂące Ă  un phonĂ©tiseur automatique.La seconde partie prĂ©sente une nouvelle maniĂšre de considĂ©rer l information que reprĂ©sente le Web et des Ă©lĂ©ments de la thĂ©orie des possibilitĂ©s sont utilisĂ©s pour la modĂ©liser. Un modĂšle de langage possibiliste est alors proposĂ©. Il fournit une estimation de la possibilitĂ© d une sĂ©quence de mots Ă  partir de connaissances relatives Ă  existence de sĂ©quences de mots sur le Web. Un modĂšle probabiliste Web reposant sur le compte de documents fourni par un moteur de recherche Web est Ă©galement prĂ©sentĂ©. Plusieurs approches permettant de combiner ces modĂšles avec des modĂšles probabilistes classiques estimĂ©s sur corpus sont proposĂ©es. Les rĂ©sultats montrent que combiner les modĂšles probabilistes et possibilistes donne de meilleurs rĂ©sultats que es modĂšles probabilistes classiques. De plus, les modĂšles estimĂ©s Ă  partir des donnĂ©es Web donnent de meilleurs rĂ©sultats que ceux estimĂ©s sur corpus.The three pillars of an automatic speech recognition system are the lexicon, the languagemodel and the acoustic model. The lexicon provides all the words that can betranscribed, associated with their pronunciation. The acoustic model provides an indicationof how the phone units are pronounced, and the language model brings theknowledge of how words are linked. In modern automatic speech recognition systems,the acoustic and language models are statistical. Their estimation requires large volumesof data selected, standardized and annotated.At present, the Web is by far the largest textual corpus available for English andFrench languages. The data it holds can potentially be used to build the vocabularyand the estimation and adaptation of language model. The work presented here is topropose new approaches to take advantage of this resource in the context of languagemodeling.The document is organized into two parts. The first deals with the use of the Webdata to dynamically update the lexicon of the automatic speech recognition system.The proposed approach consists on increasing dynamically and locally the lexicon onlywhen unknown words appear in the speech. New words are extracted from the Webthrough the formulation of queries submitted toWeb search engines. The phonetizationof the words is obtained by an automatic grapheme-to-phoneme transcriber.The second part of the document presents a new way of handling the informationcontained on the Web by relying on possibility theory concepts. A Web-based possibilisticlanguage model is proposed. It provides an estition of the possibility of a wordsequence from knowledge of the existence of its sub-sequences on the Web. A probabilisticWeb-based language model is also proposed. It relies on Web document countsto estimate n-gram probabilities. Several approaches for combining these models withclassical models are proposed. The results show that combining probabilistic and possibilisticmodels gives better results than classical probabilistic models alone. In addition,the models estimated from Web data perform better than those estimated on corpus.AVIGNON-Bib. numĂ©rique (840079901) / SudocSudocFranceF

    ChaĂźne de traitement pour une approche discursive de l'analyse d'opinion

    Get PDF
    La structure discursive d'un texte est un Ă©lĂ©ment essentiel Ă  la comprĂ©hension du contenu vĂ©hiculĂ© par ce texte. Elle affecte, par exemple, la structure temporelle du texte, ou encore l'interprĂ©tation des expressions anaphoriques. Dans cette thĂšse, nous aborderons les effets de la structure discursive sur l'analyse de sentiments. L'analyse des sentiments est un domaine de recherche extrĂȘmement actif en traitement automatique des langues. Devant l'abondance de donnĂ©es subjectives disponibles, l'automatisation de la synthĂšse des multiples avis devient cruciale pour obtenir efficacement une vue d'ensemble des opinions sur un sujet donnĂ©. La plupart des travaux actuels proposent une analyse des opinions au niveau du document ou au niveau de la phrase en ignorant la structure discursive. Dans cette thĂšse, nous nous plaçons dans le contexte de la thĂ©orie de la SDRT (Segmented Discourse Representation Theory) et proposons de rĂ©pondre aux questions suivantes : -Existe-t-il un lien entre la structure discursive d'un document et les opinions Ă©mises dans ce mĂȘme document ? -Quel est le rĂŽle des relations de discours dans la dĂ©termination du caractĂšre objectif ou subjectif d'un segment textuel ? -Quel est le rĂŽle des Ă©lĂ©ments linguistiques, comme la nĂ©gation et la modalitĂ©, lors de la dĂ©termination de la polaritĂ© d'un segment textuel subjectif ? -Quel est l'impact de la structure discursive lors de la dĂ©termination de l'opinion globale vĂ©hiculĂ©e dans un document ? -Est-ce qu'une approche basĂ©e sur le discours apporte une rĂ©elle valeur ajoutĂ©e comparĂ©e Ă  une approche classique basĂ©e sur la notion de 'sacs de mots'? -Cette valeur ajoutĂ©e est-elle dĂ©pendante du genre de corpus ?The discourse structure of a document is a key element to understand the content conveyed by a text. It affects, for instance, the temporal structure of a text, or the interpretation of anaphoric expressions. The discourse structure showed its usefulness in numerous NLP applications, such as automatic summary, or textual entailment. In this thesis, we will study the effects of the discourse structure on sentiment analysis. Sentiment analysis is an extremely active research domain in natural language processing. The last years have seen the multiplication of the available textual data conveying opinion on the web, and the automation of the summary of opinion documents became crucial for who wants to keep an overview of the opinion on a given subject. A huge interest lies in these data, both for the companies who want to retrieve consumer opinion, and for the consumers willing to gather information. Most of the current research efforts describe an opinion extraction at the document level or at the sentence level, ignoring the discourse structure. In this thesis work, we address opinion extraction through the discourse framework of the SDRT (Segmented Discourse Representation Theory), and try to answer to the following questions: -Is there a link between the discourse structure of a document and the opinions contained in that document? -What is the role of discourse relations in the determination of whether a textual segment is objective or subjective? -What is the impact of the discourse structure in the determination of the overall opinion conveyed by a document? -Does a discourse based approach really bring additional value compared to a classical "bag of words" approach
    corecore