20 research outputs found
ModÚles de langues pour la détection d'opinions dans les blogs
Cet article dĂ©crit une approche de recherche de documents pertinents vis-Ă -vis dâune requĂȘte et exprimant une opinion. Afin de dĂ©tecter si un document est porteur dâopinion (i.e. comporte de lâinformation subjective), nous proposons de le comparer Ă des sources dâinformation qui comportent du contenu de type opinion. Lâintuition derriĂšre cela est la suivante : un document ayant une similaritĂ© forte avec des sources dâopinions, est vraisemblablement porteur dâopinion. Pour mesurer cette similaritĂ©, nous exploitons des modĂšles de langue. Nous modĂ©lisons le document et la source (rĂ©fĂ©rence) porteuse dâopinions par des modĂšles de langue, nous Ă©valuons ensuite la similaritĂ© de ces modĂšles. Plusieurs expĂ©rimentations ont Ă©tĂ© rĂ©alisĂ©es sur des collections issues de TREC. Les rĂ©sultats obtenus valident notre intuition
ChaĂźne de traitement pour une approche discursive de l'analyse d'opinion
La structure discursive d'un texte est un Ă©lĂ©ment essentiel Ă la comprĂ©hension du contenu vĂ©hiculĂ© par ce texte. Elle affecte, par exemple, la structure temporelle du texte, ou encore l'interprĂ©tation des expressions anaphoriques. Dans cette thĂšse, nous aborderons les effets de la structure discursive sur l'analyse de sentiments. L'analyse des sentiments est un domaine de recherche extrĂȘmement actif en traitement automatique des langues. Devant l'abondance de donnĂ©es subjectives disponibles, l'automatisation de la synthĂšse des multiples avis devient cruciale pour obtenir efficacement une vue d'ensemble des opinions sur un sujet donnĂ©. La plupart des travaux actuels proposent une analyse des opinions au niveau du document ou au niveau de la phrase en ignorant la structure discursive. Dans cette thĂšse, nous nous plaçons dans le contexte de la thĂ©orie de la SDRT (Segmented Discourse Representation Theory) et proposons de rĂ©pondre aux questions suivantes : -Existe-t-il un lien entre la structure discursive d'un document et les opinions Ă©mises dans ce mĂȘme document ? -Quel est le rĂŽle des relations de discours dans la dĂ©termination du caractĂšre objectif ou subjectif d'un segment textuel ? -Quel est le rĂŽle des Ă©lĂ©ments linguistiques, comme la nĂ©gation et la modalitĂ©, lors de la dĂ©termination de la polaritĂ© d'un segment textuel subjectif ? -Quel est l'impact de la structure discursive lors de la dĂ©termination de l'opinion globale vĂ©hiculĂ©e dans un document ? -Est-ce qu'une approche basĂ©e sur le discours apporte une rĂ©elle valeur ajoutĂ©e comparĂ©e Ă une approche classique basĂ©e sur la notion de 'sacs de mots'? -Cette valeur ajoutĂ©e est-elle dĂ©pendante du genre de corpus ?The discourse structure of a document is a key element to understand the content conveyed by a text. It affects, for instance, the temporal structure of a text, or the interpretation of anaphoric expressions. The discourse structure showed its usefulness in numerous NLP applications, such as automatic summary, or textual entailment. In this thesis, we will study the effects of the discourse structure on sentiment analysis. Sentiment analysis is an extremely active research domain in natural language processing. The last years have seen the multiplication of the available textual data conveying opinion on the web, and the automation of the summary of opinion documents became crucial for who wants to keep an overview of the opinion on a given subject. A huge interest lies in these data, both for the companies who want to retrieve consumer opinion, and for the consumers willing to gather information. Most of the current research efforts describe an opinion extraction at the document level or at the sentence level, ignoring the discourse structure. In this thesis work, we address opinion extraction through the discourse framework of the SDRT (Segmented Discourse Representation Theory), and try to answer to the following questions: -Is there a link between the discourse structure of a document and the opinions contained in that document? -What is the role of discourse relations in the determination of whether a textual segment is objective or subjective? -What is the impact of the discourse structure in the determination of the overall opinion conveyed by a document? -Does a discourse based approach really bring additional value compared to a classical "bag of words" approach
Usagers & Recherche d'Information
La recherche d'information est confrontée à une variété de plus en plus importante tant en termes d'usagers, de tùches à remplir, d'outils.... Face à cette hétérogénéité de nombreux travaux, s'attachent à améliorer la recherche d'information par le biais d'approches adaptatives, de systÚmes de recommandation... Mes travaux s'inscrivent dans ce cadre et apportent un éclairage essentiellement porté sur l'usager et ses activités et plus particuliÚrement sur la recherche d'information. Les résultats correspondent à 3 angles d'investigation nous permettant d'aborder cette problématique de l'hétérogénéité en Recherche d'Information
La définition des annotations linguistiques selon les corpus : de l'écrit journalistique à l'oral
ConfrontĂ© Ă Internet, le Traitement Automatique des Langues (TAL) a dĂ» relever le dĂ©fi que posait lâanalyse de textes dialogiques Ă©crits (blog, forum, chat, rĂ©seaux sociaux etc.) et oraux. Les recherches prĂ©sentĂ©es ont, dans un premier temps, portĂ© sur le dĂ©veloppement de systĂšmes Ă mĂȘme de repĂ©rer et dâanalyser lâinformation Ă partir dâune annotation des ressources. Lâapproche retenue privilĂ©gie lâintĂ©gration dâindices inhĂ©rents Ă la nature de corpus « hors normes » afin dâamĂ©liorer les techniques de traitement automatique. La chaĂźne dâopĂ©rations comprend quatre Ă©tapes :(i) Lâobservation et lâanalyse manuelle des donnĂ©es afin de recenser les variations dans les occurrences et dâĂ©valuer lâampleur des phĂ©nomĂšnes Ă annoter, leur classification et lâidentification de leurs marqueurs formels.(ii) La modĂ©lisation de lâinformation Ă partir dâune typologie sous la forme dâun jeu dâĂ©tiquettes ajustĂ© Ă la nature du corpus.(iii) La dĂ©finition de la technologie congrue (gĂ©nĂ©ralement, lâarbitrage entre le dĂ©veloppement dâun nouvel outil et lâadaptation dâun outil existant).(iv) LâimplĂ©mentation du schĂ©ma dâannotation dĂ©fini afin de procĂ©der Ă une analyse quantitative et qualitative des rĂ©sultats.Lâannotation effectuĂ©e concerne les domaines de la syntaxe (Ă©tiquetage morpho-syntaxique et chunking), sĂ©mantique et/ou pragmatique (entitĂ©s nommĂ©es, indices dâidentification de la personne, reformulations etc.). Lâapplication concerne aussi bien des entretiens transcrits que des titres de cartes gĂ©ographiques, des recettes dâomelette que des articles du Monde. Les mĂ©thodes utilisĂ©es varient en fonction du corpus et de la tĂąche traitĂ©e. Lâannotation syntaxique et le repĂ©rage des segments reformulĂ©s sont fondĂ©s sur la technique dâapprentissage automatique avec les CRFs ; le repĂ©rage des entitĂ©s nommĂ©es et des indices dâidentification de la personne dans les transcriptions de lâoral utilise les mĂ©thodes symboliques ; la dĂ©tection automatique des tours de parole contenant la reformulation emploie les mĂ©thodes heuristiques. Le travail sur le français parlĂ© et son annotation a conduit Ă la modĂ©lisation des caractĂ©ristiques propres Ă lâoral : disfluences, marqueurs discursifs, prĂ©sentateurs, segmentation, commentaires personnels etc. Un autre phĂ©nomĂšne caractĂ©ristique de lâoral, la reformulation, a fait lâobjet dâune Ă©tude particuliĂšre. Le travail sur lâannotation du corpus oral, du corpus Web ou du corpus mĂ©diatique a permis de reconsidĂ©rer la notion de subjectivitĂ© qui constitue lâune des difficultĂ©s rĂ©currentes du traitement automatique. LâĂ©tude de la subjectivitĂ© et son expression dans le discours a Ă©tĂ© poursuivie dans plusieurs des recherches menĂ©es : la subjectivitĂ© Ă partir des informations personnelles livrĂ©es par le locuteur, la subjectivitĂ© dans la perception et lâappropriation des lieux, la subjectivitĂ© dans les recettes de cuisine et enfin la subjectivitĂ© exprimĂ©e Ă travers les noms gĂ©nĂ©raux
Wikipédia en éducation : Guide pour une utilisation optimale de l'encyclopédie libre par les étudiants, enseignants et autres intervenants en éducation
Comprend des références bibliographique
ELiTe-[FLE]ÂČ : Un environnement d'ALAO fondĂ© sur la linguistique textuelle, pour la formation linguistique des futurs enseignants de FLE en Colombie
This thesis presents a computer device aimed at helping future FFL teacher training in Colombian universities. It is grounded in text linguistics and aims to contribute to improving the linguistic level of university students currently in training. To do so, this device is based on a textual corpus specifically annotated and labeled thanks to natural language processing (NLP) tools and to manual annotations in XML format. This should allow the development of activities with a formative aim, while also taking into account the needs expressed by the target public (teachers/trainers and their students, the trainees). As explained throughout this thesis, the elaboration of such a system is based on knowledge and skills stemming from several disciplines and/or fields: language didactics, educational engineering, general linguistics, textual linguistics, corpus linguistics, NLP and CALL. The ambition is to provide trainees and trainers in higher education in Colombia with a tool designed according to their needs and their learning aims and objectives. Finally, the originality of this system consists in the choice of target users, the didactic training model implemented and the specificity of the corpus annotated for the activities. It is one of the first CALL systems based on textual linguistics specifically targeted at training future FFL teachers in a non-native language context.Nous prĂ©sentons, dans ce manuscrit, un dispositif informatique d'aide Ă la formation des futurs enseignants de FLE en Colombie. Il prend ses sources dans la linguistique textuelle et cherche Ă amĂ©liorer le niveau linguistique des Ă©tudiants universitaires actuellement en formation. Pour ce faire, le dispositif est fondĂ© sur un corpus textuel spĂ©cifiquement annotĂ© et Ă©tiquetĂ© grĂące aux outils de traitement automatique de langues (TAL) et Ă des annotations manuelles en format XML. Ceci permet de dĂ©velopper des activitĂ©s Ă visĂ©e formative, en tenant compte des besoins exprimĂ©s par les publics cibles (enseignants-formateurs et leurs Ă©tudiants en formation). Comme nous l'exposons tout au long de cette thĂšse, l'Ă©laboration d'un systĂšme comme le nĂŽtre est le produit de la mise en Ćuvre de connaissances et de compĂ©tences issues de plusieurs disciplines et/ou domaines : didactique des langues, ingĂ©nierie pĂ©dagogique, linguistique gĂ©nĂ©rale, linguistique textuelle, linguistique de corpus, TAL et ALAO. Il se veut, principalement, un dispositif pĂ©dagogique pour la formation des Ă©tudiants en FLE dans le contexte de l'Ă©ducation supĂ©rieure en Colombie, un outil pensĂ© en fonction des besoins et des objectifs de cet apprentissage. L'originalitĂ© de notre systĂšme repose sur le type de public choisi, le modĂšle didactique de formation mis en Ćuvre et la spĂ©cificitĂ© du corpus utilisĂ©. Ă notre connaissance, il s'agit d'un des premiers systĂšmes d'ALAO fondĂ© sur la linguistique textuelle s'adressant Ă la formation des futurs enseignants de FLE dans un contexte exolingue
L'AIS : une donnée pour l'analyse des activités en mer
4 pages, session "Mer et littoral"International audienceCette contribution présente des éléments méthodologiques pour la description des activités humaines en mer dans une perspective d'aide à la gestion. Différentes procédures, combinant l'exploitation de bases de données spatio-temporelles issue de données AIS archivées à des analyses spatiales au sein d'un SIG, sont testées afin de caractériser le transport maritime en Mer d'Iroise (Bretagne, France) sur les plans spatiaux, temporels et quantitatifs au cours d'une année
Construction et fonctionnement de la mise en scÚne de l'actualité politique par le discours satirique : spécificités de l'approche des processus d'information et de communication dans "Le Canard enchaßné"
How politics and current affairs are presented through satire : the specific approach of "Le Canard enchaĂźnĂ©" to the communication process and the treatment of news.Si les fonctionnements de l'Ă©criture satirique ont Ă©tĂ© Ă©tudiĂ©s, la rĂ©flexion sur le positionnement par rapport aux autres mĂ©dias et le rapport au rĂ©fĂ©rent, Ă l'information 'sĂ©rieuse' mĂ©rite encore d'ĂȘtre approfondie, notamment dans son 'institutionnalisation' revendiquĂ©e comme approche spĂ©cifique de l'information. d'autant plus que le systĂšme mĂ©diatique est en pleine transformation avec l'apparition de la concurrence sur internet : la problĂ©matique gĂ©nĂ©rale de l'identification, de la fiabilitĂ© des sources, est amplifiĂ©e par la rapiditĂ© de circulation et la diversitĂ© des flux.ce travail de 'mĂ©diation' assumĂ© qui transforme l'information, les discours de l'autre, apparaĂźt Ă©galement comme un exercice fondamentalement ambigu : Ă la fois mise Ă distance ou dĂ©tachement, mais qui peut aussi ĂȘtre perçu comme une forme d'engagement.il conviendra d'Ă©tablir une forme de 'classification' des territoires de la satire et de la dĂ©rision avant d'arrĂȘter le choix d'un corpus qui puisse rendre compte d'un certain nombre de procĂ©dĂ©s et de processus. quels sont les mĂ©canismes de la 'montĂ©e en dĂ©rision' d'un certain nombre d'informations, de leur 'Ă©vĂ©nementialisation' ? quelle y est la place de l'attaque ad hominem ? quel rapport au rĂ©fĂ©rent et quelle appropriation particuliĂšre du discours de l'autre ? quelle est la part de la circulation intermĂ©diatique ?si le positionnement satirique instaure un pacte de lecture particulier avec le lecteur, qu'en percevons-nous clairement qui soit 'identifiable' ?enfin, le discours satirique permet-il de 's'engager' ou de se dĂ©sengager du systĂšme mĂ©diatique, des dĂ©bats et enjeux de l'espace public ? a l'arriĂšre-plan, ne peut-on pas retrouver un discours sur des 'valeurs', des idĂ©aux (une vĂ©ritable argumentation donc) ou une sorte de discours sur les illusions perdues, appelĂ© Ă fonctionner comme une rĂ©volte ou un appel