20 research outputs found

    ModÚles de langues pour la détection d'opinions dans les blogs

    Get PDF
    Cet article dĂ©crit une approche de recherche de documents pertinents vis-Ă -vis d’une requĂȘte et exprimant une opinion. Afin de dĂ©tecter si un document est porteur d’opinion (i.e. comporte de l’information subjective), nous proposons de le comparer Ă  des sources d’information qui comportent du contenu de type opinion. L’intuition derriĂšre cela est la suivante : un document ayant une similaritĂ© forte avec des sources d’opinions, est vraisemblablement porteur d’opinion. Pour mesurer cette similaritĂ©, nous exploitons des modĂšles de langue. Nous modĂ©lisons le document et la source (rĂ©fĂ©rence) porteuse d’opinions par des modĂšles de langue, nous Ă©valuons ensuite la similaritĂ© de ces modĂšles. Plusieurs expĂ©rimentations ont Ă©tĂ© rĂ©alisĂ©es sur des collections issues de TREC. Les rĂ©sultats obtenus valident notre intuition

    ChaĂźne de traitement pour une approche discursive de l'analyse d'opinion

    Get PDF
    La structure discursive d'un texte est un Ă©lĂ©ment essentiel Ă  la comprĂ©hension du contenu vĂ©hiculĂ© par ce texte. Elle affecte, par exemple, la structure temporelle du texte, ou encore l'interprĂ©tation des expressions anaphoriques. Dans cette thĂšse, nous aborderons les effets de la structure discursive sur l'analyse de sentiments. L'analyse des sentiments est un domaine de recherche extrĂȘmement actif en traitement automatique des langues. Devant l'abondance de donnĂ©es subjectives disponibles, l'automatisation de la synthĂšse des multiples avis devient cruciale pour obtenir efficacement une vue d'ensemble des opinions sur un sujet donnĂ©. La plupart des travaux actuels proposent une analyse des opinions au niveau du document ou au niveau de la phrase en ignorant la structure discursive. Dans cette thĂšse, nous nous plaçons dans le contexte de la thĂ©orie de la SDRT (Segmented Discourse Representation Theory) et proposons de rĂ©pondre aux questions suivantes : -Existe-t-il un lien entre la structure discursive d'un document et les opinions Ă©mises dans ce mĂȘme document ? -Quel est le rĂŽle des relations de discours dans la dĂ©termination du caractĂšre objectif ou subjectif d'un segment textuel ? -Quel est le rĂŽle des Ă©lĂ©ments linguistiques, comme la nĂ©gation et la modalitĂ©, lors de la dĂ©termination de la polaritĂ© d'un segment textuel subjectif ? -Quel est l'impact de la structure discursive lors de la dĂ©termination de l'opinion globale vĂ©hiculĂ©e dans un document ? -Est-ce qu'une approche basĂ©e sur le discours apporte une rĂ©elle valeur ajoutĂ©e comparĂ©e Ă  une approche classique basĂ©e sur la notion de 'sacs de mots'? -Cette valeur ajoutĂ©e est-elle dĂ©pendante du genre de corpus ?The discourse structure of a document is a key element to understand the content conveyed by a text. It affects, for instance, the temporal structure of a text, or the interpretation of anaphoric expressions. The discourse structure showed its usefulness in numerous NLP applications, such as automatic summary, or textual entailment. In this thesis, we will study the effects of the discourse structure on sentiment analysis. Sentiment analysis is an extremely active research domain in natural language processing. The last years have seen the multiplication of the available textual data conveying opinion on the web, and the automation of the summary of opinion documents became crucial for who wants to keep an overview of the opinion on a given subject. A huge interest lies in these data, both for the companies who want to retrieve consumer opinion, and for the consumers willing to gather information. Most of the current research efforts describe an opinion extraction at the document level or at the sentence level, ignoring the discourse structure. In this thesis work, we address opinion extraction through the discourse framework of the SDRT (Segmented Discourse Representation Theory), and try to answer to the following questions: -Is there a link between the discourse structure of a document and the opinions contained in that document? -What is the role of discourse relations in the determination of whether a textual segment is objective or subjective? -What is the impact of the discourse structure in the determination of the overall opinion conveyed by a document? -Does a discourse based approach really bring additional value compared to a classical "bag of words" approach

    Usagers & Recherche d'Information

    Get PDF
    La recherche d'information est confrontée à une variété de plus en plus importante tant en termes d'usagers, de tùches à remplir, d'outils.... Face à cette hétérogénéité de nombreux travaux, s'attachent à améliorer la recherche d'information par le biais d'approches adaptatives, de systÚmes de recommandation... Mes travaux s'inscrivent dans ce cadre et apportent un éclairage essentiellement porté sur l'usager et ses activités et plus particuliÚrement sur la recherche d'information. Les résultats correspondent à 3 angles d'investigation nous permettant d'aborder cette problématique de l'hétérogénéité en Recherche d'Information

    La définition des annotations linguistiques selon les corpus : de l'écrit journalistique à l'oral

    Get PDF
    ConfrontĂ© Ă  Internet, le Traitement Automatique des Langues (TAL) a dĂ» relever le dĂ©fi que posait l’analyse de textes dialogiques Ă©crits (blog, forum, chat, rĂ©seaux sociaux etc.) et oraux. Les recherches prĂ©sentĂ©es ont, dans un premier temps, portĂ© sur le dĂ©veloppement de systĂšmes Ă  mĂȘme de repĂ©rer et d’analyser l’information Ă  partir d’une annotation des ressources. L’approche retenue privilĂ©gie l’intĂ©gration d’indices inhĂ©rents Ă  la nature de corpus « hors normes » afin d’amĂ©liorer les techniques de traitement automatique. La chaĂźne d’opĂ©rations comprend quatre Ă©tapes :(i) L’observation et l’analyse manuelle des donnĂ©es afin de recenser les variations dans les occurrences et d’évaluer l’ampleur des phĂ©nomĂšnes Ă  annoter, leur classification et l’identification de leurs marqueurs formels.(ii) La modĂ©lisation de l’information Ă  partir d’une typologie sous la forme d’un jeu d’étiquettes ajustĂ© Ă  la nature du corpus.(iii) La dĂ©finition de la technologie congrue (gĂ©nĂ©ralement, l’arbitrage entre le dĂ©veloppement d’un nouvel outil et l’adaptation d’un outil existant).(iv) L’implĂ©mentation du schĂ©ma d’annotation dĂ©fini afin de procĂ©der Ă  une analyse quantitative et qualitative des rĂ©sultats.L’annotation effectuĂ©e concerne les domaines de la syntaxe (Ă©tiquetage morpho-syntaxique et chunking), sĂ©mantique et/ou pragmatique (entitĂ©s nommĂ©es, indices d’identification de la personne, reformulations etc.). L’application concerne aussi bien des entretiens transcrits que des titres de cartes gĂ©ographiques, des recettes d’omelette que des articles du Monde. Les mĂ©thodes utilisĂ©es varient en fonction du corpus et de la tĂąche traitĂ©e. L’annotation syntaxique et le repĂ©rage des segments reformulĂ©s sont fondĂ©s sur la technique d’apprentissage automatique avec les CRFs ; le repĂ©rage des entitĂ©s nommĂ©es et des indices d’identification de la personne dans les transcriptions de l’oral utilise les mĂ©thodes symboliques ; la dĂ©tection automatique des tours de parole contenant la reformulation emploie les mĂ©thodes heuristiques. Le travail sur le français parlĂ© et son annotation a conduit Ă  la modĂ©lisation des caractĂ©ristiques propres Ă  l’oral : disfluences, marqueurs discursifs, prĂ©sentateurs, segmentation, commentaires personnels etc. Un autre phĂ©nomĂšne caractĂ©ristique de l’oral, la reformulation, a fait l’objet d’une Ă©tude particuliĂšre. Le travail sur l’annotation du corpus oral, du corpus Web ou du corpus mĂ©diatique a permis de reconsidĂ©rer la notion de subjectivitĂ© qui constitue l’une des difficultĂ©s rĂ©currentes du traitement automatique. L’étude de la subjectivitĂ© et son expression dans le discours a Ă©tĂ© poursuivie dans plusieurs des recherches menĂ©es : la subjectivitĂ© Ă  partir des informations personnelles livrĂ©es par le locuteur, la subjectivitĂ© dans la perception et l’appropriation des lieux, la subjectivitĂ© dans les recettes de cuisine et enfin la subjectivitĂ© exprimĂ©e Ă  travers les noms gĂ©nĂ©raux

    Actes du 31e colloque de l'ADMEE-Europe

    Get PDF

    ELiTe-[FLE]ÂČ : Un environnement d'ALAO fondĂ© sur la linguistique textuelle, pour la formation linguistique des futurs enseignants de FLE en Colombie

    Get PDF
    This thesis presents a computer device aimed at helping future FFL teacher training in Colombian universities. It is grounded in text linguistics and aims to contribute to improving the linguistic level of university students currently in training. To do so, this device is based on a textual corpus specifically annotated and labeled thanks to natural language processing (NLP) tools and to manual annotations in XML format. This should allow the development of activities with a formative aim, while also taking into account the needs expressed by the target public (teachers/trainers and their students, the trainees). As explained throughout this thesis, the elaboration of such a system is based on knowledge and skills stemming from several disciplines and/or fields: language didactics, educational engineering, general linguistics, textual linguistics, corpus linguistics, NLP and CALL. The ambition is to provide trainees and trainers in higher education in Colombia with a tool designed according to their needs and their learning aims and objectives. Finally, the originality of this system consists in the choice of target users, the didactic training model implemented and the specificity of the corpus annotated for the activities. It is one of the first CALL systems based on textual linguistics specifically targeted at training future FFL teachers in a non-native language context.Nous prĂ©sentons, dans ce manuscrit, un dispositif informatique d'aide Ă  la formation des futurs enseignants de FLE en Colombie. Il prend ses sources dans la linguistique textuelle et cherche Ă  amĂ©liorer le niveau linguistique des Ă©tudiants universitaires actuellement en formation. Pour ce faire, le dispositif est fondĂ© sur un corpus textuel spĂ©cifiquement annotĂ© et Ă©tiquetĂ© grĂące aux outils de traitement automatique de langues (TAL) et Ă  des annotations manuelles en format XML. Ceci permet de dĂ©velopper des activitĂ©s Ă  visĂ©e formative, en tenant compte des besoins exprimĂ©s par les publics cibles (enseignants-formateurs et leurs Ă©tudiants en formation). Comme nous l'exposons tout au long de cette thĂšse, l'Ă©laboration d'un systĂšme comme le nĂŽtre est le produit de la mise en Ɠuvre de connaissances et de compĂ©tences issues de plusieurs disciplines et/ou domaines : didactique des langues, ingĂ©nierie pĂ©dagogique, linguistique gĂ©nĂ©rale, linguistique textuelle, linguistique de corpus, TAL et ALAO. Il se veut, principalement, un dispositif pĂ©dagogique pour la formation des Ă©tudiants en FLE dans le contexte de l'Ă©ducation supĂ©rieure en Colombie, un outil pensĂ© en fonction des besoins et des objectifs de cet apprentissage. L'originalitĂ© de notre systĂšme repose sur le type de public choisi, le modĂšle didactique de formation mis en Ɠuvre et la spĂ©cificitĂ© du corpus utilisĂ©. À notre connaissance, il s'agit d'un des premiers systĂšmes d'ALAO fondĂ© sur la linguistique textuelle s'adressant Ă  la formation des futurs enseignants de FLE dans un contexte exolingue

    L'AIS : une donnée pour l'analyse des activités en mer

    Get PDF
    4 pages, session "Mer et littoral"International audienceCette contribution présente des éléments méthodologiques pour la description des activités humaines en mer dans une perspective d'aide à la gestion. Différentes procédures, combinant l'exploitation de bases de données spatio-temporelles issue de données AIS archivées à des analyses spatiales au sein d'un SIG, sont testées afin de caractériser le transport maritime en Mer d'Iroise (Bretagne, France) sur les plans spatiaux, temporels et quantitatifs au cours d'une année

    Construction et fonctionnement de la mise en scÚne de l'actualité politique par le discours satirique : spécificités de l'approche des processus d'information et de communication dans "Le Canard enchaßné"

    Get PDF
    How politics and current affairs are presented through satire : the specific approach of "Le Canard enchaĂźnĂ©" to the communication process and the treatment of news.Si les fonctionnements de l'Ă©criture satirique ont Ă©tĂ© Ă©tudiĂ©s, la rĂ©flexion sur le positionnement par rapport aux autres mĂ©dias et le rapport au rĂ©fĂ©rent, Ă  l'information 'sĂ©rieuse' mĂ©rite encore d'ĂȘtre approfondie, notamment dans son 'institutionnalisation' revendiquĂ©e comme approche spĂ©cifique de l'information. d'autant plus que le systĂšme mĂ©diatique est en pleine transformation avec l'apparition de la concurrence sur internet : la problĂ©matique gĂ©nĂ©rale de l'identification, de la fiabilitĂ© des sources, est amplifiĂ©e par la rapiditĂ© de circulation et la diversitĂ© des flux.ce travail de 'mĂ©diation' assumĂ© qui transforme l'information, les discours de l'autre, apparaĂźt Ă©galement comme un exercice fondamentalement ambigu : Ă  la fois mise Ă  distance ou dĂ©tachement, mais qui peut aussi ĂȘtre perçu comme une forme d'engagement.il conviendra d'Ă©tablir une forme de 'classification' des territoires de la satire et de la dĂ©rision avant d'arrĂȘter le choix d'un corpus qui puisse rendre compte d'un certain nombre de procĂ©dĂ©s et de processus. quels sont les mĂ©canismes de la 'montĂ©e en dĂ©rision' d'un certain nombre d'informations, de leur 'Ă©vĂ©nementialisation' ? quelle y est la place de l'attaque ad hominem ? quel rapport au rĂ©fĂ©rent et quelle appropriation particuliĂšre du discours de l'autre ? quelle est la part de la circulation intermĂ©diatique ?si le positionnement satirique instaure un pacte de lecture particulier avec le lecteur, qu'en percevons-nous clairement qui soit 'identifiable' ?enfin, le discours satirique permet-il de 's'engager' ou de se dĂ©sengager du systĂšme mĂ©diatique, des dĂ©bats et enjeux de l'espace public ? a l'arriĂšre-plan, ne peut-on pas retrouver un discours sur des 'valeurs', des idĂ©aux (une vĂ©ritable argumentation donc) ou une sorte de discours sur les illusions perdues, appelĂ© Ă  fonctionner comme une rĂ©volte ou un appel
    corecore