Search CORE

20 research outputs found

Modèles de langues pour la détection d'opinions dans les blogs

Author: Belbachir Faiza
Boughanem Mohand
Zaoui Lynda
Publication venue: 'Lavoisier'
Publication date: 01/01/2014
Field of study

Cet article décrit une approche de recherche de documents pertinents vis-à-vis d’une requête et exprimant une opinion. Afin de détecter si un document est porteur d’opinion (i.e. comporte de l’information subjective), nous proposons de le comparer à des sources d’information qui comportent du contenu de type opinion. L’intuition derrière cela est la suivante : un document ayant une similarité forte avec des sources d’opinions, est vraisemblablement porteur d’opinion. Pour mesurer cette similarité, nous exploitons des modèles de langue. Nous modélisons le document et la source (référence) porteuse d’opinions par des modèles de langue, nous évaluons ensuite la similarité de ces modèles. Plusieurs expérimentations ont été réalisées sur des collections issues de TREC. Les résultats obtenus valident notre intuition

Scientific Publications of the University of Toulouse II Le Mirail

Open Archive Toulouse Archive Ouverte

Chaîne de traitement pour une approche discursive de l'analyse d'opinion

Author: Chardon Baptiste
Publication venue
Publication date: 12/06/2013
Field of study

La structure discursive d'un texte est un élément essentiel à la compréhension du contenu véhiculé par ce texte. Elle affecte, par exemple, la structure temporelle du texte, ou encore l'interprétation des expressions anaphoriques. Dans cette thèse, nous aborderons les effets de la structure discursive sur l'analyse de sentiments. L'analyse des sentiments est un domaine de recherche extrêmement actif en traitement automatique des langues. Devant l'abondance de données subjectives disponibles, l'automatisation de la synthèse des multiples avis devient cruciale pour obtenir efficacement une vue d'ensemble des opinions sur un sujet donné. La plupart des travaux actuels proposent une analyse des opinions au niveau du document ou au niveau de la phrase en ignorant la structure discursive. Dans cette thèse, nous nous plaçons dans le contexte de la théorie de la SDRT (Segmented Discourse Representation Theory) et proposons de répondre aux questions suivantes : -Existe-t-il un lien entre la structure discursive d'un document et les opinions émises dans ce même document ? -Quel est le rôle des relations de discours dans la détermination du caractère objectif ou subjectif d'un segment textuel ? -Quel est le rôle des éléments linguistiques, comme la négation et la modalité, lors de la détermination de la polarité d'un segment textuel subjectif ? -Quel est l'impact de la structure discursive lors de la détermination de l'opinion globale véhiculée dans un document ? -Est-ce qu'une approche basée sur le discours apporte une réelle valeur ajoutée comparée à une approche classique basée sur la notion de 'sacs de mots'? -Cette valeur ajoutée est-elle dépendante du genre de corpus ?The discourse structure of a document is a key element to understand the content conveyed by a text. It affects, for instance, the temporal structure of a text, or the interpretation of anaphoric expressions. The discourse structure showed its usefulness in numerous NLP applications, such as automatic summary, or textual entailment. In this thesis, we will study the effects of the discourse structure on sentiment analysis. Sentiment analysis is an extremely active research domain in natural language processing. The last years have seen the multiplication of the available textual data conveying opinion on the web, and the automation of the summary of opinion documents became crucial for who wants to keep an overview of the opinion on a given subject. A huge interest lies in these data, both for the companies who want to retrieve consumer opinion, and for the consumers willing to gather information. Most of the current research efforts describe an opinion extraction at the document level or at the sentence level, ignoring the discourse structure. In this thesis work, we address opinion extraction through the discourse framework of the SDRT (Segmented Discourse Representation Theory), and try to answer to the following questions: -Is there a link between the discourse structure of a document and the opinions contained in that document? -What is the role of discourse relations in the determination of whether a textual segment is objective or subjective? -What is the impact of the discourse structure in the determination of the overall opinion conveyed by a document? -Does a discourse based approach really bring additional value compared to a classical "bag of words" approach

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Usagers & Recherche d'Information

Author: Chevalier Max
Publication venue: HAL CCSD
Publication date: 24/02/2011
Field of study

La recherche d'information est confrontée à une variété de plus en plus importante tant en termes d'usagers, de tâches à remplir, d'outils.... Face à cette hétérogénéité de nombreux travaux, s'attachent à améliorer la recherche d'information par le biais d'approches adaptatives, de systèmes de recommandation... Mes travaux s'inscrivent dans ce cadre et apportent un éclairage essentiellement porté sur l'usager et ses activités et plus particulièrement sur la recherche d'information. Les résultats correspondent à 3 angles d'investigation nous permettant d'aborder cette problématique de l'hétérogénéité en Recherche d'Information

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

La définition des annotations linguistiques selon les corpus : de l'écrit journalistique à l'oral

Author: Eshkol-Taravella Iris
Publication venue: HAL CCSD
Publication date: 16/10/2015
Field of study

Confronté à Internet, le Traitement Automatique des Langues (TAL) a dû relever le défi que posait l’analyse de textes dialogiques écrits (blog, forum, chat, réseaux sociaux etc.) et oraux. Les recherches présentées ont, dans un premier temps, porté sur le développement de systèmes à même de repérer et d’analyser l’information à partir d’une annotation des ressources. L’approche retenue privilégie l’intégration d’indices inhérents à la nature de corpus « hors normes » afin d’améliorer les techniques de traitement automatique. La chaîne d’opérations comprend quatre étapes :(i) L’observation et l’analyse manuelle des données afin de recenser les variations dans les occurrences et d’évaluer l’ampleur des phénomènes à annoter, leur classification et l’identification de leurs marqueurs formels.(ii) La modélisation de l’information à partir d’une typologie sous la forme d’un jeu d’étiquettes ajusté à la nature du corpus.(iii) La définition de la technologie congrue (généralement, l’arbitrage entre le développement d’un nouvel outil et l’adaptation d’un outil existant).(iv) L’implémentation du schéma d’annotation défini afin de procéder à une analyse quantitative et qualitative des résultats.L’annotation effectuée concerne les domaines de la syntaxe (étiquetage morpho-syntaxique et chunking), sémantique et/ou pragmatique (entités nommées, indices d’identification de la personne, reformulations etc.). L’application concerne aussi bien des entretiens transcrits que des titres de cartes géographiques, des recettes d’omelette que des articles du Monde. Les méthodes utilisées varient en fonction du corpus et de la tâche traitée. L’annotation syntaxique et le repérage des segments reformulés sont fondés sur la technique d’apprentissage automatique avec les CRFs ; le repérage des entités nommées et des indices d’identification de la personne dans les transcriptions de l’oral utilise les méthodes symboliques ; la détection automatique des tours de parole contenant la reformulation emploie les méthodes heuristiques. Le travail sur le français parlé et son annotation a conduit à la modélisation des caractéristiques propres à l’oral : disfluences, marqueurs discursifs, présentateurs, segmentation, commentaires personnels etc. Un autre phénomène caractéristique de l’oral, la reformulation, a fait l’objet d’une étude particulière. Le travail sur l’annotation du corpus oral, du corpus Web ou du corpus médiatique a permis de reconsidérer la notion de subjectivité qui constitue l’une des difficultés récurrentes du traitement automatique. L’étude de la subjectivité et son expression dans le discours a été poursuivie dans plusieurs des recherches menées : la subjectivité à partir des informations personnelles livrées par le locuteur, la subjectivité dans la perception et l’appropriation des lieux, la subjectivité dans les recettes de cuisine et enfin la subjectivité exprimée à travers les noms généraux

Thèses en Ligne

HAL Université de Tours

Actes du 31e colloque de l'ADMEE-Europe

Author
Publication venue
Publication date: 01/01/2019
Field of study

Serveur académique lausannois

Wikipédia en éducation : Guide pour une utilisation optimale de l'encyclopédie libre par les étudiants, enseignants et autres intervenants en éducation

Author: Villeneuve Simon
Publication venue: Wikilivres
Publication date: 01/01/2017
Field of study

Comprend des références bibliographique

ÉDUQ

ELiTe-[FLE]² : Un environnement d'ALAO fondé sur la linguistique textuelle, pour la formation linguistique des futurs enseignants de FLE en Colombie

Author: Molina Mejia Jorge Mauricio
Publication venue: HAL CCSD
Publication date: 06/11/2015
Field of study

This thesis presents a computer device aimed at helping future FFL teacher training in Colombian universities. It is grounded in text linguistics and aims to contribute to improving the linguistic level of university students currently in training. To do so, this device is based on a textual corpus specifically annotated and labeled thanks to natural language processing (NLP) tools and to manual annotations in XML format. This should allow the development of activities with a formative aim, while also taking into account the needs expressed by the target public (teachers/trainers and their students, the trainees). As explained throughout this thesis, the elaboration of such a system is based on knowledge and skills stemming from several disciplines and/or fields: language didactics, educational engineering, general linguistics, textual linguistics, corpus linguistics, NLP and CALL. The ambition is to provide trainees and trainers in higher education in Colombia with a tool designed according to their needs and their learning aims and objectives. Finally, the originality of this system consists in the choice of target users, the didactic training model implemented and the specificity of the corpus annotated for the activities. It is one of the first CALL systems based on textual linguistics specifically targeted at training future FFL teachers in a non-native language context.Nous présentons, dans ce manuscrit, un dispositif informatique d'aide à la formation des futurs enseignants de FLE en Colombie. Il prend ses sources dans la linguistique textuelle et cherche à améliorer le niveau linguistique des étudiants universitaires actuellement en formation. Pour ce faire, le dispositif est fondé sur un corpus textuel spécifiquement annoté et étiqueté grâce aux outils de traitement automatique de langues (TAL) et à des annotations manuelles en format XML. Ceci permet de développer des activités à visée formative, en tenant compte des besoins exprimés par les publics cibles (enseignants-formateurs et leurs étudiants en formation). Comme nous l'exposons tout au long de cette thèse, l'élaboration d'un système comme le nôtre est le produit de la mise en œuvre de connaissances et de compétences issues de plusieurs disciplines et/ou domaines : didactique des langues, ingénierie pédagogique, linguistique générale, linguistique textuelle, linguistique de corpus, TAL et ALAO. Il se veut, principalement, un dispositif pédagogique pour la formation des étudiants en FLE dans le contexte de l'éducation supérieure en Colombie, un outil pensé en fonction des besoins et des objectifs de cet apprentissage. L'originalité de notre système repose sur le type de public choisi, le modèle didactique de formation mis en œuvre et la spécificité du corpus utilisé. À notre connaissance, il s'agit d'un des premiers systèmes d'ALAO fondé sur la linguistique textuelle s'adressant à la formation des futurs enseignants de FLE dans un contexte exolingue

Thèses en Ligne

Hal - Université Grenoble Alpes

L'AIS : une donnée pour l'analyse des activités en mer

Author: Brosset David
Le Guyader Damien
Publication venue: HAL CCSD
Publication date: 23/09/2013
Field of study

4 pages, session "Mer et littoral"International audienceCette contribution présente des éléments méthodologiques pour la description des activités humaines en mer dans une perspective d'aide à la gestion. Différentes procédures, combinant l'exploitation de bases de données spatio-temporelles issue de données AIS archivées à des analyses spatiales au sein d'un SIG, sont testées afin de caractériser le transport maritime en Mer d'Iroise (Bretagne, France) sur les plans spatiaux, temporels et quantitatifs au cours d'une année

HAL - Normandie Université

HAL-Université de Bretagne Occidentale

HAL Descartes

Oskar Bordeaux

Construction et fonctionnement de la mise en scène de l'actualité politique par le discours satirique : spécificités de l'approche des processus d'information et de communication dans "Le Canard enchaîné"

Author: Halloy Didier
Publication venue: HAL CCSD
Publication date: 13/11/2014
Field of study

How politics and current affairs are presented through satire : the specific approach of "Le Canard enchaîné" to the communication process and the treatment of news.Si les fonctionnements de l'écriture satirique ont été étudiés, la réflexion sur le positionnement par rapport aux autres médias et le rapport au référent, à l'information 'sérieuse' mérite encore d'être approfondie, notamment dans son 'institutionnalisation' revendiquée comme approche spécifique de l'information. d'autant plus que le système médiatique est en pleine transformation avec l'apparition de la concurrence sur internet : la problématique générale de l'identification, de la fiabilité des sources, est amplifiée par la rapidité de circulation et la diversité des flux.ce travail de 'médiation' assumé qui transforme l'information, les discours de l'autre, apparaît également comme un exercice fondamentalement ambigu : à la fois mise à distance ou détachement, mais qui peut aussi être perçu comme une forme d'engagement.il conviendra d'établir une forme de 'classification' des territoires de la satire et de la dérision avant d'arrêter le choix d'un corpus qui puisse rendre compte d'un certain nombre de procédés et de processus. quels sont les mécanismes de la 'montée en dérision' d'un certain nombre d'informations, de leur 'événementialisation' ? quelle y est la place de l'attaque ad hominem ? quel rapport au référent et quelle appropriation particulière du discours de l'autre ? quelle est la part de la circulation intermédiatique ?si le positionnement satirique instaure un pacte de lecture particulier avec le lecteur, qu'en percevons-nous clairement qui soit 'identifiable' ?enfin, le discours satirique permet-il de 's'engager' ou de se désengager du système médiatique, des débats et enjeux de l'espace public ? a l'arrière-plan, ne peut-on pas retrouver un discours sur des 'valeurs', des idéaux (une véritable argumentation donc) ou une sorte de discours sur les illusions perdues, appelé à fonctionner comme une révolte ou un appel

Thèses en Ligne