Search CORE

317 research outputs found

Analyse de l’image de marque sur le Web 2.0

Author: Cossu Jean-Valère
Publication venue: HAL CCSD
Publication date: 16/12/2015
Field of study

Analyse of entities representation over the Web 2.0Every day, millions of people publish their views on Web 2.0 (social networks,blogs, etc.). These comments focus on subjects as diverse as news, politics,sports scores, consumer objects, etc. The accumulation and agglomerationof these notices on an entity (be it a product, a company or a public entity) givebirth to the brand image of that entity. Internet has become in recent years aprivileged place for the emergence and dissemination of opinions and puttingWeb 2.0 at the head of observatories of opinions. The latter being a means ofaccessing the knowledge of the opinion of the world population.The image is here understood as the idea that a person or a group of peopleis that entity. This idea carries a priori on a particular subject and is onlyvalid in context for a given time. This perceived image is different from theentity initially wanted to broadcast (eg via a communication campaign). Moreover,in reality, there are several images in the end living together in parallel onthe network, each specific to a community and all evolve differently over time(imagine how would be perceived in each camp together two politicians edgesopposite). Finally, in addition to the controversy caused by the voluntary behaviorof some entities to attract attention (think of the declarations required orshocking). It also happens that the dissemination of an image beyond the frameworkthat governed the and sometimes turns against the entity (for example,« marriage for all » became « the demonstration for all »). The views expressedthen are so many clues to understand the logic of construction and evolution ofthese images. The aim is to be able to know what we are talking about and howwe talk with filigree opportunity to know who is speaking.viiIn this thesis we propose to use several simple supervised statistical automaticmethods to monitor entity’s online reputation based on textual contentsmentioning it. More precisely we look the most important contents and theirsauthors (from a reputation manager point-of-view). We introduce an optimizationprocess allowing us to enrich the data using a simulated relevance feedback(without any human involvement). We also compare content contextualizationmethod using information retrieval and automatic summarization methods.Wealso propose a reflection and a new approach to model online reputation, improveand evaluate reputation monitoring methods using Partial Least SquaresPath Modelling (PLS-PM). In designing the system, we wanted to address localand global context of the reputation. That is to say the features can explain thedecision and the correlation betweens topics and reputation. The goal of ourwork was to propose a different way to combine usual methods and featuresthat may render reputation monitoring systems more accurate than the existingones. We evaluate and compare our systems using state of the art frameworks: Imagiweb and RepLab. The performances of our proposals are comparableto the state of the art. In addition, the fact that we provide reputation modelsmake our methods even more attractive for reputation manager or scientistsfrom various fields.Image sur le web : analyse de la dynamique des images sur le Web 2.0. En plus d’être un moyen d’accès à la connaissance, Internet est devenu en quelques années un lieu privilégié pour l’apparition et la diffusion d’opinions.Chaque jour, des millions d’individus publient leurs avis sur le Web 2.0 (réseaux sociaux, blogs, etc.). Ces commentaires portent sur des sujets aussi variés que l’actualité, la politique, les résultats sportifs, biens culturels, des objets de consommation, etc. L’amoncellement et l’agglomération de ces avis publiés sur une entité (qu’il s’agisse d’un produit, une entreprise ou une personnalité publique)donnent naissance à l’image de marque de cette entité.L’image d’une entité est ici comprise comme l’idée qu’une personne ou qu’un groupe de personnes se fait de cette entité. Cette idée porte a priori sur un sujet particulier et n’est valable que dans un contexte, à un instant donné.Cette image perçue est par nature différente de celle que l’entité souhaitait initialement diffuser (par exemple via une campagne de communication). De plus,dans la réalité, il existe au final plusieurs images qui cohabitent en parallèle sur le réseau, chacune propre à une communauté et toutes évoluant différemment au fil du temps (imaginons comment serait perçu dans chaque camp le rapprochement de deux hommes politiques de bords opposés). Enfin, en plus des polémiques volontairement provoquées par le comportement de certaines entités en vue d’attirer l’attention sur elles (pensons aux tenues ou déclarations choquantes), il arrive également que la diffusion d’une image dépasse le cadre qui la régissait et même parfois se retourne contre l’entité (par exemple, «le mariage pour tous» devenu « la manif pour tous »). Les opinions exprimées constituent alors autant d’indices permettant de comprendre la logique de construction et d’évolution de ces images. Ce travail d’analyse est jusqu’à présent confié à des spécialistes de l’e-communication qui monnaient leur subjectivité. Ces derniers ne peuvent considérer qu’un volume restreint d’information et ne sont que rarement d’accord entre eux. Dans cette thèse, nous proposons d’utiliser différentes méthodes automatiques, statistiques, supervisées et d’une faible complexité permettant d’analyser et représenter l’image de marque d’entité à partir de contenus textuels les mentionnant. Plus spécifiquement, nous cherchons à identifier les contenus(ainsi que leurs auteurs) qui sont les plus préjudiciables à l’image de marque d’une entité. Nous introduisons un processus d’optimisation automatique de ces méthodes automatiques permettant d’enrichir les données en utilisant un retour de pertinence simulé (sans qu’aucune action de la part de l’entité concernée ne soit nécessaire). Nous comparer également plusieurs approches de contextualisation de messages courts à partir de méthodes de recherche d’information et de résumé automatique. Nous tirons également parti d’algorithmes de modélisation(tels que la Régression des moindres carrés partiels), dans le cadre d’une modélisation conceptuelle de l’image de marque, pour améliorer nos systèmes automatiques de catégorisation de documents textuels. Ces méthodes de modélisation et notamment les représentations des corrélations entre les différents concepts que nous manipulons nous permettent de représenter d’une part, le contexte thématique d’une requête de l’entité et d’autre, le contexte général de son image de marque. Nous expérimentons l’utilisation et la combinaison de différentes sources d’information générales représentant les grands types d’information auxquels nous sommes confrontés sur internet : de long les contenus objectifs rédigés à des informatives, les contenus brefs générés par les utilisateurs visant à partager des opinions. Nous évaluons nos approches en utilisant deux collections de données, la première est celle constituée dans le cadre du projet Imagiweb, la seconde est la collection de référence sur le sujet : CLEFRepLa

Thèses en Ligne

Cartographier l’ontologie d’un territoire sur le web: Le cas de la Bolivie

Author: Landivar Diego
Monnin Alexandre
Ramillien Emilie
Publication venue: Netcom Association
Publication date: 01/05/2016
Field of study

International audienceUnder what conditions is it possible to define the identity of a territory on the Web? In this paper we explore the way entities with a clear-cut geographical existence (such as Bolivia) exist and are objectivized in a digital space like the Web. Our question is “should the mapping of a territorial entity on the Web and its traditional geographical representation converge?” In order to answer it, we set out an analysis which takes as its starting point the architecture of the Web, revolving around the notion of resource (objects identified on the Web). Therefrom, we conduct an anthropological analysis of the “modes of existence” (Etienne Souriau) of a country such as Bolivia on the Web. We use several digital methods in order to probe concrete examples of the networks of associations it elicits and show that, as a resource, its limits that are widely redefined on the Web, largely through the networks generated by online participation (blogs, commentaries, tweets, Wikipedia entries…). Bolivia can thence be described as a burgeoning, quite unstable, entity whose borders become rather imprecise. Yet, such a characterization also proves way more encompassing and richer than traditional (namely, geographic) ones.Quelle est l’identité d’un territoire sur le Web ? Dans cet article nous explorons les modes d’identification et d’objectivation d’entités (en l’occurrence, ici, un pays) ayant une existence géographique admise hors du Web. Il apparait que la Bolivie, en tant qu’objet identifié au moyen du Web, alimenté par des contenus participatifs (blogs, commentaires, tweets, articles Wikipédia, contenus structurées sur DBpedia, etc.), est une entité en devenir qui prolifère et non un référent stable aux bords nets. Grâce à cette hypothèse permettant de penser sérieusement l’existence à part entière d’une entité sur le Web, nous pouvons mener une enquête anthropologique à propos de ces deux modes d’existence (au sens d’Etienne Souriau) de l’entité Bolivie. La cartographie d’une entité territoriale sur le Web et sa cartographie géographique se recouvrent-elles ? Et selon quelles dimensions le cas échéant ? Nous verrons que la question à se poser sur le Web est avant tout une question d’échelles. Pour ce faire, nous repartirons des fondements de l’architecture du Web afin de déterminer comment faire varier les échelles sur le Web de manière à continuer à parler de la Bolivie (une entité une) tout en tenant compte de la prolifération des associations qu’elle tisse (une entité multiple) et ainsi enrichir notre appréhension de l’objet géographique Bolivie "hors" du Web (objet dont l’existence est néanmoins impactée par le Web selon des modalités à éclaircir)

HAL-UNICE

HAL Clermont Université

INRIA a CCSD electronic archive server

Fouille d'opinions

Author: Gillot Sébastien
Publication venue: HAL CCSD
Publication date: 23/06/2010
Field of study

L'internet social a récemment fait exploser la disponibilité de documents textuels exprimant des opinions ou des sentiments, par exemple dans les groupes de discussions, les blogs, forums et autres sites spécialisés dans les critiques de produits. Les opinions disponibles sur l'internet ont un impact considérable sur les internautes. Des sondages (Pang et Lee (2008)) montrent que la majorité (80%) des internautes ont déjà fait des recherches d'avis sur un produit et que ces derniers sont prêts à payer deux fois plus cher pour un produit dont l'avis est plus favorable qu'un autre. Les entreprises prennent en compte ce paramètre et l'analyse d'opinions est depuis longtemps une composante importante dans leurs prises de décisions. La nécessité de traiter automatiquement les opinions se fait donc fortement ressentir. L'analyse automatique des opinions, aussi appelée fouille d'opinions, concerne l'extraction d'un sentiment dans une source telle qu'un texte sans structure prédéfinie. Les sentiments reconnus peuvent être classés soit positifs soit négatifs, soit en des classes définies plus finement. Le sujet de notre stage portait sur la construction d'un tel système de fouille. Nous axons notre recherche sur la généricité, c'est-à-dire que nous souhaitons diminuer l'intervention humaine dans le processus de fouille. Pour cela, des exemples de textes d'opinions annotés selon le sentiment (positif ou négatif) qui leur est associé sont exploités. Nous nous plaçons donc dans un cadre d'apprentissage supervisé et explorons le problème de fouille d'opinions à travers l'utilisation de méthodes standards. Beaucoup de ces méthodes nécessitent des ressources a priori telles que le vocabulaire et la structure des phrases. Dans ce rapport, nous tentons de pousser la généricité de ces méthodes en diminuant ce besoin en ressources a priori

HAL-CentraleSupelec

HAL-Rennes 1

Chaîne de traitement pour une approche discursive de l'analyse d'opinion

Author: Chardon Baptiste
Publication venue
Publication date: 12/06/2013
Field of study

La structure discursive d'un texte est un élément essentiel à la compréhension du contenu véhiculé par ce texte. Elle affecte, par exemple, la structure temporelle du texte, ou encore l'interprétation des expressions anaphoriques. Dans cette thèse, nous aborderons les effets de la structure discursive sur l'analyse de sentiments. L'analyse des sentiments est un domaine de recherche extrêmement actif en traitement automatique des langues. Devant l'abondance de données subjectives disponibles, l'automatisation de la synthèse des multiples avis devient cruciale pour obtenir efficacement une vue d'ensemble des opinions sur un sujet donné. La plupart des travaux actuels proposent une analyse des opinions au niveau du document ou au niveau de la phrase en ignorant la structure discursive. Dans cette thèse, nous nous plaçons dans le contexte de la théorie de la SDRT (Segmented Discourse Representation Theory) et proposons de répondre aux questions suivantes : -Existe-t-il un lien entre la structure discursive d'un document et les opinions émises dans ce même document ? -Quel est le rôle des relations de discours dans la détermination du caractère objectif ou subjectif d'un segment textuel ? -Quel est le rôle des éléments linguistiques, comme la négation et la modalité, lors de la détermination de la polarité d'un segment textuel subjectif ? -Quel est l'impact de la structure discursive lors de la détermination de l'opinion globale véhiculée dans un document ? -Est-ce qu'une approche basée sur le discours apporte une réelle valeur ajoutée comparée à une approche classique basée sur la notion de 'sacs de mots'? -Cette valeur ajoutée est-elle dépendante du genre de corpus ?The discourse structure of a document is a key element to understand the content conveyed by a text. It affects, for instance, the temporal structure of a text, or the interpretation of anaphoric expressions. The discourse structure showed its usefulness in numerous NLP applications, such as automatic summary, or textual entailment. In this thesis, we will study the effects of the discourse structure on sentiment analysis. Sentiment analysis is an extremely active research domain in natural language processing. The last years have seen the multiplication of the available textual data conveying opinion on the web, and the automation of the summary of opinion documents became crucial for who wants to keep an overview of the opinion on a given subject. A huge interest lies in these data, both for the companies who want to retrieve consumer opinion, and for the consumers willing to gather information. Most of the current research efforts describe an opinion extraction at the document level or at the sentence level, ignoring the discourse structure. In this thesis work, we address opinion extraction through the discourse framework of the SDRT (Segmented Discourse Representation Theory), and try to answer to the following questions: -Is there a link between the discourse structure of a document and the opinions contained in that document? -What is the role of discourse relations in the determination of whether a textual segment is objective or subjective? -What is the impact of the discourse structure in the determination of the overall opinion conveyed by a document? -Does a discourse based approach really bring additional value compared to a classical "bag of words" approach

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Collecte orientée sur le Web pour la recherche d'information spécialisée

Author: DE GROC Clément
TANNIER Xavier
ZWEIGENBAUM Pierre
Publication venue
Publication date: 01/01/2013
Field of study

Les moteurs de recherche verticaux, qui se concentrent sur des segments spécifiques du Web, deviennent aujourd'hui de plus en plus présents dans le paysage d'Internet. Les moteurs de recherche thématiques, notamment, peuvent obtenir de très bonnes performances en limitant le corpus indexé à un thème connu. Les ambiguïtés de la langue sont alors d'autant plus contrôlables que le domaine est bien ciblé. De plus, la connaissance des objets et de leurs propriétés rend possible le développement de techniques d'analyse spécifiques afin d'extraire des informations pertinentes.Dans le cadre de cette thèse, nous nous intéressons plus précisément à la procédure de collecte de documents thématiques à partir du Web pour alimenter un moteur de recherche thématique. La procédure de collecte peut être réalisée en s'appuyant sur un moteur de recherche généraliste existant (recherche orientée) ou en parcourant les hyperliens entre les pages Web (exploration orientée).Nous étudions tout d'abord la recherche orientée. Dans ce contexte, l'approche classique consiste à combiner des mot-clés du domaine d'intérêt, à les soumettre à un moteur de recherche et à télécharger les meilleurs résultats retournés par ce dernier.Après avoir évalué empiriquement cette approche sur 340 thèmes issus de l'OpenDirectory, nous proposons de l'améliorer en deux points. En amont du moteur de recherche, nous proposons de formuler des requêtes thématiques plus pertinentes pour le thème afin d'augmenter la précision de la collecte. Nous définissons une métrique fondée sur un graphe de cooccurrences et un algorithme de marche aléatoire, dans le but de prédire la pertinence d'une requête thématique. En aval du moteur de recherche, nous proposons de filtrer les documents téléchargés afin d'améliorer la qualité du corpus produit. Pour ce faire, nous modélisons la procédure de collecte sous la forme d'un graphe triparti et appliquons un algorithme de marche aléatoire biaisé afin d'ordonner par pertinence les documents et termes apparaissant dans ces derniers.Dans la seconde partie de cette thèse, nous nous focalisons sur l'exploration orientée du Web. Au coeur de tout robot d'exploration orientée se trouve une stratégie de crawl qui lui permet de maximiser le rapatriement de pages pertinentes pour un thème, tout en minimisant le nombre de pages visitées qui ne sont pas en rapport avec le thème. En pratique, cette stratégie définit l'ordre de visite des pages. Nous proposons d'apprendre automatiquement une fonction d'ordonnancement indépendante du thème à partir de données existantes annotées automatiquement.Vertical search engines, which focus on a specific segment of the Web, become more and more present in the Internet landscape. Topical search engines, notably, can obtain a significant performance boost by limiting their index on a specific topic. By doing so, language ambiguities are reduced, and both the algorithms and the user interface can take advantage of domain knowledge, such as domain objects or characteristics, to satisfy user information needs.In this thesis, we tackle the first inevitable step of a all topical search engine : focused document gathering from the Web. A thorough study of the state of art leads us to consider two strategies to gather topical documents from the Web: either relying on an existing search engine index (focused search) or directly crawling the Web (focused crawling).The first part of our research has been dedicated to focused search. In this context, a standard approach consists in combining domain-specific terms into queries, submitting those queries to a search engine and down- loading top ranked documents. After empirically evaluating this approach over 340 topics, we propose to enhance it in two different ways: Upstream of the search engine, we aim at formulating more relevant queries in or- der to increase the precision of the top retrieved documents. To do so, we define a metric based on a co-occurrence graph and a random walk algorithm, which aims at predicting the topical relevance of a query. Downstream of the search engine, we filter the retrieved documents in order to improve the document collection quality. We do so by modeling our gathering process as a tripartite graph and applying a random walk with restart algorithm so as to simultaneously order by relevance the documents and terms appearing in our corpus.In the second part of this thesis, we turn to focused crawling. We describe our focused crawler implementation that was designed to scale horizontally. Then, we consider the problem of crawl frontier ordering, which is at the very heart of a focused crawler. Such ordering strategy allows the crawler to prioritize its fetches, maximizing the number of in-domain documents retrieved while minimizing the non relevant ones. We propose to apply learning to rank algorithms to efficiently order the crawl frontier, and define a method to learn a ranking function from existing crawls.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

OpenGrey Repository

L'institutionnalisation de la " culture scientifique et technique ", un fait social français (1970-2010)

Author: Las Vergnas Olivier
Publication venue: HAL CCSD
Publication date: 02/04/2012
Field of study

International audience"Dans les publications françaises, " culture scientifique et technique " (CST) recouvre le champ intitulé ailleurs public understanding of science ou scientific literacy. Avant d'être consacrée par la loi (1982), cette CST a émergé d'hybridations entre acteurs socio-culturels et scientifiques. Un conseil national et un programme mobilisateur, des colloques ou états généraux ainsi qu'un réseau de centres ad hoc ont ensuite fait converger, derrière cette appellation, de multiples organisations. Désignant tout autant de la communication des laboratoires, de l'éducation populaire, des débats sur la gouvernance de la recherche voire des actions de promotion des études scientifiques et se nourrissant d'acquis et de travaux rattachés aux sciences de l'éduction, aux SIC, ou à la sociologie et aux sciences politiques, le champ de la CST a ainsi aggloméré des corpus disparates sans donner naissance à un cadre conceptuel intégrateur ou à des frontières précises. Ainsi, les résultats de ces politiques de CST ne peuvent être évalués en raison d'amalgames sémantiques et les discours en leur faveur se trouvent se répèter vainement depuis trois décennies. Entretenant l'illusion de pouvoir améliorer à la fois la détection de l'élite et le partage des savoirs par tous, ils oublient que le système d'enseignement initial est réglé pour ne retenir en bac scientifique qu'un quart de chaque classe d'âge et qu'il renforce ainsi, pour les ¾ restants, les obstacles cognitifs individuels en y ajoutant un obstacle " conatif " à même de produire ensuite une auto-prophétie de ne plus être capable de s'intéresser aux sciences. D'autant que la CST officielle étant une culture prescrite et non une culture vécue, elle renforce la rupture entre savoirs scientifiques et savoirs issus de la vie quotidienne, ce qui introduit une nouvelle forme d'obstacle épistémologique, qualifiable de " scolastique ". Coexistent ainsi deux familles de pratiques de CST. La première organise le dialogue entre scientifiques et profanes, sans remettre en cause ce clivage. La seconde favorise l'appropriation de savoirs scientifiques et de méthodes en s'autorisant à le transgresser. Alors que la première s'intéresse à la démocratie technoscientifique et non aux questions cognitives, la seconde est portée par des courants de l'éducation populaire et de l'autodirection. Ceux-ci militent pour des " savoirs choisis " et des apprenances à visée d'émancipation, par exemple pour gérer au mieux une maladie chronique, participer à des investigations militantes ou s'accomplir au travers de loisirs technoscientifiques expérimentaux. Mais, chacune de ces deux familles peut-elle exister sans l'autre ?

Almae Matris Studiorum Campus

Le traitement automatique des langues face aux données textuelles volumineuses et potentiellement dégradées : qu'est-ce que cela change ?

Author: Sébillot Pascale
Publication venue: De Boeck
Publication date: 01/02/2015
Field of study

National audiencePrétendre que le phénomène récent du Big Data a bouleversé théoriquement et méthodologiquement le traitement automatique des langues (TAL) serait inexact : le TAL a connu sa dernière véritable révolution à la fin des années 80 - début des années 90. C'est en effet à cette période que s'est opéré un changement de paradigme, un passage du rationalisme vers l'empirisme, avec le " remplacement " des approches symboliques, à base de règles, fondées sur l'expertise humaine par des approches empiriques fondées sur les données, où la connaissance est extraite par des techniques d'apprentissage automatique, en particulier statistique. Permis par des capacités de stockage et de traitement accrues des ordinateurs et la disponibilité de volumes conséquents de textes au format numérique, ce bouleversement, même s'il s'est étendu sur plusieurs années, a été en fait assez profond : passage d'un TAL très linguistique où l'on cherchait à comprendre - expliquer les jugements de grammaticalité dont sont capables les locuteurs natifs d'une langue, construire et manipuler des représentations assez élaborées du sens... - à un TAL " très statistique " où l'on fait émerger des connaissances grâce à l'observation à grande échelle, au comptage..., et où l'on extrait des représentations de " sens utile " pour des traitements applicatifs. Affirmer que les volumes actuels de données à l'échelle du Big Data n'ont eu et n'ont aucun impact sur le TAL serait cependant également faux. Les données textuelles à traiter se déclinent à l'aune des 3 V (variété, volume, vélocité). Elles consistent bien sûr en des documents écrits, pages Web, emails et autres textes " traditionnels ", mais également en contenus de blogs, de réseaux sociaux, en sms, en documents audio transcrits automatiquement, ce qui correspond donc à des types et des qualités de langue très divers. Pour ne citer que quelques chiffres donnant tant une idée des volumes que de la vitesse d'évolution de ceux-ci, nous pouvons par exemple nous référer à ceux de Go-globe.com de juin 2011, cités à davidfayon.fr/2011/croissance-du-web-une-minute, qui, quoique un peu anciens, sont déjà extrêmement parlants : création par minute de 60 blogs, de 98000 messages sur Twitter, de 510000 commentaires sur Facebook, de 168 millions d'emails ou de 600 vidéos sur YouTube. À l'heure actuelle, ces nombres sont encore plus impressionnants. Ces volumes énormes de données textuelles ont accru le phénomène décrit précédemment de passage du TAL à l'empirisme, accompagné du renforcement de certains champs du domaine - parfois avec un regard nouveau - et de l'émergence d'applications nouvelles. Dans ce chapitre, nous revenons en détail sur l'impact de ce déluge de données sur le TAL en débutant par un rappel des spécificités des données textuelles au sein de ce monde du Big Data dans lequel les données volumineuses auxquelles il est fait référence sont fréquemment (semi-)structurées ; ceci nous permet de mieux comprendre l'intérêt mais aussi la difficulté d'accéder au contenu sémantique de ces données particulières. Nous nous penchons ensuite sur la façon dont les chercheurs en TAL représentent et exploitent ces données massives pour en faire émerger la connaissance utile pour l'objectif visé. Nous présentons ensuite successivement d'une part des applications qui tentent de trouver des solutions pour faire face au déluge de données disponibles, d'autre part certaines qui, elles, cherchent à tirer profit de cette masse d'informations et à exploiter sa redondance. Nous concluons en rappelant les grandes lignes de l'évolution du TAL

HAL-CentraleSupelec

INRIA a CCSD electronic archive server

HAL-Rennes 1

Répondre à des questions à réponses multiples sur le Web

Author: FALCO Mathieu-Henri
VILNAT Anne
Publication venue
Publication date: 01/01/2014
Field of study

Les systèmes de question-réponse renvoient une réponse précise à une question formulée en langue naturelle. Les systèmes de question-réponse actuels, ainsi que les campagnes d'évaluation les évaluant, font en général l'hypothèse qu'une seule réponse est attendue pour une question. Or nous avons constaté que, souvent, ce n'était pas le cas, surtout quand on cherche les réponses sur le Web et non dans une collection finie de documents.Nous nous sommes donc intéressés au traitement des questions attendant plusieurs réponses à travers un système de question-réponse sur le Web en français. Pour cela, nous avons développé le système Citron capable d'extraire des réponses multiples différentes à des questions factuelles en domaine ouvert, ainsi que de repérer et d'extraire le critère variant (date, lieu) source de la multiplicité des réponses. Nous avons montré grâce à notre étude de différents corpus que les réponses à de telles questions se trouvaient souvent dans des tableaux ou des listes mais que ces structures sont difficilement analysables automatiquement sans prétraitement. C'est pourquoi, nous avons également développé l'outil Kitten qui permet d'extraire le contenu des documents HTML sous forme de texte et aussi de repérer, analyser et formater ces structures. Enfin, nous avons réalisé deux expériences avec des utilisateurs. La première expérience évaluait Citron et les êtres humains sur la tâche d'extraction de réponse multiples : les résultats ont montré que Citron était plus rapide que les êtres humains et que l'écart entre la qualité des réponses de Citron et celle des utilisateurs était raisonnable. La seconde expérience a évalué la satisfaction des utilisateurs concernant la présentation de réponses multiples : les résultats ont montré que les utilisateurs préféraient la présentation de Citron agrégeant les réponses et y ajoutant un critère variant (lorsqu'il existe) par rapport à la présentation utilisée lors des campagnes d'évaluation.Question answering systems find and extract a precise answer to a question in natural language. Both current question-answering systems and evaluation campaigns often assume that only one single answeris expected for a question. Our corpus studies show that this is rarely the case, specially when answers are extracted from the Web instead of a frozen collection of documents.We therefore focus on questions expecting multiple correct answers fromthe Web by developping the question-answering system Citron. Citron is dedicated to extracting multiple answers in open domain and identifying theshifting criteria (date, location) which is often the reason of this answer multiplicity Our corpus studies show that the answers of this kind of questions are often located in structures such as tables and lists which cannot be analysed without a suitable preprocessing. Consequently we developed the Kitten software which aims at extracting text information from HTML documents and also both identifying and formatting these structures.We finally evaluate Citron through two experiments involving users. Thefirst experiment evaluates both Citron and human beings on a multipleanswer extraction task: results show that Citron was faster than humans andthat the quality difference between answers extracted by Citron andhumans was reasonable. The second experiment evaluates user satisfaction regarding the presentation of multiple answers: results show that user shave a preference for Citron presentation aggregating answers and adding the shifting criteria (if it exists) over the presentation used by evaluation campaigns.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

OpenGrey Repository

Etude de l'ambiguïté des requêtes dans un moteur de recherche spécialisé dans l'actualité : exploitation d'indices contextuels

Author: Lalleman Fanny
Publication venue: HAL CCSD
Publication date: 26/11/2013
Field of study

In this thesis, we consider the question of the ambiguity of queries submitted to a search engine in a particular area that is news.We build on recent work in the field of information retrieval (IR) that showed the addition of contextual information to better identify and address more adequately the information need. On this basis, we make the hypothesis that the elements of information available in an application of IR (contexts in the collection of documents, repetitions and reformulations of queries, diachronic dimension of the search) can help us to examine this problem of ambiguity. We also postulate that ambiguity will manifest in the results returned by a search engine. In this purpose to evaluate these hypotheses, we set up a device to study the ambiguity of queries based on a method of thematic categorization of queries, which relies on an expert categorization. We then show that this ambiguity is different which is indicated by an encyclopedic resources such as Wikipedia.We evaluate this categorization device by setting up two user tests. Finally, we carry out a study based on a set of contextual clues in order to understand the global behavior of a query.Dans cette thèse, nous envisageons la question de l’ambiguïté des requêtes soumises à un moteur de recherche dans un domaine particulier qui est l’actualité. Nous nous appuyons sur les travaux récents dans le domaine de la recherche d’information (RI) qui ont montré l’apport d’informations contextuelles pour mieux cerner et traiter plus adéquatement le besoin informationnel. Nous faisons ainsi l’hypothèse que les éléments d’information disponibles dans une application de RI (contextes présents dans la base documentaire, répétitions et reformulations de requêtes, dimension diachronique de la recherche) peuvent nous aider à étudier ce problème d’ambiguïté. Nous faisons également l’hypothèse que l’ambiguïté va se manifester dans les résultats ramenés par un moteur de recherche. Dans ce but, nous avons mis en place un dispositif pour étudier l’ambiguïté des requêtes reposant sur une méthode de catégorisation thématique des requêtes, qui s’appuie sur unecatégorisation experte. Nous avons ensuite montré que cette ambiguïté est différente de celle repérée par une ressource encyclopédique telle que Wikipédia. Nous avons évalué ce dispositif de catégorisation en mettant en place deux tests utilisateurs. Enfin, nous fournissons une étude basée sur un faisceau d’indices contextuels afin de saisir le comportement global d’une requête

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes