64 research outputs found

    Contextualisation automatique de Tweets à partir de Wikipédia

    Get PDF
    National audienceLes réseaux sociaux sont au centre des communications sur internet et une grande partie des échanges communautaires se fait à travers eux. Parmi eux, l'apparition de Twitter a donné lieu à la création d'un nouveau type de partage d'informations où les messages sont limités à 140 caractères. Les utilisateurs de ce réseau s'expriment donc succinctement, souvent en temps réel à partir d'un smartphone, et la teneur des messages peut parfois être difficile à comprendre sans contexte. Nous proposons dans cet article une méthode permettant de contextualiser automatiquement des Tweets en utilisant des informations provenant directement de l'encyclopédie en ligne Wikipédia, avec comme but final de répondre à la question : " De quoi parle ce Tweet ? ". Nous traitons ce problème comme une approche de résumé automatique où le texte à résumer est composé d'articles Wikipédia liés aux différentes informations exprimées dans un Tweet. Nous explorons l'influence de différentes méthodes de recherche d'articles liés aux Tweets, ainsi que de plusieurs caractéristiques utiles pour la sélection des phrases formant le contexte. Nous évaluons notre approche en utilisant la collection de la tâche Tweet Contextualization d'INEX 2012 et donnons un aperçu sur ce qui caractérise une phrase importante pour déterminer le contexte d'un Tweet

    Vers une représentation du contexte thématique en Recherche d'Information

    Get PDF
    Quand des humains cherchent des informations au sein de bases de connaissancesou de collections de documents, ils utilisent un système de recherche d information(SRI) faisant office d interface. Les utilisateurs doivent alors transmettre au SRI unereprésentation de leur besoin d information afin que celui-ci puisse chercher des documentscontenant des informations pertinentes. De nos jours, la représentation du besoind information est constituée d un petit ensemble de mots-clés plus souvent connu sousla dénomination de requête . Or, quelques mots peuvent ne pas être suffisants pourreprésenter précisément et efficacement l état cognitif complet d un humain par rapportà son besoin d information initial. Sans une certaine forme de contexte thématiquecomplémentaire, le SRI peut ne pas renvoyer certains documents pertinents exprimantdes concepts n étant pas explicitement évoqués dans la requête.Dans cette thèse, nous explorons et proposons différentes méthodes statistiques, automatiqueset non supervisées pour la représentation du contexte thématique de larequête. Plus spécifiquement, nous cherchons à identifier les différents concepts implicitesd une requête formulée par un utilisateur sans qu aucune action de sa part nesoit nécessaire. Nous expérimentons pour cela l utilisation et la combinaison de différentessources d information générales représentant les grands types d informationauxquels nous sommes confrontés quotidiennement sur internet. Nous tirons égalementparti d algorithmes de modélisation thématique probabiliste (tels que l allocationde Dirichlet latente) dans le cadre d un retour de pertinence simulé. Nous proposonspar ailleurs une méthode permettant d estimer conjointement le nombre de conceptsimplicites d une requête ainsi que l ensemble de documents pseudo-pertinent le plusapproprié afin de modéliser ces concepts. Nous évaluons nos approches en utilisantquatre collections de test TREC de grande taille. En annexes, nous proposons égalementune approche de contextualisation de messages courts exploitant des méthodesde recherche d information et de résumé automatiqueWhen searching for information within knowledge bases or document collections,humans use an information retrieval system (IRS). So that it can retrieve documentscontaining relevant information, users have to provide the IRS with a representationof their information need. Nowadays, this representation of the information need iscomposed of a small set of keywords often referred to as the query . A few wordsmay however not be sufficient to accurately and effectively represent the complete cognitivestate of a human with respect to her initial information need. A query may notcontain sufficient information if the user is searching for some topic in which she is notconfident at all. Hence, without some kind of context, the IRS could simply miss somenuances or details that the user did not or could not provide in query.In this thesis, we explore and propose various statistic, automatic and unsupervisedmethods for representing the topical context of the query. More specifically, we aim toidentify the latent concepts of a query without involving the user in the process norrequiring explicit feedback. We experiment using and combining several general informationsources representing the main types of information we deal with on a dailybasis while browsing theWeb.We also leverage probabilistic topic models (such as LatentDirichlet Allocation) in a pseudo-relevance feedback setting. Besides, we proposea method allowing to jointly estimate the number of latent concepts of a query andthe set of pseudo-relevant feedback documents which is the most suitable to modelthese concepts. We evaluate our approaches using four main large TREC test collections.In the appendix of this thesis, we also propose an approach for contextualizingshort messages which leverages both information retrieval and automatic summarizationtechniquesAVIGNON-Bib. numérique (840079901) / SudocSudocFranceF

    Tweet Contextualization Based on Wikipedia and Dbpedia

    No full text
    National audienceBound to 140 characters, tweets are short and not written maintaining formal grammar and proper spelling. These spelling variations increase the likelihood of vocabulary mismatch and make them difficult to understand without context. This paper falls under the tweet contextualization task that aims at providing, automatically, a summary that explains a given tweet, allowing a reader to understand it. We propose different tweet expansion approaches based on Wikipeda and Dbpedia as external knowledge sources. These proposed approaches are divided into two steps. The first step consists in generating the candidate terms for a given tweet, while the second one consists in ranking and selecting these candidate terms using asimilarity measure. The effectiveness of our methods is proved through an experimental study conducted on the INEX 2014 collection

    Analyse de l’image de marque sur le Web 2.0

    Get PDF
    Analyse of entities representation over the Web 2.0Every day, millions of people publish their views on Web 2.0 (social networks,blogs, etc.). These comments focus on subjects as diverse as news, politics,sports scores, consumer objects, etc. The accumulation and agglomerationof these notices on an entity (be it a product, a company or a public entity) givebirth to the brand image of that entity. Internet has become in recent years aprivileged place for the emergence and dissemination of opinions and puttingWeb 2.0 at the head of observatories of opinions. The latter being a means ofaccessing the knowledge of the opinion of the world population.The image is here understood as the idea that a person or a group of peopleis that entity. This idea carries a priori on a particular subject and is onlyvalid in context for a given time. This perceived image is different from theentity initially wanted to broadcast (eg via a communication campaign). Moreover,in reality, there are several images in the end living together in parallel onthe network, each specific to a community and all evolve differently over time(imagine how would be perceived in each camp together two politicians edgesopposite). Finally, in addition to the controversy caused by the voluntary behaviorof some entities to attract attention (think of the declarations required orshocking). It also happens that the dissemination of an image beyond the frameworkthat governed the and sometimes turns against the entity (for example,« marriage for all » became « the demonstration for all »). The views expressedthen are so many clues to understand the logic of construction and evolution ofthese images. The aim is to be able to know what we are talking about and howwe talk with filigree opportunity to know who is speaking.viiIn this thesis we propose to use several simple supervised statistical automaticmethods to monitor entity’s online reputation based on textual contentsmentioning it. More precisely we look the most important contents and theirsauthors (from a reputation manager point-of-view). We introduce an optimizationprocess allowing us to enrich the data using a simulated relevance feedback(without any human involvement). We also compare content contextualizationmethod using information retrieval and automatic summarization methods.Wealso propose a reflection and a new approach to model online reputation, improveand evaluate reputation monitoring methods using Partial Least SquaresPath Modelling (PLS-PM). In designing the system, we wanted to address localand global context of the reputation. That is to say the features can explain thedecision and the correlation betweens topics and reputation. The goal of ourwork was to propose a different way to combine usual methods and featuresthat may render reputation monitoring systems more accurate than the existingones. We evaluate and compare our systems using state of the art frameworks: Imagiweb and RepLab. The performances of our proposals are comparableto the state of the art. In addition, the fact that we provide reputation modelsmake our methods even more attractive for reputation manager or scientistsfrom various fields.Image sur le web : analyse de la dynamique des images sur le Web 2.0. En plus d’être un moyen d’accès à la connaissance, Internet est devenu en quelques années un lieu privilégié pour l’apparition et la diffusion d’opinions.Chaque jour, des millions d’individus publient leurs avis sur le Web 2.0 (réseaux sociaux, blogs, etc.). Ces commentaires portent sur des sujets aussi variés que l’actualité, la politique, les résultats sportifs, biens culturels, des objets de consommation, etc. L’amoncellement et l’agglomération de ces avis publiés sur une entité (qu’il s’agisse d’un produit, une entreprise ou une personnalité publique)donnent naissance à l’image de marque de cette entité.L’image d’une entité est ici comprise comme l’idée qu’une personne ou qu’un groupe de personnes se fait de cette entité. Cette idée porte a priori sur un sujet particulier et n’est valable que dans un contexte, à un instant donné.Cette image perçue est par nature différente de celle que l’entité souhaitait initialement diffuser (par exemple via une campagne de communication). De plus,dans la réalité, il existe au final plusieurs images qui cohabitent en parallèle sur le réseau, chacune propre à une communauté et toutes évoluant différemment au fil du temps (imaginons comment serait perçu dans chaque camp le rapprochement de deux hommes politiques de bords opposés). Enfin, en plus des polémiques volontairement provoquées par le comportement de certaines entités en vue d’attirer l’attention sur elles (pensons aux tenues ou déclarations choquantes), il arrive également que la diffusion d’une image dépasse le cadre qui la régissait et même parfois se retourne contre l’entité (par exemple, «le mariage pour tous» devenu « la manif pour tous »). Les opinions exprimées constituent alors autant d’indices permettant de comprendre la logique de construction et d’évolution de ces images. Ce travail d’analyse est jusqu’à présent confié à des spécialistes de l’e-communication qui monnaient leur subjectivité. Ces derniers ne peuvent considérer qu’un volume restreint d’information et ne sont que rarement d’accord entre eux. Dans cette thèse, nous proposons d’utiliser différentes méthodes automatiques, statistiques, supervisées et d’une faible complexité permettant d’analyser et représenter l’image de marque d’entité à partir de contenus textuels les mentionnant. Plus spécifiquement, nous cherchons à identifier les contenus(ainsi que leurs auteurs) qui sont les plus préjudiciables à l’image de marque d’une entité. Nous introduisons un processus d’optimisation automatique de ces méthodes automatiques permettant d’enrichir les données en utilisant un retour de pertinence simulé (sans qu’aucune action de la part de l’entité concernée ne soit nécessaire). Nous comparer également plusieurs approches de contextualisation de messages courts à partir de méthodes de recherche d’information et de résumé automatique. Nous tirons également parti d’algorithmes de modélisation(tels que la Régression des moindres carrés partiels), dans le cadre d’une modélisation conceptuelle de l’image de marque, pour améliorer nos systèmes automatiques de catégorisation de documents textuels. Ces méthodes de modélisation et notamment les représentations des corrélations entre les différents concepts que nous manipulons nous permettent de représenter d’une part, le contexte thématique d’une requête de l’entité et d’autre, le contexte général de son image de marque. Nous expérimentons l’utilisation et la combinaison de différentes sources d’information générales représentant les grands types d’information auxquels nous sommes confrontés sur internet : de long les contenus objectifs rédigés à des informatives, les contenus brefs générés par les utilisateurs visant à partager des opinions. Nous évaluons nos approches en utilisant deux collections de données, la première est celle constituée dans le cadre du projet Imagiweb, la seconde est la collection de référence sur le sujet : CLEFRepLa

    Analyse comparative de la terminologie des médias sociaux : contribution des domaines de la communication et de l'informatique à la néologie

    Full text link
    L’objectif de cette étude est de repérer des néologismes à partir de corpus de textes français au moyen d’une méthode semi-automatique. Plus précisément, nous extrayons les néologismes de corpus associés à deux domaines différents, mais traitant du même thème, nous examinons leur répartition et nous les classons selon leur type. L’étude s’appuie sur l’analyse de corpus traitant des médias sociaux. Le premier aborde les médias sociaux du point de vue de la communication, l’autre le fait du point de vue de l’informatique. Ces points de vue ont été privilégiés, car la communication considère ce qui a trait l’utilisation des médias sociaux et l’informatique aborde leur cartographie. La méthode fait appel à l’extracteur de termes TermoStat pour recenser la terminologie des médias sociaux pour chaque point de vue. Ensuite, nous soumettons les 150 termes les plus spécifiques de chaque point de vue à une méthode de validation divisée en trois tests destinés à valider leur statut néologique : des dictionnaires spécialisés, des dictionnaires de langue générale et un outil de visualisation de n-grammes. Finalement, nous étiquetons les néologismes selon la typologie de Dubuc (2002). L’analyse des résultats de la communication et de l’informatique est comparative. La comparaison des deux corpus révèle les contributions respectives de la communication et de l'informatique à la terminologie des médias sociaux en plus de montrer les termes communs aux deux disciplines. L’étude a également permis de repérer 60 néologismes, dont 28 sont exclusifs au corpus de la communication, 28 exclusifs à celui de l’informatique et 4 communs aux deux corpus. La recherche révèle également que les composés par subordination sont les types de néologismes les plus présents dans nos résultats.The objective of this study is to identify the neologisms within corpora of French texts by means of a semi-automatic method. More precisely, we will extract the neologisms from corpora associated to two different areas; however dealing with the same topic, we examine their distribution and we classify them according to their type. This study is based on an analysis of two corpora within social media. The first one approaches social media from the point of view of communication, and the other approaches it from the point of view of computer science. We prioritize these two points of view being that communication is used as the main source of social media’s utilization and that computer science allows us to understand what is involved to allow for social media to be functional. For this method, we use the TermoStat term extractor in order to take census of terminology for each point of view. We then submit 150 of the most specific terms related to each point of view by way of an exclusion corpus from which we divide into three different tests meant to validate their neological status: specialized dictionaries, general language dictionaries, and a visualization tool for n-grams. Lastly, we label the neologisms according to Dubuc’s (2002) typology. The analysis of the results obtained for communication and computer science uses a comparative method. The comparison of the two corpora reveals the respective contributions from communication and computer science with respect to the terminology of social medias, as well it demonstrates common terms found within the two disciplines. This examination also allowed for the identification of 60 neologisms; of which 28 are exclusive to the corpus of communication, another 28 are exclusive to that of computer science, and four were found to be common to both corpora. This research also reveals that subordinate compounds are the most present types of neologisms according to our results

    Compression automatique de phrases (une étude vers la génération de résumés)

    Get PDF
    Cette étude présente une nouvelle approche pour la génération automatique de résumés, un des principaux défis du Traitement de la Langue Naturelle. Ce sujet, traité pendant un demi-siècle par la recherche, reste encore actuel car personne n a encore réussi à créer automatiquement des résumés comparables, en qualité, avec ceux produits par des humains. C est dans ce contexte que la recherche en résumé automatique s est divisée en deux grandes catégories : le résumé par extraction et le résumé par abstraction. Dans le premier, les phrases sont triées de façon à ce que les meilleures conforment le résumé final. Or, les phrases sélectionnées pour le résumé portent souvent des informations secondaires, une analyse plus fine s avère nécessaire.Nous proposons une méthode de compression automatique de phrases basée sur l élimination des fragments à l intérieur de celles-ci. À partir d un corpus annoté, nous avons créé un modèle linéaire pour prédire la suppression de ces fragments en fonction de caractéristiques simples. Notre méthode prend en compte trois principes : celui de la pertinence du contenu, l informativité ; celui de la qualité du contenu, la grammaticalité, et la longueur, le taux de compression. Pour mesurer l informativité des fragments,nous utilisons une technique inspirée de la physique statistique : l énergie textuelle.Quant à la grammaticalité, nous proposons d utiliser des modèles de langage probabilistes.La méthode proposée est capable de générer des résumés corrects en espagnol.Les résultats de cette étude soulèvent divers aspects intéressants vis-à- vis du résumé de textes par compression de phrases. On a observé qu en général il y a un haut degré de subjectivité de la tâche. Il n y a pas de compression optimale unique mais plusieurs compressions correctes possibles. Nous considérons donc que les résultats de cette étude ouvrent la discussion par rapport à la subjectivité de l informativité et son influence pour le résumé automatique.This dissertation presents a novel approach to automatic text summarization, one of the most challenging tasks in Natural Language Processing (NLP). Until now, no one had ever created a summarization method capable of producing summaries comparable in quality with those produced by humans. Even many of state-of-the-art approaches form the summary by selecting a subset of sentences from the original text. Since some of the selected sentences might still contain superfluous information, a finer analysis is needed. We propose an Automatic Sentence Compression method based on the elimination of intra-phrase discourse segments. Using a manually annotated big corpus, we have obtained a linear model that predicts the elimination probability of a segment on the basis of three simple three criteria: informativity, grammaticality and compression rate. We discuss the difficulties for automatic assessment of these criteria in documents and phrases and we propose a solution based on existing techniques in NLP literature, one applying two different algorithms that produce summaries with compressed sentences. After applying both algorithms in documents in Spanish, our method is able to produce high quality results. Finally, we evaluate the produced summaries using the Turing test to determine if human judges can distinguish between human-produced summaries and machine-produced summaries. This dissertation addresses many previously ignored aspects of NLP, namely the subjectivity of informativity, the sentence compression in Spanish documents, and the evaluation of NLP using the Turing test.AVIGNON-Bib. numérique (840079901) / SudocSudocFranceF

    Évaluer l'information sur le web, peut-on arriver à une pertinence sociocognitive satisfaisante ?

    Get PDF
    Evaluer l'information sur le web est un nouveau paradigme cognitif. La profusion des documents, des supports, leurs interconnections, modifient en profondeur nos façons de chercher une information, nos stratégies d'évaluation et d'appropriation et donc nos schèmes cognitifs. La contextualisation et l'identification sont des tâches plus complexes sur le web, de par la nature protéiforme et pluriculturelle de l'information. Les mécanismes de lecture traditionnels ne sont plus opérants dans un espace virtuel sans limites, dé-temporalisé et graphiquement instable. Les mécanismes d'évaluation de l'information, comme la construction de ses autorités informationnelles ou de la pérennité de ses autorités cognitives, prennent maintenant une dimension collective qui passe systématiquement par une redocumentarisation et un brassage des taxonomies personnelles

    Les archives de l\u27internet - une étude prospective sur les représentations et les attentes des utilisateurs potentiels

    Get PDF
    Une étude qualitative a été conduite fin 2010–début 2011 par la délégation à la Stratégie et à la recherche de la Bibliothèque nationale de France (BnF), en lien avec la direction des Collections et la direction des Services et des réseaux de la BnF, auprès de publics potentiels des archives de l’Internet afin d’explorer leurs besoins en termes de contenus et de services. Il s’agissait également d’analyser leurs représentations de ces archives pour identifier les moyens permettant d’accroître leur consultation. Quinze entretiens ont été réalisés au sein de trois populations : 1) chercheurs (histoire, philosophie, sociologie, sciences et techniques), 2) professionnels (avocat, consultant marketing, documentaliste, ingénieur brevet, journaliste), 3) le « tout venant » de la bibliothèque de Recherche sur le site François-Mitterrand. Les chercheurs interrogés travaillent dans un univers web dont ils reconnaissent à la fois la richesse et la volatilité. Si l’intérêt d’une mémoire du web leur paraît évident, ils se heurtent à la difficulté de définir et circonscrire, dans un espace qui semble illimité, des corpus significatifs. Face à cette difficulté, la BnF est perçue comme un tiers de confiance capable de garantir au chercheur l’accès à des collections raisonnées et documentées. Les chercheurs ont également besoin que l’histoire du web, aujourd’hui disséminée dans les souvenirs de quelques spécialistes, soit reconnue, préservée et partagée. Les archives soulèvent cependant pour les chercheurs des questions éthiques et méthodologiques : - tout sur le web n’est pas de l’ordre d’une publication mise à disposition d’un public. En particulier, ce qui relève d’actions personnelles (discuter, acheter, participer à des réseaux sociaux, etc.) apparaît impropre à l’archivage, même s’il constitue un lieu d’observation particulièrement riche pour l’historien et le sociologue ; - archiver un flux semble impossible, voire paradoxal. Les archives du web requièrent un effort de définition et de modélisation préalable, car elles ne peuvent être assimilées à une archive traditionnelle renvoyant à des unités documentaires stables : le « site », capturé isolément et ponctuellement, peut difficilement jouer ce rôle, car c’est son inscription dans un réseau et dans le temps qui intéresse d’abord les chercheurs. En outre, il n’existe pas encore de méthodologie bien définie pour analyser et utiliser les sources du web, si bien que les chercheurs hésitent à manipuler ce type de matériau. Les entretiens avec les professionnels et le « tout venant » de la bibliothèque de Recherche ont permis de relever la présence de représentations concurrentes qui viennent brouiller la perception de ce que sont les archives du web. Les moteurs de recherche, mais aussi les archives en ligne proposées par certains sites comme les blogs donnent l’illusion à l’internaute que le web s’auto-archive. Pour ces deux catégories de public, les archives de l’Internet doivent préalablement démontrer leur pertinence face à un réseau qui semble déjà d’une profondeur e

    Traitement de la migration et du migrant dans le discours du Rassemblement National et de la Ligue lors des élections européennes de 2019

    Get PDF
    This thesis aims at a comparative analysis of the anti-migrant political discourse of the (French) Rassemblement National and the (Italian) League. In particular, it focuses on the discourses conducted on Twitter, by the main members of these two parties, during the 2019 European elections. This period was characterized by the rapprochement of the two parties and by the many arrivals that led to a resurgence of the debate on migration throughout Europe. The objective is to study the anti-migrant discourses of both parties in order to highlight their differences and similarities, while taking into account the particularities of the discursive place. To achieve this, we posed the following questions: do the similarities depend on the canons of the populist discourse of the European right-wing parties or on the rapprochement of the two parties? Are the differences due to political choices, to linguistic specificities or to the historical-cultural context of each country? To this end, we have created a vast corpus of almost 50,000 tweets posted by the main members of both parties in a period ranging from one year before to one year after the 2019 European elections. To answer these fundamental questions, we used several methods: a lexicometric analysis (using corpus statistical processing software) to determine the semantic universes and the positions of the speakers involved; an enunciative analysis to identify the locutive behaviors of the actors and an argumentative analysis in order to highlight the logics and the reasoning that characterize these positions.Cette thèse a pour objet l’analyse comparative du discours politique anti-migrants du Rassemblement National (français ) et de la Ligue (italienne) En particulier elle se focalise sur les discours menés sur Twitter, par les principaux membres de ces deux partis, lors des élections européennes de 2019, qui a été une période caractérisée par le rapprochement des deux partis et par les nombreux débarquements qui ont porté à un resurgissement du débat sur la migration partout en Europe Notre objectif est d’étudier les discours anti-migrants des deux partis afin d’en faire ressortir les différences et les similitudes tout en prenant toutefois en compte les particularités du lieu discursif. Pour ce faire nous nous sommes posé les questions suivantes : les similarités dépendent-elles des canons du discours populistes des partis de droite européens ou du rapprochement des deux partis ? les différences sont-elles plutôt dues à des choix politiques, à des particularités linguistiques ou au contexte historico-culturel de chaque pays ? A ce but, nous avons créé un vaste corpus de presque 50mille tweets postés par le principaux membres des deux partis dans une période allant d’un an avant à un an après les élections européennes de 2019. Pour répondre à nos interrogations fondamentales nous avons fait recours à plusieurs méthodes : une analyse lexicométrique (en utilisant des logiciels de traitement statistique des corpus) afin de déterminer les univers sémantiques et les positionnements des locuteurs impliqués ; une analyse énonciative pour cerner les comportements locutifs des acteurs et une analyse argumentative dans le but de mettre en évidence les logiques et les raisonnements qui caractérisent les dits positionnements
    • …
    corecore