Search CORE

845 research outputs found

Évaluation de la contextualisation de tweets

Author: Bellot Patrice
Moriceau Véronique
Mothe Josiane
Sanjuan Eric
Tannier Xavier
Publication venue: HAL CCSD
Publication date: 01/01/2013
Field of study

National audienceCet article s'intéresse à l'évaluation de la contextualisation de tweets. La contextualisation est définie comme un résumé permettant de remettre en contexte un texte qui, de par sa taille, ne contient pas l'ensemble des éléments qui permettent à un lecteur de comprendre tout ou partie de son contenu. Nous définissons un cadre d'évaluation pour la contextualisation de tweets généralisable à d'autres textes courts. Nous proposons une collection de référence ainsi que des mesures d'évaluation adhoc. Ce cadre d'évaluation a été expérimenté avec succès dans la contexte de la campagne INEX Tweet Contextualization. Au regard des résultats obtenus lors de cette campagne, nous discutons ici les mesures utilisées en lien avec les autres mesures de la littérature

Scientific Publications of the University of Toulouse II Le Mirail

HAL AMU

Open Archive Toulouse Archive Ouverte

Contextualisation automatique de Tweets à partir de Wikipédia

Author: Boudin Florian
Deveaud Romain
Publication venue: HAL CCSD
Publication date: 03/04/2013
Field of study

National audienceLes réseaux sociaux sont au centre des communications sur internet et une grande partie des échanges communautaires se fait à travers eux. Parmi eux, l'apparition de Twitter a donné lieu à la création d'un nouveau type de partage d'informations où les messages sont limités à 140 caractères. Les utilisateurs de ce réseau s'expriment donc succinctement, souvent en temps réel à partir d'un smartphone, et la teneur des messages peut parfois être difficile à comprendre sans contexte. Nous proposons dans cet article une méthode permettant de contextualiser automatiquement des Tweets en utilisant des informations provenant directement de l'encyclopédie en ligne Wikipédia, avec comme but final de répondre à la question : " De quoi parle ce Tweet ? ". Nous traitons ce problème comme une approche de résumé automatique où le texte à résumer est composé d'articles Wikipédia liés aux différentes informations exprimées dans un Tweet. Nous explorons l'influence de différentes méthodes de recherche d'articles liés aux Tweets, ainsi que de plusieurs caractéristiques utiles pour la sélection des phrases formant le contexte. Nous évaluons notre approche en utilisant la collection de la tâche Tweet Contextualization d'INEX 2012 et donnons un aperçu sur ce qui caractérise une phrase importante pour déterminer le contexte d'un Tweet

De quoi parle ce Tweet? Résumer Wikipédia pour contextualiser des microblogs

Author: Boudin Florian
Deveaud Romain
Publication venue: Cépaduès
Publication date: 01/01/2014
Field of study

International audienceLes réseaux sociaux sont au centre des communications sur internet et une grande partie des échanges communautaires se fait à travers eux.Parmi eux, l'apparition de Twitter a donné lieu à la création d'un nouveau type de partage d'informations où les messages sont limités à 140 caractères. Les utilisateurs de ce réseau s'expriment donc succinctement, souvent en temps réel à partir d'un smartphone, et la teneur des messages peut parfois être difficile à comprendre sans contexte. Nous proposons dans cet article une méthode permettant de contextualiser automatiquement des Tweets en utilisant des informations provenant directement de l'encyclopédie en ligne Wikipédia, avec comme but final de répondre à la question : De quoi parle ce Tweet?. Nous traitons ce problème comme une approche de résumé automatique où le texte à résumer est composé d'articles Wikipédia liés aux différentes informations exprimées dans un Tweet. Nous explorons l'influence de différentes méthodes de recherche d'articles liés aux Tweets, ainsi que de plusieurs caractéristiques utiles pour la sélection des phrases formant le contexte. Nous évaluons notre approche en utilisant la collection de la tâche Tweet Contextualization d'INEX 2012 et donnons un aperçu sur ce qui caractérise une phrase importante pour déterminer le contexte d'un Tweet

Tweet Contextualization Based on Wikipedia and Dbpedia

Author: Berrut Catherine
Latiri Chiraz
Mulhem Philippe
Slimani Yahya
Zingla Meriem Amina
Publication venue: HAL CCSD
Publication date: 09/03/2016
Field of study

National audienceBound to 140 characters, tweets are short and not written maintaining formal grammar and proper spelling. These spelling variations increase the likelihood of vocabulary mismatch and make them difficult to understand without context. This paper falls under the tweet contextualization task that aims at providing, automatically, a summary that explains a given tweet, allowing a reader to understand it. We propose different tweet expansion approaches based on Wikipeda and Dbpedia as external knowledge sources. These proposed approaches are divided into two steps. The first step consists in generating the candidate terms for a given tweet, while the second one consists in ranking and selecting these candidate terms using asimilarity measure. The effectiveness of our methods is proved through an experimental study conducted on the INEX 2014 collection

Hal - Université Grenoble Alpes

Las presentaciones en los congresos twitter: un análisis retórico y semiótico de un género digital emergente

Author: Villares Rosana
Publication venue: Universidad de Sevilla
Publication date: 01/01/2022
Field of study

One of the main responsibilities of researchers is the circulation and dissemination of scientific knowledge. However, this task has evolved over time, and new forms of digital communication have emerged. This study explores the science communication strategies used by researchers in an emerging digital genre, the Twitter conference presentation. A corpus of 55 presentations (300 tweets) was analysed under the theoretical and methodological lenses of genre analysis and semiotic resources analysis. Results showed that researchers relied on their previous rhetorical knowledge of other spoken research genres at the macrostructural level, while the micro-structural level encompassed a higher level of rhetorical dynamism. Concerning semiotic resources, embedding attachments in the form of images and hyperlinks was the preferred strategy by the authors. The most common interrelation functions between text and other semiotic resources were concurrence and complementarity. Consequently, the authors were able to reinforce the ideas mentioned in the text and offer additional information to further explore their research topics. This study’s findings contribute to the ongoing investigation of science communication with the description and analysis of emerging digital genres.Entre las responsabilidades de los investigadores se encuentra la comunicación y difusión del conocimiento científico. Sin embargo, esta tarea ha ido evolucionando con el tiempo y han surgido nuevas formas de comunicación digital. Este estudio explora las estrategias de comunicación de ciencia empleadas por los científicos en un género digital emergente, las presentaciones en los congresos Twitter. Un corpus de 55 presentaciones (300 tweets) se analizó empleando los marcos teóricos y metodológicos del análisis de género y de recursos semióticos. Los resultados muestran que los investigadores reutilizaron su conocimiento previo de otros géneros académicos orales en el nivel macro-estructural mientras que en el nivel micro-estructural se encontró un mayor dinamismo retórico. Con respecto a los recursos semióticos, la estrategia más empleada por los autores fue el uso de imágenes e hipervínculos. Las interrelaciones más comunes entre texto y otros recursos semióticos fueron las funciones de concurrencia y complementariedad. De esta forma, gracias a la combinación de recursos, los autores pudieron reforzar las ideas mencionadas en el texto y ofrecer información adicional para continuar explorando los temas de investigación. Este estudio contribuye a la investigación actual sobre comunicación científica a través de la descripción y análisis de los géneros digitales emergentes

idUS. Depósito de Investigación Universidad de Sevilla

Las presentaciones en los congresos twitter: un análisis retórico y semiótico de un género digital emergente.

Author: Villares Rosana
Publication venue
Publication date: 01/01/2022
Field of study

One of the main responsibilities of researchers is the circulation and dissemination of scientific knowledge. However, this task has evolved over time, and new forms of digital communication have emerged. This study explores the science communication strategies used by researchers in an emerging digital genre, the Twitter conference presentation. A corpus of 55 presentations (300 tweets) was analysed under the theoretical and methodological lenses of genre analysis and semiotic resources analysis. Results showed that researchers relied on their previous rhetorical knowledge of other spoken research genres at the macro- structural level, while the micro-structural level encompassed a higher level of rhetorical dynamism. Concerning semiotic resources, embedding attachments in the form of images and hyperlinks was the preferred strategy by the authors. The most common interrelation functions between text and other semiotic resources were concurrence and complementarity. Consequently, the authors were able to reinforce the ideas mentioned in the text and offer additional information to further explore their research topics. This study’s findings contribute to the ongoing investigation of science communication with the description and analysis of emerging digital genres. Entre las responsabilidades de los investigadores se encuentra la comunicación y difusión del conocimiento científico. Sin embargo, esta tarea ha ido evolucionando con el tiempo y han surgido nuevas formas de comunicación digital. Este estudio explora las estrategias de comunicación de ciencia empleadas por los científicos en un género digital emergente, las presentaciones en los congresos Twitter. Un corpus de 55 presentaciones (300 tweets) se analizó empleando los marcos teóricos y metodológicos del análisis de género y de recursos semióticos. Los resultados muestran que los investigadores reutilizaron su conocimiento previo de otros géneros académicos orales en el nivel macro-estructural mientras que en el nivel micro-estructural se encontró un mayor dinamismo retórico. Con respecto a los recursos semióticos, la estrategia más empleada por los autores fue el uso de imágenes e hipervínculos. Las interrelaciones más comunes entre texto y otros recursos semióticos fueron las funciones de concurrencia y complementariedad. De esta forma, gracias a la combinación de recursos, los autores pudieron reforzar las ideas mencionadas en el texto y ofrecer información adicional para continuar explorando los temas de investigación. Este estudio contribuye a la investigación actual sobre comunicación científica a través de la descripción y análisis de los géneros digitales emergentes

Repositorio Universidad de Zaragoza

BCS SGAI SMA 2013: the BCS SGAI workshop on social media analysis

Author
Publication venue: M. Jeusfeld
Publication date: 01/01/2013
Field of study

Portsmouth University Research Portal (Pure)

Optimism and pessimism analysis using deep learning on COVID-19 related twitter conversations

Author: Blanco Gonzalez Guillermo
GARCIA LOURENÇO Analia Maria
Publication venue: 'Elsevier BV'
Publication date: 16/11/2022
Field of study

Financiado para publicación en acceso aberto: Universidade de Vigo/CISUGThis paper proposes a new deep learning approach to better understand how optimistic and pessimistic feelings are conveyed in Twitter conversations about COVID-19. A pre-trained transformer embedding is used to extract the semantic features and several network architectures are compared. Model performance is evaluated on two new, publicly available Twitter corpora of crisis-related posts. The best performing pessimism and optimism detection models are based on bidirectional long- and short-term memory networks. Experimental results on four periods of the COVID-19 pandemic show how the proposed approach can model optimism and pessimism in the context of a health crisis. There is a total of 150,503 tweets and 51,319 unique users. Conversations are characterised in terms of emotional signals and shifts to unravel empathy and support mechanisms. Conversations with stronger pessimistic signals denoted little emotional shift (i.e. 62.21% of these conversations experienced almost no change in emotion). In turn, only 10.42% of the conversations laying more on the optimistic side maintained the mood. User emotional volatility is further linked with social influence.Xunta de Galicia | Ref. ED431C2018/55-GRCMinisterio de Ciencia e Innovación | Ref. PID2020–113673RB-I00Xunta de Galicia y European Regional Development Fund | Ref. ED431G2019/06Fundação para a Ciência e a Tecnologia | Ref. UIDB/04469/202

Investigo

Vers une représentation du contexte thématique en Recherche d'Information

Author: BELLOT Patrice
DEVEAUD Romain
SANJUAN Eric
Publication venue
Publication date: 01/01/2013
Field of study

Quand des humains cherchent des informations au sein de bases de connaissancesou de collections de documents, ils utilisent un système de recherche d information(SRI) faisant office d interface. Les utilisateurs doivent alors transmettre au SRI unereprésentation de leur besoin d information afin que celui-ci puisse chercher des documentscontenant des informations pertinentes. De nos jours, la représentation du besoind information est constituée d un petit ensemble de mots-clés plus souvent connu sousla dénomination de requête . Or, quelques mots peuvent ne pas être suffisants pourreprésenter précisément et efficacement l état cognitif complet d un humain par rapportà son besoin d information initial. Sans une certaine forme de contexte thématiquecomplémentaire, le SRI peut ne pas renvoyer certains documents pertinents exprimantdes concepts n étant pas explicitement évoqués dans la requête.Dans cette thèse, nous explorons et proposons différentes méthodes statistiques, automatiqueset non supervisées pour la représentation du contexte thématique de larequête. Plus spécifiquement, nous cherchons à identifier les différents concepts implicitesd une requête formulée par un utilisateur sans qu aucune action de sa part nesoit nécessaire. Nous expérimentons pour cela l utilisation et la combinaison de différentessources d information générales représentant les grands types d informationauxquels nous sommes confrontés quotidiennement sur internet. Nous tirons égalementparti d algorithmes de modélisation thématique probabiliste (tels que l allocationde Dirichlet latente) dans le cadre d un retour de pertinence simulé. Nous proposonspar ailleurs une méthode permettant d estimer conjointement le nombre de conceptsimplicites d une requête ainsi que l ensemble de documents pseudo-pertinent le plusapproprié afin de modéliser ces concepts. Nous évaluons nos approches en utilisantquatre collections de test TREC de grande taille. En annexes, nous proposons égalementune approche de contextualisation de messages courts exploitant des méthodesde recherche d information et de résumé automatiqueWhen searching for information within knowledge bases or document collections,humans use an information retrieval system (IRS). So that it can retrieve documentscontaining relevant information, users have to provide the IRS with a representationof their information need. Nowadays, this representation of the information need iscomposed of a small set of keywords often referred to as the query . A few wordsmay however not be sufficient to accurately and effectively represent the complete cognitivestate of a human with respect to her initial information need. A query may notcontain sufficient information if the user is searching for some topic in which she is notconfident at all. Hence, without some kind of context, the IRS could simply miss somenuances or details that the user did not or could not provide in query.In this thesis, we explore and propose various statistic, automatic and unsupervisedmethods for representing the topical context of the query. More specifically, we aim toidentify the latent concepts of a query without involving the user in the process norrequiring explicit feedback. We experiment using and combining several general informationsources representing the main types of information we deal with on a dailybasis while browsing theWeb.We also leverage probabilistic topic models (such as LatentDirichlet Allocation) in a pseudo-relevance feedback setting. Besides, we proposea method allowing to jointly estimate the number of latent concepts of a query andthe set of pseudo-relevant feedback documents which is the most suitable to modelthese concepts. We evaluate our approaches using four main large TREC test collections.In the appendix of this thesis, we also propose an approach for contextualizingshort messages which leverages both information retrieval and automatic summarizationtechniquesAVIGNON-Bib. numérique (840079901) / SudocSudocFranceF

OpenGrey Repository

Analyse de l’image de marque sur le Web 2.0

Author: Cossu Jean-Valère
Publication venue: HAL CCSD
Publication date: 16/12/2015
Field of study

Analyse of entities representation over the Web 2.0Every day, millions of people publish their views on Web 2.0 (social networks,blogs, etc.). These comments focus on subjects as diverse as news, politics,sports scores, consumer objects, etc. The accumulation and agglomerationof these notices on an entity (be it a product, a company or a public entity) givebirth to the brand image of that entity. Internet has become in recent years aprivileged place for the emergence and dissemination of opinions and puttingWeb 2.0 at the head of observatories of opinions. The latter being a means ofaccessing the knowledge of the opinion of the world population.The image is here understood as the idea that a person or a group of peopleis that entity. This idea carries a priori on a particular subject and is onlyvalid in context for a given time. This perceived image is different from theentity initially wanted to broadcast (eg via a communication campaign). Moreover,in reality, there are several images in the end living together in parallel onthe network, each specific to a community and all evolve differently over time(imagine how would be perceived in each camp together two politicians edgesopposite). Finally, in addition to the controversy caused by the voluntary behaviorof some entities to attract attention (think of the declarations required orshocking). It also happens that the dissemination of an image beyond the frameworkthat governed the and sometimes turns against the entity (for example,« marriage for all » became « the demonstration for all »). The views expressedthen are so many clues to understand the logic of construction and evolution ofthese images. The aim is to be able to know what we are talking about and howwe talk with filigree opportunity to know who is speaking.viiIn this thesis we propose to use several simple supervised statistical automaticmethods to monitor entity’s online reputation based on textual contentsmentioning it. More precisely we look the most important contents and theirsauthors (from a reputation manager point-of-view). We introduce an optimizationprocess allowing us to enrich the data using a simulated relevance feedback(without any human involvement). We also compare content contextualizationmethod using information retrieval and automatic summarization methods.Wealso propose a reflection and a new approach to model online reputation, improveand evaluate reputation monitoring methods using Partial Least SquaresPath Modelling (PLS-PM). In designing the system, we wanted to address localand global context of the reputation. That is to say the features can explain thedecision and the correlation betweens topics and reputation. The goal of ourwork was to propose a different way to combine usual methods and featuresthat may render reputation monitoring systems more accurate than the existingones. We evaluate and compare our systems using state of the art frameworks: Imagiweb and RepLab. The performances of our proposals are comparableto the state of the art. In addition, the fact that we provide reputation modelsmake our methods even more attractive for reputation manager or scientistsfrom various fields.Image sur le web : analyse de la dynamique des images sur le Web 2.0. En plus d’être un moyen d’accès à la connaissance, Internet est devenu en quelques années un lieu privilégié pour l’apparition et la diffusion d’opinions.Chaque jour, des millions d’individus publient leurs avis sur le Web 2.0 (réseaux sociaux, blogs, etc.). Ces commentaires portent sur des sujets aussi variés que l’actualité, la politique, les résultats sportifs, biens culturels, des objets de consommation, etc. L’amoncellement et l’agglomération de ces avis publiés sur une entité (qu’il s’agisse d’un produit, une entreprise ou une personnalité publique)donnent naissance à l’image de marque de cette entité.L’image d’une entité est ici comprise comme l’idée qu’une personne ou qu’un groupe de personnes se fait de cette entité. Cette idée porte a priori sur un sujet particulier et n’est valable que dans un contexte, à un instant donné.Cette image perçue est par nature différente de celle que l’entité souhaitait initialement diffuser (par exemple via une campagne de communication). De plus,dans la réalité, il existe au final plusieurs images qui cohabitent en parallèle sur le réseau, chacune propre à une communauté et toutes évoluant différemment au fil du temps (imaginons comment serait perçu dans chaque camp le rapprochement de deux hommes politiques de bords opposés). Enfin, en plus des polémiques volontairement provoquées par le comportement de certaines entités en vue d’attirer l’attention sur elles (pensons aux tenues ou déclarations choquantes), il arrive également que la diffusion d’une image dépasse le cadre qui la régissait et même parfois se retourne contre l’entité (par exemple, «le mariage pour tous» devenu « la manif pour tous »). Les opinions exprimées constituent alors autant d’indices permettant de comprendre la logique de construction et d’évolution de ces images. Ce travail d’analyse est jusqu’à présent confié à des spécialistes de l’e-communication qui monnaient leur subjectivité. Ces derniers ne peuvent considérer qu’un volume restreint d’information et ne sont que rarement d’accord entre eux. Dans cette thèse, nous proposons d’utiliser différentes méthodes automatiques, statistiques, supervisées et d’une faible complexité permettant d’analyser et représenter l’image de marque d’entité à partir de contenus textuels les mentionnant. Plus spécifiquement, nous cherchons à identifier les contenus(ainsi que leurs auteurs) qui sont les plus préjudiciables à l’image de marque d’une entité. Nous introduisons un processus d’optimisation automatique de ces méthodes automatiques permettant d’enrichir les données en utilisant un retour de pertinence simulé (sans qu’aucune action de la part de l’entité concernée ne soit nécessaire). Nous comparer également plusieurs approches de contextualisation de messages courts à partir de méthodes de recherche d’information et de résumé automatique. Nous tirons également parti d’algorithmes de modélisation(tels que la Régression des moindres carrés partiels), dans le cadre d’une modélisation conceptuelle de l’image de marque, pour améliorer nos systèmes automatiques de catégorisation de documents textuels. Ces méthodes de modélisation et notamment les représentations des corrélations entre les différents concepts que nous manipulons nous permettent de représenter d’une part, le contexte thématique d’une requête de l’entité et d’autre, le contexte général de son image de marque. Nous expérimentons l’utilisation et la combinaison de différentes sources d’information générales représentant les grands types d’information auxquels nous sommes confrontés sur internet : de long les contenus objectifs rédigés à des informatives, les contenus brefs générés par les utilisateurs visant à partager des opinions. Nous évaluons nos approches en utilisant deux collections de données, la première est celle constituée dans le cadre du projet Imagiweb, la seconde est la collection de référence sur le sujet : CLEFRepLa

Thèses en Ligne