845 research outputs found

    Évaluation de la contextualisation de tweets

    Get PDF
    National audienceCet article s'intéresse à l'évaluation de la contextualisation de tweets. La contextualisation est définie comme un résumé permettant de remettre en contexte un texte qui, de par sa taille, ne contient pas l'ensemble des éléments qui permettent à un lecteur de comprendre tout ou partie de son contenu. Nous définissons un cadre d'évaluation pour la contextualisation de tweets généralisable à d'autres textes courts. Nous proposons une collection de référence ainsi que des mesures d'évaluation adhoc. Ce cadre d'évaluation a été expérimenté avec succÚs dans la contexte de la campagne INEX Tweet Contextualization. Au regard des résultats obtenus lors de cette campagne, nous discutons ici les mesures utilisées en lien avec les autres mesures de la littérature

    Contextualisation automatique de Tweets à partir de Wikipédia

    Get PDF
    National audienceLes rĂ©seaux sociaux sont au centre des communications sur internet et une grande partie des Ă©changes communautaires se fait Ă  travers eux. Parmi eux, l'apparition de Twitter a donnĂ© lieu Ă  la crĂ©ation d'un nouveau type de partage d'informations oĂč les messages sont limitĂ©s Ă  140 caractĂšres. Les utilisateurs de ce rĂ©seau s'expriment donc succinctement, souvent en temps rĂ©el Ă  partir d'un smartphone, et la teneur des messages peut parfois ĂȘtre difficile Ă  comprendre sans contexte. Nous proposons dans cet article une mĂ©thode permettant de contextualiser automatiquement des Tweets en utilisant des informations provenant directement de l'encyclopĂ©die en ligne WikipĂ©dia, avec comme but final de rĂ©pondre Ă  la question : " De quoi parle ce Tweet ? ". Nous traitons ce problĂšme comme une approche de rĂ©sumĂ© automatique oĂč le texte Ă  rĂ©sumer est composĂ© d'articles WikipĂ©dia liĂ©s aux diffĂ©rentes informations exprimĂ©es dans un Tweet. Nous explorons l'influence de diffĂ©rentes mĂ©thodes de recherche d'articles liĂ©s aux Tweets, ainsi que de plusieurs caractĂ©ristiques utiles pour la sĂ©lection des phrases formant le contexte. Nous Ă©valuons notre approche en utilisant la collection de la tĂąche Tweet Contextualization d'INEX 2012 et donnons un aperçu sur ce qui caractĂ©rise une phrase importante pour dĂ©terminer le contexte d'un Tweet

    De quoi parle ce Tweet? Résumer Wikipédia pour contextualiser des microblogs

    Get PDF
    International audienceLes rĂ©seaux sociaux sont au centre des communications sur internet et une grande partie des Ă©changes communautaires se fait Ă  travers eux.Parmi eux, l'apparition de Twitter a donnĂ© lieu Ă  la crĂ©ation d'un nouveau type de partage d'informations oĂč les messages sont limitĂ©s Ă  140 caractĂšres. Les utilisateurs de ce rĂ©seau s'expriment donc succinctement, souvent en temps rĂ©el Ă  partir d'un smartphone, et la teneur des messages peut parfois ĂȘtre difficile Ă  comprendre sans contexte. Nous proposons dans cet article une mĂ©thode permettant de contextualiser automatiquement des Tweets en utilisant des informations provenant directement de l'encyclopĂ©die en ligne WikipĂ©dia, avec comme but final de rĂ©pondre Ă  la question : De quoi parle ce Tweet?. Nous traitons ce problĂšme comme une approche de rĂ©sumĂ© automatique oĂč le texte Ă  rĂ©sumer est composĂ© d'articles WikipĂ©dia liĂ©s aux diffĂ©rentes informations exprimĂ©es dans un Tweet. Nous explorons l'influence de diffĂ©rentes mĂ©thodes de recherche d'articles liĂ©s aux Tweets, ainsi que de plusieurs caractĂ©ristiques utiles pour la sĂ©lection des phrases formant le contexte. Nous Ă©valuons notre approche en utilisant la collection de la tĂąche Tweet Contextualization d'INEX 2012 et donnons un aperçu sur ce qui caractĂ©rise une phrase importante pour dĂ©terminer le contexte d'un Tweet

    Tweet Contextualization Based on Wikipedia and Dbpedia

    No full text
    National audienceBound to 140 characters, tweets are short and not written maintaining formal grammar and proper spelling. These spelling variations increase the likelihood of vocabulary mismatch and make them difficult to understand without context. This paper falls under the tweet contextualization task that aims at providing, automatically, a summary that explains a given tweet, allowing a reader to understand it. We propose different tweet expansion approaches based on Wikipeda and Dbpedia as external knowledge sources. These proposed approaches are divided into two steps. The first step consists in generating the candidate terms for a given tweet, while the second one consists in ranking and selecting these candidate terms using asimilarity measure. The effectiveness of our methods is proved through an experimental study conducted on the INEX 2014 collection

    Las presentaciones en los congresos twitter: un anålisis retórico y semiótico de un género digital emergente

    Get PDF
    One of the main responsibilities of researchers is the circulation and dissemination of scientific knowledge. However, this task has evolved over time, and new forms of digital communication have emerged. This study explores the science communication strategies used by researchers in an emerging digital genre, the Twitter conference presentation. A corpus of 55 presentations (300 tweets) was analysed under the theoretical and methodological lenses of genre analysis and semiotic resources analysis. Results showed that researchers relied on their previous rhetorical knowledge of other spoken research genres at the macrostructural level, while the micro-structural level encompassed a higher level of rhetorical dynamism. Concerning semiotic resources, embedding attachments in the form of images and hyperlinks was the preferred strategy by the authors. The most common interrelation functions between text and other semiotic resources were concurrence and complementarity. Consequently, the authors were able to reinforce the ideas mentioned in the text and offer additional information to further explore their research topics. This study’s findings contribute to the ongoing investigation of science communication with the description and analysis of emerging digital genres.Entre las responsabilidades de los investigadores se encuentra la comunicaciĂłn y difusiĂłn del conocimiento cientĂ­fico. Sin embargo, esta tarea ha ido evolucionando con el tiempo y han surgido nuevas formas de comunicaciĂłn digital. Este estudio explora las estrategias de comunicaciĂłn de ciencia empleadas por los cientĂ­ficos en un gĂ©nero digital emergente, las presentaciones en los congresos Twitter. Un corpus de 55 presentaciones (300 tweets) se analizĂł empleando los marcos teĂłricos y metodolĂłgicos del anĂĄlisis de gĂ©nero y de recursos semiĂłticos. Los resultados muestran que los investigadores reutilizaron su conocimiento previo de otros gĂ©neros acadĂ©micos orales en el nivel macro-estructural mientras que en el nivel micro-estructural se encontrĂł un mayor dinamismo retĂłrico. Con respecto a los recursos semiĂłticos, la estrategia mĂĄs empleada por los autores fue el uso de imĂĄgenes e hipervĂ­nculos. Las interrelaciones mĂĄs comunes entre texto y otros recursos semiĂłticos fueron las funciones de concurrencia y complementariedad. De esta forma, gracias a la combinaciĂłn de recursos, los autores pudieron reforzar las ideas mencionadas en el texto y ofrecer informaciĂłn adicional para continuar explorando los temas de investigaciĂłn. Este estudio contribuye a la investigaciĂłn actual sobre comunicaciĂłn cientĂ­fica a travĂ©s de la descripciĂłn y anĂĄlisis de los gĂ©neros digitales emergentes

    Las presentaciones en los congresos twitter: un anålisis retórico y semiótico de un género digital emergente.

    Get PDF
    One of the main responsibilities of researchers is the circulation and dissemination of scientific knowledge. However, this task has evolved over time, and new forms of digital communication have emerged. This study explores the science communication strategies used by researchers in an emerging digital genre, the Twitter conference presentation. A corpus of 55 presentations (300 tweets) was analysed under the theoretical and methodological lenses of genre analysis and semiotic resources analysis. Results showed that researchers relied on their previous rhetorical knowledge of other spoken research genres at the macro- structural level, while the micro-structural level encompassed a higher level of rhetorical dynamism. Concerning semiotic resources, embedding attachments in the form of images and hyperlinks was the preferred strategy by the authors. The most common interrelation functions between text and other semiotic resources were concurrence and complementarity. Consequently, the authors were able to reinforce the ideas mentioned in the text and offer additional information to further explore their research topics. This study’s findings contribute to the ongoing investigation of science communication with the description and analysis of emerging digital genres. Entre las responsabilidades de los investigadores se encuentra la comunicaciĂłn y difusiĂłn del conocimiento cientĂ­fico. Sin embargo, esta tarea ha ido evolucionando con el tiempo y han surgido nuevas formas de comunicaciĂłn digital. Este estudio explora las estrategias de comunicaciĂłn de ciencia empleadas por los cientĂ­ficos en un gĂ©nero digital emergente, las presentaciones en los congresos Twitter. Un corpus de 55 presentaciones (300 tweets) se analizĂł empleando los marcos teĂłricos y metodolĂłgicos del anĂĄlisis de gĂ©nero y de recursos semiĂłticos. Los resultados muestran que los investigadores reutilizaron su conocimiento previo de otros gĂ©neros acadĂ©micos orales en el nivel macro-estructural mientras que en el nivel micro-estructural se encontrĂł un mayor dinamismo retĂłrico. Con respecto a los recursos semiĂłticos, la estrategia mĂĄs empleada por los autores fue el uso de imĂĄgenes e hipervĂ­nculos. Las interrelaciones mĂĄs comunes entre texto y otros recursos semiĂłticos fueron las funciones de concurrencia y complementariedad. De esta forma, gracias a la combinaciĂłn de recursos, los autores pudieron reforzar las ideas mencionadas en el texto y ofrecer informaciĂłn adicional para continuar explorando los temas de investigaciĂłn. Este estudio contribuye a la investigaciĂłn actual sobre comunicaciĂłn cientĂ­fica a travĂ©s de la descripciĂłn y anĂĄlisis de los gĂ©neros digitales emergentes

    Optimism and pessimism analysis using deep learning on COVID-19 related twitter conversations

    Get PDF
    Financiado para publicaciĂłn en acceso aberto: Universidade de Vigo/CISUGThis paper proposes a new deep learning approach to better understand how optimistic and pessimistic feelings are conveyed in Twitter conversations about COVID-19. A pre-trained transformer embedding is used to extract the semantic features and several network architectures are compared. Model performance is evaluated on two new, publicly available Twitter corpora of crisis-related posts. The best performing pessimism and optimism detection models are based on bidirectional long- and short-term memory networks. Experimental results on four periods of the COVID-19 pandemic show how the proposed approach can model optimism and pessimism in the context of a health crisis. There is a total of 150,503 tweets and 51,319 unique users. Conversations are characterised in terms of emotional signals and shifts to unravel empathy and support mechanisms. Conversations with stronger pessimistic signals denoted little emotional shift (i.e. 62.21% of these conversations experienced almost no change in emotion). In turn, only 10.42% of the conversations laying more on the optimistic side maintained the mood. User emotional volatility is further linked with social influence.Xunta de Galicia | Ref. ED431C2018/55-GRCMinisterio de Ciencia e InnovaciĂłn | Ref. PID2020–113673RB-I00Xunta de Galicia y European Regional Development Fund | Ref. ED431G2019/06Fundação para a CiĂȘncia e a Tecnologia | Ref. UIDB/04469/202

    Vers une représentation du contexte thématique en Recherche d'Information

    Get PDF
    Quand des humains cherchent des informations au sein de bases de connaissancesou de collections de documents, ils utilisent un systĂšme de recherche d information(SRI) faisant office d interface. Les utilisateurs doivent alors transmettre au SRI unereprĂ©sentation de leur besoin d information afin que celui-ci puisse chercher des documentscontenant des informations pertinentes. De nos jours, la reprĂ©sentation du besoind information est constituĂ©e d un petit ensemble de mots-clĂ©s plus souvent connu sousla dĂ©nomination de requĂȘte . Or, quelques mots peuvent ne pas ĂȘtre suffisants pourreprĂ©senter prĂ©cisĂ©ment et efficacement l Ă©tat cognitif complet d un humain par rapportĂ  son besoin d information initial. Sans une certaine forme de contexte thĂ©matiquecomplĂ©mentaire, le SRI peut ne pas renvoyer certains documents pertinents exprimantdes concepts n Ă©tant pas explicitement Ă©voquĂ©s dans la requĂȘte.Dans cette thĂšse, nous explorons et proposons diffĂ©rentes mĂ©thodes statistiques, automatiqueset non supervisĂ©es pour la reprĂ©sentation du contexte thĂ©matique de larequĂȘte. Plus spĂ©cifiquement, nous cherchons Ă  identifier les diffĂ©rents concepts implicitesd une requĂȘte formulĂ©e par un utilisateur sans qu aucune action de sa part nesoit nĂ©cessaire. Nous expĂ©rimentons pour cela l utilisation et la combinaison de diffĂ©rentessources d information gĂ©nĂ©rales reprĂ©sentant les grands types d informationauxquels nous sommes confrontĂ©s quotidiennement sur internet. Nous tirons Ă©galementparti d algorithmes de modĂ©lisation thĂ©matique probabiliste (tels que l allocationde Dirichlet latente) dans le cadre d un retour de pertinence simulĂ©. Nous proposonspar ailleurs une mĂ©thode permettant d estimer conjointement le nombre de conceptsimplicites d une requĂȘte ainsi que l ensemble de documents pseudo-pertinent le plusappropriĂ© afin de modĂ©liser ces concepts. Nous Ă©valuons nos approches en utilisantquatre collections de test TREC de grande taille. En annexes, nous proposons Ă©galementune approche de contextualisation de messages courts exploitant des mĂ©thodesde recherche d information et de rĂ©sumĂ© automatiqueWhen searching for information within knowledge bases or document collections,humans use an information retrieval system (IRS). So that it can retrieve documentscontaining relevant information, users have to provide the IRS with a representationof their information need. Nowadays, this representation of the information need iscomposed of a small set of keywords often referred to as the query . A few wordsmay however not be sufficient to accurately and effectively represent the complete cognitivestate of a human with respect to her initial information need. A query may notcontain sufficient information if the user is searching for some topic in which she is notconfident at all. Hence, without some kind of context, the IRS could simply miss somenuances or details that the user did not or could not provide in query.In this thesis, we explore and propose various statistic, automatic and unsupervisedmethods for representing the topical context of the query. More specifically, we aim toidentify the latent concepts of a query without involving the user in the process norrequiring explicit feedback. We experiment using and combining several general informationsources representing the main types of information we deal with on a dailybasis while browsing theWeb.We also leverage probabilistic topic models (such as LatentDirichlet Allocation) in a pseudo-relevance feedback setting. Besides, we proposea method allowing to jointly estimate the number of latent concepts of a query andthe set of pseudo-relevant feedback documents which is the most suitable to modelthese concepts. We evaluate our approaches using four main large TREC test collections.In the appendix of this thesis, we also propose an approach for contextualizingshort messages which leverages both information retrieval and automatic summarizationtechniquesAVIGNON-Bib. numĂ©rique (840079901) / SudocSudocFranceF

    Analyse de l’image de marque sur le Web 2.0

    Get PDF
    Analyse of entities representation over the Web 2.0Every day, millions of people publish their views on Web 2.0 (social networks,blogs, etc.). These comments focus on subjects as diverse as news, politics,sports scores, consumer objects, etc. The accumulation and agglomerationof these notices on an entity (be it a product, a company or a public entity) givebirth to the brand image of that entity. Internet has become in recent years aprivileged place for the emergence and dissemination of opinions and puttingWeb 2.0 at the head of observatories of opinions. The latter being a means ofaccessing the knowledge of the opinion of the world population.The image is here understood as the idea that a person or a group of peopleis that entity. This idea carries a priori on a particular subject and is onlyvalid in context for a given time. This perceived image is different from theentity initially wanted to broadcast (eg via a communication campaign). Moreover,in reality, there are several images in the end living together in parallel onthe network, each specific to a community and all evolve differently over time(imagine how would be perceived in each camp together two politicians edgesopposite). Finally, in addition to the controversy caused by the voluntary behaviorof some entities to attract attention (think of the declarations required orshocking). It also happens that the dissemination of an image beyond the frameworkthat governed the and sometimes turns against the entity (for example,« marriage for all » became « the demonstration for all »). The views expressedthen are so many clues to understand the logic of construction and evolution ofthese images. The aim is to be able to know what we are talking about and howwe talk with filigree opportunity to know who is speaking.viiIn this thesis we propose to use several simple supervised statistical automaticmethods to monitor entity’s online reputation based on textual contentsmentioning it. More precisely we look the most important contents and theirsauthors (from a reputation manager point-of-view). We introduce an optimizationprocess allowing us to enrich the data using a simulated relevance feedback(without any human involvement). We also compare content contextualizationmethod using information retrieval and automatic summarization methods.Wealso propose a reflection and a new approach to model online reputation, improveand evaluate reputation monitoring methods using Partial Least SquaresPath Modelling (PLS-PM). In designing the system, we wanted to address localand global context of the reputation. That is to say the features can explain thedecision and the correlation betweens topics and reputation. The goal of ourwork was to propose a different way to combine usual methods and featuresthat may render reputation monitoring systems more accurate than the existingones. We evaluate and compare our systems using state of the art frameworks: Imagiweb and RepLab. The performances of our proposals are comparableto the state of the art. In addition, the fact that we provide reputation modelsmake our methods even more attractive for reputation manager or scientistsfrom various fields.Image sur le web : analyse de la dynamique des images sur le Web 2.0. En plus d’ĂȘtre un moyen d’accĂšs Ă  la connaissance, Internet est devenu en quelques annĂ©es un lieu privilĂ©giĂ© pour l’apparition et la diffusion d’opinions.Chaque jour, des millions d’individus publient leurs avis sur le Web 2.0 (rĂ©seaux sociaux, blogs, etc.). Ces commentaires portent sur des sujets aussi variĂ©s que l’actualitĂ©, la politique, les rĂ©sultats sportifs, biens culturels, des objets de consommation, etc. L’amoncellement et l’agglomĂ©ration de ces avis publiĂ©s sur une entitĂ© (qu’il s’agisse d’un produit, une entreprise ou une personnalitĂ© publique)donnent naissance Ă  l’image de marque de cette entitĂ©.L’image d’une entitĂ© est ici comprise comme l’idĂ©e qu’une personne ou qu’un groupe de personnes se fait de cette entitĂ©. Cette idĂ©e porte a priori sur un sujet particulier et n’est valable que dans un contexte, Ă  un instant donnĂ©.Cette image perçue est par nature diffĂ©rente de celle que l’entitĂ© souhaitait initialement diffuser (par exemple via une campagne de communication). De plus,dans la rĂ©alitĂ©, il existe au final plusieurs images qui cohabitent en parallĂšle sur le rĂ©seau, chacune propre Ă  une communautĂ© et toutes Ă©voluant diffĂ©remment au fil du temps (imaginons comment serait perçu dans chaque camp le rapprochement de deux hommes politiques de bords opposĂ©s). Enfin, en plus des polĂ©miques volontairement provoquĂ©es par le comportement de certaines entitĂ©s en vue d’attirer l’attention sur elles (pensons aux tenues ou dĂ©clarations choquantes), il arrive Ă©galement que la diffusion d’une image dĂ©passe le cadre qui la rĂ©gissait et mĂȘme parfois se retourne contre l’entitĂ© (par exemple, «le mariage pour tous» devenu « la manif pour tous »). Les opinions exprimĂ©es constituent alors autant d’indices permettant de comprendre la logique de construction et d’évolution de ces images. Ce travail d’analyse est jusqu’à prĂ©sent confiĂ© Ă  des spĂ©cialistes de l’e-communication qui monnaient leur subjectivitĂ©. Ces derniers ne peuvent considĂ©rer qu’un volume restreint d’information et ne sont que rarement d’accord entre eux. Dans cette thĂšse, nous proposons d’utiliser diffĂ©rentes mĂ©thodes automatiques, statistiques, supervisĂ©es et d’une faible complexitĂ© permettant d’analyser et reprĂ©senter l’image de marque d’entitĂ© Ă  partir de contenus textuels les mentionnant. Plus spĂ©cifiquement, nous cherchons Ă  identifier les contenus(ainsi que leurs auteurs) qui sont les plus prĂ©judiciables Ă  l’image de marque d’une entitĂ©. Nous introduisons un processus d’optimisation automatique de ces mĂ©thodes automatiques permettant d’enrichir les donnĂ©es en utilisant un retour de pertinence simulĂ© (sans qu’aucune action de la part de l’entitĂ© concernĂ©e ne soit nĂ©cessaire). Nous comparer Ă©galement plusieurs approches de contextualisation de messages courts Ă  partir de mĂ©thodes de recherche d’information et de rĂ©sumĂ© automatique. Nous tirons Ă©galement parti d’algorithmes de modĂ©lisation(tels que la RĂ©gression des moindres carrĂ©s partiels), dans le cadre d’une modĂ©lisation conceptuelle de l’image de marque, pour amĂ©liorer nos systĂšmes automatiques de catĂ©gorisation de documents textuels. Ces mĂ©thodes de modĂ©lisation et notamment les reprĂ©sentations des corrĂ©lations entre les diffĂ©rents concepts que nous manipulons nous permettent de reprĂ©senter d’une part, le contexte thĂ©matique d’une requĂȘte de l’entitĂ© et d’autre, le contexte gĂ©nĂ©ral de son image de marque. Nous expĂ©rimentons l’utilisation et la combinaison de diffĂ©rentes sources d’information gĂ©nĂ©rales reprĂ©sentant les grands types d’information auxquels nous sommes confrontĂ©s sur internet : de long les contenus objectifs rĂ©digĂ©s Ă  des informatives, les contenus brefs gĂ©nĂ©rĂ©s par les utilisateurs visant Ă  partager des opinions. Nous Ă©valuons nos approches en utilisant deux collections de donnĂ©es, la premiĂšre est celle constituĂ©e dans le cadre du projet Imagiweb, la seconde est la collection de rĂ©fĂ©rence sur le sujet : CLEFRepLa
    • 

    corecore