123 research outputs found

    Contextualisation automatique de Tweets à partir de Wikipédia

    Get PDF
    National audienceLes réseaux sociaux sont au centre des communications sur internet et une grande partie des échanges communautaires se fait à travers eux. Parmi eux, l'apparition de Twitter a donné lieu à la création d'un nouveau type de partage d'informations où les messages sont limités à 140 caractères. Les utilisateurs de ce réseau s'expriment donc succinctement, souvent en temps réel à partir d'un smartphone, et la teneur des messages peut parfois être difficile à comprendre sans contexte. Nous proposons dans cet article une méthode permettant de contextualiser automatiquement des Tweets en utilisant des informations provenant directement de l'encyclopédie en ligne Wikipédia, avec comme but final de répondre à la question : " De quoi parle ce Tweet ? ". Nous traitons ce problème comme une approche de résumé automatique où le texte à résumer est composé d'articles Wikipédia liés aux différentes informations exprimées dans un Tweet. Nous explorons l'influence de différentes méthodes de recherche d'articles liés aux Tweets, ainsi que de plusieurs caractéristiques utiles pour la sélection des phrases formant le contexte. Nous évaluons notre approche en utilisant la collection de la tâche Tweet Contextualization d'INEX 2012 et donnons un aperçu sur ce qui caractérise une phrase importante pour déterminer le contexte d'un Tweet

    Génération semi-automatique de tests d'auto-évaluation pourvus de feedback résultant de la prise de notes collaborative

    Get PDF
    International audienceNos travaux prédécents ont introduit la plate-forme Tsaap-Notes pour augmenter la motivation et l'engagement des étudiants dans le processus de prise de notes collaborative pendant les cours dispensées en face-à-face. Dans cet article, nous introduisons l'approche « Notes as Feedback » consistant à recycler les questions interactives posées pendant le cours afin de produire semi-automatiquement des tests d'auto-évaluation informatisés pourvus de feedback issus des notes prises par les étudiants. Une première expérimentation réalisée sur un groupe de 54 étudiants inscrits en Master Informatique a permis de mettre en avant les bénéfices de ces travaux : une participation accrue à la prise de notes collaborative, un engagement significatif des étudiants dans les tests de révision, et des résultats en hausse à l'examen terminal

    Ethique conséquentialiste et traitement automatique des langues : une typologie de facteurs de risques adaptée aux technologies langagières

    Get PDF
    National audienceThis paper details a typology of risk factors that should concern digital technologies and more specifically NLP. It aims at providing an evaluation grid for an ethical assessment of researches and applications.Cet article présente une typologie de facteurs de risques concernant les technologies numériques et plus particulièrement les technologies langagières. Son objectif est d'offrir une grille d'analyse pour une évaluation critique des recherches et applications du TALN dans une démarche éthique conséquentialiste. Abstract. Consequentialist ethics and NLP: a typology of risk factors suitable to language technologies

    Vers une représentation du contexte thématique en Recherche d'Information

    Get PDF
    Quand des humains cherchent des informations au sein de bases de connaissancesou de collections de documents, ils utilisent un système de recherche d information(SRI) faisant office d interface. Les utilisateurs doivent alors transmettre au SRI unereprésentation de leur besoin d information afin que celui-ci puisse chercher des documentscontenant des informations pertinentes. De nos jours, la représentation du besoind information est constituée d un petit ensemble de mots-clés plus souvent connu sousla dénomination de requête . Or, quelques mots peuvent ne pas être suffisants pourreprésenter précisément et efficacement l état cognitif complet d un humain par rapportà son besoin d information initial. Sans une certaine forme de contexte thématiquecomplémentaire, le SRI peut ne pas renvoyer certains documents pertinents exprimantdes concepts n étant pas explicitement évoqués dans la requête.Dans cette thèse, nous explorons et proposons différentes méthodes statistiques, automatiqueset non supervisées pour la représentation du contexte thématique de larequête. Plus spécifiquement, nous cherchons à identifier les différents concepts implicitesd une requête formulée par un utilisateur sans qu aucune action de sa part nesoit nécessaire. Nous expérimentons pour cela l utilisation et la combinaison de différentessources d information générales représentant les grands types d informationauxquels nous sommes confrontés quotidiennement sur internet. Nous tirons égalementparti d algorithmes de modélisation thématique probabiliste (tels que l allocationde Dirichlet latente) dans le cadre d un retour de pertinence simulé. Nous proposonspar ailleurs une méthode permettant d estimer conjointement le nombre de conceptsimplicites d une requête ainsi que l ensemble de documents pseudo-pertinent le plusapproprié afin de modéliser ces concepts. Nous évaluons nos approches en utilisantquatre collections de test TREC de grande taille. En annexes, nous proposons égalementune approche de contextualisation de messages courts exploitant des méthodesde recherche d information et de résumé automatiqueWhen searching for information within knowledge bases or document collections,humans use an information retrieval system (IRS). So that it can retrieve documentscontaining relevant information, users have to provide the IRS with a representationof their information need. Nowadays, this representation of the information need iscomposed of a small set of keywords often referred to as the query . A few wordsmay however not be sufficient to accurately and effectively represent the complete cognitivestate of a human with respect to her initial information need. A query may notcontain sufficient information if the user is searching for some topic in which she is notconfident at all. Hence, without some kind of context, the IRS could simply miss somenuances or details that the user did not or could not provide in query.In this thesis, we explore and propose various statistic, automatic and unsupervisedmethods for representing the topical context of the query. More specifically, we aim toidentify the latent concepts of a query without involving the user in the process norrequiring explicit feedback. We experiment using and combining several general informationsources representing the main types of information we deal with on a dailybasis while browsing theWeb.We also leverage probabilistic topic models (such as LatentDirichlet Allocation) in a pseudo-relevance feedback setting. Besides, we proposea method allowing to jointly estimate the number of latent concepts of a query andthe set of pseudo-relevant feedback documents which is the most suitable to modelthese concepts. We evaluate our approaches using four main large TREC test collections.In the appendix of this thesis, we also propose an approach for contextualizingshort messages which leverages both information retrieval and automatic summarizationtechniquesAVIGNON-Bib. numérique (840079901) / SudocSudocFranceF

    Twitter: terrain d'action pour le travailleur social : 140 caractères pour agir

    Get PDF
    Twitter fête cette année ses 10 ans. Depuis sa création, ce réseau social s’est développé afin de devenir un formidable outil de communication et de création de réseau. Il existe pour Twitter autant d’applications possibles différentes qu’il existe d’utilisateurs et certaines professions y ont plus recours que d’autres. Le domaine du travail social y est encore peu représenté et aurait tout à gagner à développer son utilisation. Dans mon travail, je tente de démontrer que Twitter est un outil favorisant la création d’un réseau militant. J’aimerais montrer qu’il s’agit d’un moyen innovant de transmission d’informations et de communication individuelle et sociale. Je vais étudier différentes notions au sein du cybermilitantisme : celle de l’engagement distancié, de l’autoproduction d’information et de communication, mais aussi l’immédiateté de l’action et les risques que cela peut représenter. Pour ma récolte de données empirique, j’ai créé un compte Twitter dans le but de me mettre en contact avec les personnes que je souhaitais interroger. A travers ce réseau, je leur ai transmis un questionnaire en ligne qui m’a permis d’étudier l’utilisation faite par ces travailleurs sociaux cybermilitants et de questionner leurs pratiques

    Expansion de requêtes à base de motifs et de Word Embeddings pour améliorer la recherche de microblogs

    Get PDF
    International audienceSocial microblogging services have an especially significant role in our society. Twitter is one of the most popular microblogging sites used by people to find relevant information (e.g., breaking news, popular trends, information about people of interest, etc). In this context, retrieving information from such data has recently gained growing attention and opening new challenges. However, the size of such data and queries is usually short and may impact the search result. Query Expansion (QE) has the main task in this issue. In fact, words can have different meanings where only one is used for a given context. In this paper, we propose a QE method by considering the meaning of the context. Thus, we use patterns and Word Embeddings to expand users' queries. We experiment and evaluate the proposed method on the TREC dataset. Results show the effectiveness of the proposed approach and signify the combination of patterns and word embedding for enhanced microblog retrieval.Les services sociaux de microblogging jouent un rôle important dans notre société. Twitter est l'une des plateformes de microblogging les plus populaires, utilisées par les internautes pour trouver des informations pertinentes (sujets d'actualité, tendances populaires, informations sur certains internautes, etc.). Dans ce contexte, la recherche d'information provenant de telles données a récemment gagné un intérêt majeur et ouvert de nouveaux défis. Cependant, la taille de ces données ainsi que des requêtes est généralement courte et peut avoir un impact sur le résultat de la recherche. Cette dernière peut être améliorée à l'aide de l'expansion de requêtes. En effet, les mots peuvent avoir plusieurs sens dont un seul est utilisé pour un contexte donné. Dans cet article, nous proposons une méthode d'expansion de requêtes prenant en compte le sens du contexte. Nous utilisons les motifs et les plongements de mots pour étendre les requêtes des utilisateurs. L'évaluation expérimentale de la méthode proposée est menée sur la collection TREC. Les résultats montrent l'efficacité de l'approche en combinant des motifs avec des plongements de mots pour améliorer significativement la recherche de microblog

    Genre de discours et technologie discursive. Tweet, twittécriture et twittérature

    No full text
    Observations of discursive productions on Twitter, the micro-blogging network, allow to show that the notion of discourse genre, which is already highly heterogeneous in its descriptions, must also include the materialities of technological parameter. After a synthesis about this miscellaneous notion, that crosses several definition criteria, one deepens the notion of discursive technology, which highly articulate environmental materialities to language productions. This concept is developed in a postdualist epistemological framework and non logocentric conception of linguistic analysis. Scriptural activity on Twitter, constrained by the famous 140 characters, produces new genres (tweet, retweet or RT, Follow Friday, etc.), but also shapes out stabilized discourse genres in a new way. We consider these issues by studying conversational genres (the #ClaVed, for example), mediatic genres (tweet as a form of dispatch), teaching genres (Twitter as a medium of writing activity in class) and literary genres (the Twitterature case).À partir de l'exemple du réseau de micro-blogging Twitter, cet article montre que la notion de genre de discours, déjà fortement hétérogène dans ses descriptions, doit aussi intégrer les matérialités du paramètre technologique. Après un point de synthèse sur la mixité de la notion qui croise plusieurs critères de définition du genre de discours, on approfondit la notion de technologie discursive qui articule fortement matérialités environnementales et productions langagières. Cette notion est élaborée dans un cadre épistémologique postdualiste et une conception non logocentrée de l'analyse linguistique. L'activité scripturale sur Twitter, contrainte par les fameux 140 signes, est productrice de genres nouveaux (tweet, retweet ou RT, Follow Friday, etc.) mais reconfigure également des genres stabilisés. On envisage ces questions en traitant des genres conversationnels (le #ClavEd par exemple), médiatiques (le tweet comme forme de dépêche), didactiques (Twitter comme support d'activité d'écriture en classe) et littéraires (le cas de la Twittérature)

    Tsaap-Notes : Plateforme de prise de notes collaborative Ă©tendue

    Get PDF
    Plusieurs études ont montré les bénéfices apportés par les systèmes de prise de notes collaborative, les systèmes de micro-blogging et les systèmes de votes interactifs dans différents contextes d'apprentissage. Dans cet article, nous nous intéressons plus particulièrement au contexte des cours dispensés en face à face à un grand nombre d’étudiants. Nous présentons Tsaap-Notes, une plate-forme de prise de notes collaborative reposant sur un système de microblogging et intégrant les fonctionnalités de systèmes de votes interactifs. Tsaap-Notes combine les fonctionnalités des trois systèmes afin d’améliorer et de renforcer les bénéfices qu’apportent chacun des systèmes pris séparément. L’article présente également les résultats encourageants provenant d'une première expérimentation réalisée avec un groupe de quarante étudiants
    • …
    corecore