6 research outputs found

    Détection automatique de l'ironie dans les tweets en français

    Get PDF
    International audienceCet article présente une méthode par apprentissage supervisé pour la détection de l'ironie dans les tweets en français. Un classifieur binaire utilise des traits de l'état de l'art dont les performances sont reconnues, ainsi que de nouveaux traits issus de notre étude de corpus. En particulier, nous nous sommes intéressés à la négation et aux oppositions explicites/implicites entre des expressions d'opinion ayant des polarités différentes. Les résultats obtenus sont encourageants

    Description de quelques procĂ©dĂ©s linguistiques de l’ironie, par le biais des tweets sur les transports en commun en français et en polonais

    Get PDF
    Irony is a complex phenomenon. Even though the numerous theories of irony differ from one another, they all seem to agree on the fact that irony implies certain contradiction / discrepancy / inconsistency between what is said and the reality. The purpose of this paper is to describe the language criteria of irony. The studies are contrastive character (French and Polish corpora of tweets about public transport). In the first phase of the study based on contrastive linguistic analysis, we will answer the following questions: What are the language criteria of irony? Are they identical for both languages? The research will help to expand the knowledge of automatic processing of natural language and, more precisely, in the analysis of text data and searching in texts.Irony is a complex phenomenon. Even though the numerous theories of irony differ from one another, they all seem to agree on the fact that irony implies certain contradiction / discrepancy / inconsistency between what is said and the reality. The purpose of this paper is to describe the language criteria of irony. The studies are contrastive character (French and Polish corpora of tweets about public transport). In the first phase of the study based on contrastive linguistic analysis, we will answer the following questions: What are the language criteria of irony? Are they identical for both languages? The research will help to expand the knowledge of automatic processing of natural language and, more precisely, in the analysis of text data and searching in texts

    Analyse comparative de la terminologie des médias sociaux : contribution des domaines de la communication et de l'informatique à la néologie

    Full text link
    L’objectif de cette Ă©tude est de repĂ©rer des nĂ©ologismes Ă  partir de corpus de textes français au moyen d’une mĂ©thode semi-automatique. Plus prĂ©cisĂ©ment, nous extrayons les nĂ©ologismes de corpus associĂ©s Ă  deux domaines diffĂ©rents, mais traitant du mĂȘme thĂšme, nous examinons leur rĂ©partition et nous les classons selon leur type. L’étude s’appuie sur l’analyse de corpus traitant des mĂ©dias sociaux. Le premier aborde les mĂ©dias sociaux du point de vue de la communication, l’autre le fait du point de vue de l’informatique. Ces points de vue ont Ă©tĂ© privilĂ©giĂ©s, car la communication considĂšre ce qui a trait l’utilisation des mĂ©dias sociaux et l’informatique aborde leur cartographie. La mĂ©thode fait appel Ă  l’extracteur de termes TermoStat pour recenser la terminologie des mĂ©dias sociaux pour chaque point de vue. Ensuite, nous soumettons les 150 termes les plus spĂ©cifiques de chaque point de vue Ă  une mĂ©thode de validation divisĂ©e en trois tests destinĂ©s Ă  valider leur statut nĂ©ologique : des dictionnaires spĂ©cialisĂ©s, des dictionnaires de langue gĂ©nĂ©rale et un outil de visualisation de n-grammes. Finalement, nous Ă©tiquetons les nĂ©ologismes selon la typologie de Dubuc (2002). L’analyse des rĂ©sultats de la communication et de l’informatique est comparative. La comparaison des deux corpus rĂ©vĂšle les contributions respectives de la communication et de l'informatique Ă  la terminologie des mĂ©dias sociaux en plus de montrer les termes communs aux deux disciplines. L’étude a Ă©galement permis de repĂ©rer 60 nĂ©ologismes, dont 28 sont exclusifs au corpus de la communication, 28 exclusifs Ă  celui de l’informatique et 4 communs aux deux corpus. La recherche rĂ©vĂšle Ă©galement que les composĂ©s par subordination sont les types de nĂ©ologismes les plus prĂ©sents dans nos rĂ©sultats.The objective of this study is to identify the neologisms within corpora of French texts by means of a semi-automatic method. More precisely, we will extract the neologisms from corpora associated to two different areas; however dealing with the same topic, we examine their distribution and we classify them according to their type. This study is based on an analysis of two corpora within social media. The first one approaches social media from the point of view of communication, and the other approaches it from the point of view of computer science. We prioritize these two points of view being that communication is used as the main source of social media’s utilization and that computer science allows us to understand what is involved to allow for social media to be functional. For this method, we use the TermoStat term extractor in order to take census of terminology for each point of view. We then submit 150 of the most specific terms related to each point of view by way of an exclusion corpus from which we divide into three different tests meant to validate their neological status: specialized dictionaries, general language dictionaries, and a visualization tool for n-grams. Lastly, we label the neologisms according to Dubuc’s (2002) typology. The analysis of the results obtained for communication and computer science uses a comparative method. The comparison of the two corpora reveals the respective contributions from communication and computer science with respect to the terminology of social medias, as well it demonstrates common terms found within the two disciplines. This examination also allowed for the identification of 60 neologisms; of which 28 are exclusive to the corpus of communication, another 28 are exclusive to that of computer science, and four were found to be common to both corpora. This research also reveals that subordinate compounds are the most present types of neologisms according to our results

    Automatic irony detection in users generated content

    No full text
    Cette thĂšse a pour objectif la dĂ©tection du langage figuratif dans les rĂ©seaux sociaux. Nous nous focalisons en particulier sur l'ironie et le sarcasme dans Twitter et proposons une approche basĂ©e sur l'apprentissage supervisĂ©e afin de prĂ©dire si le message vĂ©hiculĂ© dans un tweet est ironique ou non. Pour ce faire, trois Ă©tapes ont Ă©tĂ© rĂ©alisĂ©es : (1) Analyse des phĂ©nomĂšnes pragmatiques de l'ironie et annotation multi-niveaux d'un corpus de rĂ©fĂ©rence, (2) DĂ©veloppement d'un modĂšle de dĂ©tection automatique pour les tweets en français qui exploite Ă  la fois des traits sĂ©mantiques et le contexte extralinguistique, (3) Etude de la portabilitĂ© du modĂšle pour la dĂ©tection de l'ironie dans un cadre multilingue (italien, anglais et arabe). Les rĂ©sultats obtenus pour cette tĂąche extrĂȘmement complexe sont trĂšs encourageants et permettrons d'amĂ©liorer sensiblement la dĂ©tection de polaritĂ© lors de l'analyse de sentiments.This thesis aims to detect figurative language devices in social networks. We focus in particular on irony and sarcasm in Twitter and propose an approach based on supervised learning to predict if a tweet is ironic or not. This required three steps: (1) Analyze the pragmatic phenomena of irony and a multi-level annotation of a corpus of reference, (2) Development of an automatic detection system for French tweets that exploits both semantic features and the extra-linguistic context, (3) Study of the portability of the model to detect irony in a multilingual setting (Italian, English and Arabic). The obtained results for this extremely complex task are very encouraging and will allow a significant improvement of polarity detection in sentiments analysis

    Analyse d'opinion et langage figuratif dans des tweets : présentation et résultats du Défi Fouille de Textes DEFT2017

    Get PDF
    International audienceLa dĂ©tection automatique du langage figuratif dans les rĂ©seaux sociaux est un sujet de recherche extrĂȘmement actif principalement en raison de son importance pour amĂ©liorer les performances des systĂšmes d'analyse d'opinions. Pour la premiĂšre fois, l'Ă©dition 2017 du DĂ©fi Fouille de Texte (DEFT) s'intĂ©resse Ă  l'influence du langage figuratif (en particulier l'ironie, le sarcasme et l'humour) dans l'analyse d'opinions Ă  partir de tweets en français. Trois tĂąches de niveaux de complexitĂ© croissants ont Ă©tĂ© proposĂ©es aux participants : (T1) dĂ©terminer la polaritĂ© globale des tweets non figuratifs, (T2) dĂ©terminer si un tweet contient ou non du langage figuratif, et (T3) dĂ©terminer la polaritĂ© globale des tweets figuratifs et non figuratifs. Douze Ă©quipes ont participĂ© Ă  ce dĂ©fi. Les meilleurs rĂ©sultats, en macro f-mesure, sont de 0,650 pour (T1), 0,783 pour (T2) et 0,594 pour (T3). Ces rĂ©sultats montrent clairement que l'usage du langage figuratif complique considĂ©rablement l'analyse d'opinions
    corecore