6 research outputs found

    Automatic Detection and Classification of Argument Components using Multi-task Deep Neural Network

    Get PDF
    International audienceIn this article we propose a novel method for automatically extracting and classifying argument components from raw texts. We introduce a multi-task deep learning framework exploiting weight parameters trained on auxiliary simple tasks, such as Part-Of-Speech tagging or chunking, in order to solve more complex tasks that require a fine-grained understanding of natural language. Interestingly, our results show that the use of advanced deep learning techniques framed in a multi-task setting enables competing with state-of-the-art systems that depend on handcrafted features

    DÉfi Fouille de Textes 2019: indexation par extraction et appariement textuel

    Get PDF
    International audienceThis paper presents the contribution of the LGI2P (Laboratoire de Génie Informatique et d'Ingénierie de Production) team from IMT Mines Alès to the DEFT 2019 challenge (DÉfi Fouille de Textes). We detail two approches we devised for the tasks pertaining to (1) the indexing and to (2) the similarity of documents. Said approaches rely on proven and robust techniques from Information Retrieval and Natural Language Processing that have been adapted to the specificities of the corpus (biomedical text) and of the formulation of the tasks. For task 1, we propose an indexing-by-extraction approach applied on the corpus after a normalisation procedure (MAP=0.48) that we will detail further. For task 2, we proposed a similarity-based approach computed on vector representation of the documents (score=0.910) and study the impact of the choice of the similarity metric and of the document representation method on task performance.Cet article présente la contribution de l'équipe du Laboratoire de Génie Informatique et d'Ingénierie de Production (LGI2P) d'IMT Mines Alès au DÉfi Fouille de Textes (DEFT) 2019. Il détaille en particulier deux approches proposées pour les tâches liées à (1) l'indexation et à (2) la similarité de documents. Ces méthodes reposent sur des techniques robustes et éprouvées du domaine de la Recherche d'Information et du Traitement Automatique du Langage Naturel, qui ont été adaptées à la nature spécifique du corpus (biomédical/clinique) et couplées à des mécanismes développés pour répondre aux spécificités des tâches traitées. Pour la tâche 1, nous proposons une méthode d'indexation par extraction appliquée sur une version normalisée du corpus (MAP de 0,48 à l'évaluation) ; les spécificités de la phase de normalisation seront en particulier détaillées. Pour la tâche 2, au-delà de la présentation de l'approche proposée basée sur l'évaluation de similarités sur des représentations de documents (score de 0,91 à l'évaluation), nous proposons une étude comparative de l'impact des choix de la distance et de la manière de représenter les textes sur la performance de l'approche

    Analyse automatique d’arguments et apprentissage multi-tâches  : un cas d’étude

    Get PDF
    National audienceNous proposons une étude sur l’analyse automatique d’arguments via des techniques d’apprentissage supervisé exploitant le paradigme de l’apprentissage multi-tâches. Nous définissons pour cela une approche multi-tâches à base d’apprentissage profond que nous évaluons sur un cas d’étude spécifique portant sur l’extraction d’arguments dans un corpus de dissertations. Les résultats obtenus permettent de discuter l’intérêt de définir un modèle multi-tâches unique – optimisé sur différents critères en tirant parti de la diversité des tâches d’apprentissage auxquelles il est confronté – par rapport à un ensemble de classifieurs entraînés de manière indépendante et spécifique. Nous montrons en particulier l’impact de l’ajout de tâches auxiliaires de bas niveau, telles que l’étiquetage morpho-syntaxique et l’analyse de dépendances grammaticales, pour l’obtention de classifieurs multi-tâches performants. Nous observons aussi que l’apprentissage multi-tâches permet l’obtention de modèles efficaces de performances semblables à l’état de l’art pour le cas d’étude traité

    IMT Mines Ales at HASOC 2019: Automatic Hate Speech Detection

    No full text
    International audienceThis paper presents the contribution of the LGI2P (Labo-ratoire de Génie Informatique et d'Ingénierie de Production) team from IMT Mines Alès to the Hate Speech and Offensive Content Identification in Indo-European Languages (HASOC) 2019 shared task. This challenge aims at automatically identifying hate speech content in social media through three sub-tasks, each available in three different languages (En-glish, German and Hindi). We are interested in sub-tasks A and B, requiring to (A) classify tweets as offensive or as non offensive, and (B) to further classify offensive tweets from sub-task A as hate speech, offensive speech or profane. We trained a fastText model for each proposed language and obtained promising results on the Hindi dataset for both sub-tasks A and B
    corecore