148 research outputs found

    GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training Data Exploration

    Full text link
    Noticing the urgent need to provide tools for fast and user-friendly qualitative analysis of large-scale textual corpora of the modern NLP, we propose to turn to the mature and well-tested methods from the domain of Information Retrieval (IR) - a research field with a long history of tackling TB-scale document collections. We discuss how Pyserini - a widely used toolkit for reproducible IR research can be integrated with the Hugging Face ecosystem of open-source AI libraries and artifacts. We leverage the existing functionalities of both platforms while proposing novel features further facilitating their integration. Our goal is to give NLP researchers tools that will allow them to develop retrieval-based instrumentation for their data analytics needs with ease and agility. We include a Jupyter Notebook-based walk through the core interoperability features, available on GitHub at https://github.com/huggingface/gaia. We then demonstrate how the ideas we present can be operationalized to create a powerful tool for qualitative data analysis in NLP. We present GAIA Search - a search engine built following previously laid out principles, giving access to four popular large-scale text collections. GAIA serves a dual purpose of illustrating the potential of methodologies we discuss but also as a standalone qualitative analysis tool that can be leveraged by NLP researchers aiming to understand datasets prior to using them in training. GAIA is hosted live on Hugging Face Spaces - https://huggingface.co/spaces/spacerini/gaia

    Alfred: A System for Prompted Weak Supervision

    Full text link
    Alfred is the first system for programmatic weak supervision (PWS) that creates training data for machine learning by prompting. In contrast to typical PWS systems where weak supervision sources are programs coded by experts, Alfred enables users to encode their subject matter expertise via natural language prompts for language and vision-language models. Alfred provides a simple Python interface for the key steps of this emerging paradigm, with a high-throughput backend for large-scale data labeling. Users can quickly create, evaluate, and refine their prompt-based weak supervision sources; map the results to weak labels; and resolve their disagreements with a label model. Alfred enables a seamless local development experience backed by models served from self-managed computing clusters. It automatically optimizes the execution of prompts with optimized batching mechanisms. We find that this optimization improves query throughput by 2.9x versus a naive approach. We present two example use cases demonstrating Alfred on YouTube comment spam detection and pet breeds classification. Alfred is open source, available at https://github.com/BatsResearch/alfred.Comment: ACL 2023 System Demonstration Trac

    MetaQA: Combining Expert Agents for Multi-Skill Question Answering

    Full text link
    The recent explosion of question answering (QA) datasets and models has increased the interest in the generalization of models across multiple domains and formats by either training on multiple datasets or by combining multiple models. Despite the promising results of multi-dataset models, some domains or QA formats may require specific architectures, and thus the adaptability of these models might be limited. In addition, current approaches for combining models disregard cues such as question-answer compatibility. In this work, we propose to combine expert agents with a novel, flexible, and training-efficient architecture that considers questions, answer predictions, and answer-prediction confidence scores to select the best answer among a list of answer candidates. Through quantitative and qualitative experiments we show that our model i) creates a collaboration between agents that outperforms previous multi-agent and multi-dataset approaches in both in-domain and out-of-domain scenarios, ii) is highly data-efficient to train, and iii) can be adapted to any QA format. We release our code and a dataset of answer predictions from expert agents for 16 QA datasets to foster future developments of multi-agent systems on https://github.com/UKPLab/MetaQA.Comment: Accepted at EACL 202

    La recherche est-elle utile pour la gestion des aires protégées en Afrique centrale ?

    Full text link
    Dans les aires protégées d’Afrique centrale, la recherche, sous diverses formes, a notamment pour but d’appuyer les décisions de gestion et de conservation. Cependant, le partage des résultats de recherche est souvent insuffisant, ainsi que le dialogue entre les chercheurs, les gestionnaires de terrain et les décideurs politiques. Il en résulte que la recherche dans les aires protégées n’est pas toujours en phase avec les priorités des gestionnaires. C’est dans ce cadre qu’a été réalisée cette expertise, afin d’éclaircir les liens fonctionnels entre la recherche, la gestion des aires protégées et les décisions politiques, tout en identifiant comment la recherche est produite, diffusée et utilisée dans les aires protégées d’Afrique centrale. Trois étapes méthodologiques ont permis de répondre à cet objectif : (i) une analyse bibliométrique de la littérature scientifique publiée au sujet de toutes les aires protégées d’Afrique centrale, (ii) un inventaire complet de la littérature scientifique et grise pour trois aires protégées soutenues par le Programme ECOFAC 6, avec une synthèse des recommandations de gestion concernant leurs thématiques prioritaires, et (iii) la capitalisation des expériences des gestionnaires au sujet des acteurs, questions, accessibilité et utilité de la recherche à travers des entretiens. En rassemblant les articles scientifiques publiés durant les dix dernières années au sujet des aires protégées d’Afrique centrale, nous avons caractérisé l’effort de recherche selon différents critères : répartition géographique, évolution temporelle, langues, affiliations des auteurs, accessibilité et répartition par thématiques. Nous avons montré des différences importantes en nombre de publications scientifiques entre les dix pays d’Afrique centrale et entre les aires protégées. Durant les dix dernières années, le nombre d’articles publiés par an augmente mais reste inférieur à une publication par aire protégée et par an en moyenne. Trois conditions semblent être réunies dans les aires protégées où la production scientifique est riche : l’ancienneté de l’aire protégée, la présence d’une station de recherche permanente et un contexte sécuritaire stable. Plus de 95% des articles scientifiques sont publiés en anglais, avec moins d’un tiers des auteurs ayant une affiliation en Afrique centrale. Seuls 37% des articles sont disponibles gratuitement en accès libre sur internet. Garantir l’accès ouvert de ces publications et leur synthèse en français est essentiel pour permettre l’utilisation des résultats produits, de même que de privilégier les financements de chercheurs des Universités nationales. La majorité des publications étudie la biodiversité (principalement animale), alors que les recherches appliquées aux enjeux directs de gestion, au sujet des aspects humains, environnementaux et de santé, sont trop peu représentées. Il est crucial de revoir le rôle des acteurs locaux et nationaux dans le pilotage de la recherche vers des thématiques prioritaires pour chaque aire protégée. En complément à la recherche scientifique, nous avons identifié la plus-value de la littérature grise (livres, rapports, mémoires etc.) à la production de connaissances utiles à la gestion de trois aires protégées soutenues par le Programme ECOFAC 6 : le Parc National de la Lopé (Gabon), le Parc National d’Odzala Kokoua (République du Congo) et la Réserve de Faune de Ouadi Rimé-Ouadi Achim (Tchad). Les recommandations issues de la littérature pour les dix dernières années ont été synthétisées, en termes de perspectives de recherche et d’actions concrètes de gestion. Nous avons montré que la littérature grise complète les publications scientifiques avec des informations de terrain et des données directement mobilisables par les gestionnaires. Les thématiques étudiées sont aussi différentes, avec une plus grande emphase sur les sujets appliqués à la gestion dans la littérature grise, tels que les aspects humains et environnementaux. Il est particulièrement utile pour la gestion des aires protégées de s’atteler à synthétiser les recommandations émises dans la littérature : les gestionnaires peuvent ainsi renforcer leurs actions de terrain et leur vision stratégique. Malgré tout, certaines recommandations ne s’appliquent pas à la réalité de terrain des gestionnaires : cela indique une déconnexion entre certains chercheurs et gestionnaires, avec des enjeux différents et un manque de communication entre les acteurs. Après l’examen de la théorie et des connaissances produites, nous avons étudié l’utilisation concrète des résultats de recherche dans la gestion des aires protégées, en interrogeant directement les gestionnaires de terrain. Trois types d’entretiens nous ont permis d’identifier les acteurs, les questions, l’accessibilité et l’utilité de la recherche, dans une démarche de capitalisation des expériences des opérateurs du Programme ECOFAC 6 : un questionnaire en ligne, un atelier d’échange en groupe en présentiel, et des entretiens individuels par visioconférence. De manière générale, la recherche est perçue par les gestionnaires comme utile dans une démarche appliquée pour appuyer la gestion et les stratégies de conservation. Les gestionnaires accueillent très fréquemment des chercheurs extérieurs. Les accords de partenariats garantissent la restitution et la valorisation des résultats de la recherche auprès des gestionnaires. Les gestionnaires apportent un appui logistique et technique important aux chercheurs qu’ils accueillent, et les chercheurs contribuent au renforcement local des capacités. Néanmoins, dans beaucoup d’aires protégées, la formation du personnel de terrain doit être renforcée et les chercheurs se doivent d’y contribuer. Les résultats de recherche générés sont régulièrement utilisés par les gestionnaires, de différentes manières et pour différentes thématiques. Néanmoins, seulement un quart des gestionnaires ont défini leurs questions de recherche prioritaires dans un document et il existe beaucoup de données dormantes que personne n’utilise. Il subsiste donc un décalage important entre les sujets de recherche et les priorités de gestion, qui appelle au développement de recherches appliquées et stratégiques pour lesquelles les chercheurs devraient mieux se concerter avec les gestionnaires. Nous avons présenté de nombreux exemples inspirants qui démontrent qu’il est possible de coordonner les efforts de recherche aux priorités de gestion et de conservation dans les aires protégées. En outre, les publications scientifiques ne sont pas produites assez rapidement pour les besoins pratiques des gestionnaires, qui n’ont souvent même pas accès à ces documents. Les chercheurs ont la responsabilité de transmettre leurs recommandations aux gestionnaires d’aires protégées dans un délai compatible avec la prise de décision, déjà avant que leurs résultats soient publiés dans des revues scientifiques. Il est aussi essentiel de rendre l’accès aux résultats de recherche libre et sans contraintes pour les gestionnaires des aires protégées. La recherche est donc utile, mais seulement quand elle est orientée stratégiquement en cohérence avec les enjeux de gestion des aires protégées. Nous terminons ce rapport d’expertise par une liste de 20 recommandations allant du financement de la recherche, à son exécution, la diffusion des résultats et leur utilisation concrète. Ces recommandations s’adressent aux gestionnaires d’aires protégées, aux États d’Afrique centrale et à la CEEAC/COMIFAC, aux institutions de recherche et de formation, aux bailleurs de fonds, ainsi qu’à la société civile. Nous invitons le lecteur à étudier ces recommandations détaillées (pages 53 à 57), mais citons notamment les recommandations essentielles suivantes : allouer des ressources suffisantes à la recherche dans les aires protégées, permettant de développer une vision stratégique et appliquée ; assurer des financements et projets sur le long terme (minimum 10 ans) ; fixer des engagements entre gestionnaires et chercheurs pour la diffusion des résultats de recherche ; favoriser les financements de mémoires, thèses de doctorats et post-doctorats pour produire une recherche efficace et utile ; soutenir l’OFAC pour la capitalisation des résultats de recherche ; concevoir des programmes de renforcement des capacités des gestionnaires pour la prise en main des données scientifiques, ainsi que de la société civile et des journalistes pour la vulgarisation scientifique ; permettre le renforcement des universités nationales par des partenariats de terrain avec les universités internationales ; produire une science plus inclusive en impliquant la diversité des acteurs dans la formulation des questions de recherche ; profiter des expériences positives du réseau de gestionnaires d’aires protégées pour renforcer les pratiques locales de gestion à de multiples niveaux ; générer des outils simples pour l’utilisation concrète des résultats de recherche dans la gestion ; définir un protocole simple de diffusion de la littérature produite à l’échelle régionale ; renforcer les procédures d’archivage numérique et physique des données et résultats de recherche à l’échelle des aires protégées ; faciliter la diffusion et l’appropriation des résultats de recherche par l’organisation de forums aux échelles régionale et paysagère rassemblant tous les acteurs concernés ; prioriser les efforts de capitalisation des futurs programmes de conservation

    diagNNose: A Library for Neural Activation Analysis

    Get PDF
    In this paper we introduce diagNNose, an open source library for analysing the activations of deep neural networks. diagNNose contains a wide array of interpretability techniques that provide fundamental insights into the inner workings of neural networks. We demonstrate the functionality of diagNNose with a case study on subject-verb agreement within language models. diagNNose is available at https://github.com/i-machine-think/diagnnose.Comment: Accepted to the Third BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP, EMNLP 202

    Learning Answer Generation using Supervision from Automatic Question Answering Evaluators

    Full text link
    Recent studies show that sentence-level extractive QA, i.e., based on Answer Sentence Selection (AS2), is outperformed by Generation-based QA (GenQA) models, which generate answers using the top-k answer sentences ranked by AS2 models (a la retrieval-augmented generation style). In this paper, we propose a novel training paradigm for GenQA using supervision from automatic QA evaluation models (GAVA). Specifically, we propose three strategies to transfer knowledge from these QA evaluation models to a GenQA model: (i) augmenting training data with answers generated by the GenQA model and labelled by GAVA (either statically, before training, or (ii) dynamically, at every training epoch); and (iii) using the GAVA score for weighting the generator loss during the learning of the GenQA model. We evaluate our proposed methods on two academic and one industrial dataset, obtaining a significant improvement in answering accuracy over the previous state of the art.Comment: Accepted at ACL 202

    Ouvrages reçus à la rédaction

    Get PDF

    Preserving Pre-trained Features Helps Calibrate Fine-tuned Language Models

    Full text link
    Large pre-trained language models (PLMs) have demonstrated strong performance on natural language understanding (NLU) tasks through fine-tuning. However, fine-tuned models still suffer from overconfident predictions, especially in out-of-domain settings. In this paper, we tackle the problem of calibrating fine-tuned language models. We demonstrate that the PLMs are well-calibrated on the masked language modeling task with robust predictive confidence under domain shift, yet the fine-tuned models fail to retain such property due to catastrophic forgetting, which impacts the calibration on the downstream classification task. In light of these observations, we evaluate the calibration of several methods that preserve pre-trained features and show that preserving pre-trained features can improve the calibration of fine-tuned language models. Among these methods, our proposed method that encourages the fine-tuned model to learn generative representations with auxiliary language modeling objective achieves competitive accuracy and the lowest expected calibration error compared to several strong baselines under both in-domain and out-of-domain settings on three downstream NLU tasks.Comment: ICLR 202

    Energy and Carbon Considerations of Fine-Tuning BERT

    Full text link
    Despite the popularity of the `pre-train then fine-tune' paradigm in the NLP community, existing work quantifying energy costs and associated carbon emissions has largely focused on language model pre-training. Although a single pre-training run draws substantially more energy than fine-tuning, fine-tuning is performed more frequently by many more individual actors, and thus must be accounted for when considering the energy and carbon footprint of NLP. In order to better characterize the role of fine-tuning in the landscape of energy and carbon emissions in NLP, we perform a careful empirical study of the computational costs of fine-tuning across tasks, datasets, hardware infrastructure and measurement modalities. Our experimental results allow us to place fine-tuning energy and carbon costs into perspective with respect to pre-training and inference, and outline recommendations to NLP researchers and practitioners who wish to improve their fine-tuning energy efficiency.Comment: EMNLP 2023 Findings; First two authors contributed equally; 12 page

    Evidence-based factual error correction

    Get PDF
    This paper introduces the task of factual error correction: performing edits to a claim so that the generated rewrite is better supported by evidence. This extends the well-studied task of fact verification by providing a mechanism to correct written texts that are refuted or only partially supported by evidence. We demonstrate that it is feasible to train factual error correction systems from existing fact checking datasets which only contain labeled claims accompanied by evidence, but not the correction. We achieve this by employing a two-stage distant supervision approach that incorporates evidence into masked claims when generating corrections. Our approach, based on the T5 transformer and using retrieved evidence, achieved better results than existing work which used a pointer copy network and gold evidence, producing accurate factual error corrections for 5x more instances in human evaluation and a.125 increase in SARI score. The evaluation is conducted on a dataset of 65,000 instances based on a recent fact verification shared task and we release it to enable further work on the task
    • …
    corecore