148 research outputs found
GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training Data Exploration
Noticing the urgent need to provide tools for fast and user-friendly
qualitative analysis of large-scale textual corpora of the modern NLP, we
propose to turn to the mature and well-tested methods from the domain of
Information Retrieval (IR) - a research field with a long history of tackling
TB-scale document collections. We discuss how Pyserini - a widely used toolkit
for reproducible IR research can be integrated with the Hugging Face ecosystem
of open-source AI libraries and artifacts. We leverage the existing
functionalities of both platforms while proposing novel features further
facilitating their integration. Our goal is to give NLP researchers tools that
will allow them to develop retrieval-based instrumentation for their data
analytics needs with ease and agility. We include a Jupyter Notebook-based walk
through the core interoperability features, available on GitHub at
https://github.com/huggingface/gaia. We then demonstrate how the ideas we
present can be operationalized to create a powerful tool for qualitative data
analysis in NLP. We present GAIA Search - a search engine built following
previously laid out principles, giving access to four popular large-scale text
collections. GAIA serves a dual purpose of illustrating the potential of
methodologies we discuss but also as a standalone qualitative analysis tool
that can be leveraged by NLP researchers aiming to understand datasets prior to
using them in training. GAIA is hosted live on Hugging Face Spaces -
https://huggingface.co/spaces/spacerini/gaia
Alfred: A System for Prompted Weak Supervision
Alfred is the first system for programmatic weak supervision (PWS) that
creates training data for machine learning by prompting. In contrast to typical
PWS systems where weak supervision sources are programs coded by experts,
Alfred enables users to encode their subject matter expertise via natural
language prompts for language and vision-language models. Alfred provides a
simple Python interface for the key steps of this emerging paradigm, with a
high-throughput backend for large-scale data labeling. Users can quickly
create, evaluate, and refine their prompt-based weak supervision sources; map
the results to weak labels; and resolve their disagreements with a label model.
Alfred enables a seamless local development experience backed by models served
from self-managed computing clusters. It automatically optimizes the execution
of prompts with optimized batching mechanisms. We find that this optimization
improves query throughput by 2.9x versus a naive approach. We present two
example use cases demonstrating Alfred on YouTube comment spam detection and
pet breeds classification. Alfred is open source, available at
https://github.com/BatsResearch/alfred.Comment: ACL 2023 System Demonstration Trac
MetaQA: Combining Expert Agents for Multi-Skill Question Answering
The recent explosion of question answering (QA) datasets and models has
increased the interest in the generalization of models across multiple domains
and formats by either training on multiple datasets or by combining multiple
models. Despite the promising results of multi-dataset models, some domains or
QA formats may require specific architectures, and thus the adaptability of
these models might be limited. In addition, current approaches for combining
models disregard cues such as question-answer compatibility. In this work, we
propose to combine expert agents with a novel, flexible, and training-efficient
architecture that considers questions, answer predictions, and
answer-prediction confidence scores to select the best answer among a list of
answer candidates. Through quantitative and qualitative experiments we show
that our model i) creates a collaboration between agents that outperforms
previous multi-agent and multi-dataset approaches in both in-domain and
out-of-domain scenarios, ii) is highly data-efficient to train, and iii) can be
adapted to any QA format. We release our code and a dataset of answer
predictions from expert agents for 16 QA datasets to foster future developments
of multi-agent systems on https://github.com/UKPLab/MetaQA.Comment: Accepted at EACL 202
La recherche est-elle utile pour la gestion des aires protégées en Afrique centrale ?
Dans les aires protégées d’Afrique centrale, la recherche, sous diverses formes, a notamment pour but d’appuyer les décisions de gestion et de conservation. Cependant, le partage des résultats de recherche est souvent insuffisant, ainsi que le dialogue entre les chercheurs, les gestionnaires de terrain et les décideurs politiques. Il en résulte que la recherche dans les aires protégées n’est pas toujours en phase avec les priorités des gestionnaires. C’est dans ce cadre qu’a été réalisée cette expertise, afin d’éclaircir les liens fonctionnels entre la recherche, la gestion des aires protégées et les décisions politiques, tout en identifiant comment la recherche est produite, diffusée et utilisée dans les aires protégées d’Afrique centrale. Trois étapes méthodologiques ont permis de répondre à cet objectif : (i) une analyse bibliométrique de la littérature scientifique publiée au sujet de toutes les aires protégées d’Afrique centrale, (ii) un inventaire complet de la littérature scientifique et grise pour trois aires protégées soutenues par le Programme ECOFAC 6, avec une synthèse des recommandations de gestion concernant leurs thématiques prioritaires, et (iii) la capitalisation des expériences des gestionnaires au sujet des acteurs, questions, accessibilité et utilité de la recherche à travers des entretiens.
En rassemblant les articles scientifiques publiés durant les dix dernières années au sujet des aires protégées d’Afrique centrale, nous avons caractérisé l’effort de recherche selon différents critères : répartition géographique, évolution temporelle, langues, affiliations des auteurs, accessibilité et répartition par thématiques. Nous avons montré des différences importantes en nombre de publications scientifiques entre les dix pays d’Afrique centrale et entre les aires protégées. Durant les dix dernières années, le nombre d’articles publiés par an augmente mais reste inférieur à une publication par aire protégée et par an en moyenne. Trois conditions semblent être réunies dans les aires protégées où la production scientifique est riche : l’ancienneté de l’aire protégée, la présence d’une station de recherche permanente et un contexte sécuritaire stable. Plus de 95% des articles scientifiques sont publiés en anglais, avec moins d’un tiers des auteurs ayant une affiliation en Afrique centrale. Seuls 37% des articles sont disponibles gratuitement en accès libre sur internet. Garantir l’accès ouvert de ces publications et leur synthèse en français est essentiel pour permettre l’utilisation des résultats produits, de même que de privilégier les financements de chercheurs des Universités nationales. La majorité des publications étudie la biodiversité (principalement animale), alors que les recherches appliquées aux enjeux directs de gestion, au sujet des aspects humains, environnementaux et de santé, sont trop peu représentées. Il est crucial de revoir le rôle des acteurs locaux et nationaux dans le pilotage de la recherche vers des thématiques prioritaires pour chaque aire protégée.
En complément à la recherche scientifique, nous avons identifié la plus-value de la littérature grise (livres, rapports, mémoires etc.) à la production de connaissances utiles à la gestion de trois aires protégées soutenues par le Programme ECOFAC 6 : le Parc National de la Lopé (Gabon), le Parc National d’Odzala Kokoua (République du Congo) et la Réserve de Faune de Ouadi Rimé-Ouadi Achim (Tchad). Les recommandations issues de la littérature pour les dix dernières années ont été synthétisées, en termes de perspectives de recherche et d’actions concrètes de gestion. Nous avons montré que la littérature grise complète les publications scientifiques avec des informations de terrain et des données directement mobilisables par les gestionnaires. Les thématiques étudiées sont aussi différentes, avec une plus grande emphase sur les sujets appliqués à la gestion dans la littérature grise, tels que les aspects humains et environnementaux. Il est particulièrement utile pour la gestion des aires protégées de s’atteler à synthétiser les recommandations émises dans la littérature : les gestionnaires peuvent ainsi renforcer leurs actions de terrain et leur vision stratégique. Malgré tout, certaines recommandations ne s’appliquent pas à la réalité de terrain des gestionnaires : cela indique une déconnexion entre certains chercheurs et gestionnaires, avec des enjeux différents et un manque de communication entre les acteurs.
Après l’examen de la théorie et des connaissances produites, nous avons étudié l’utilisation concrète des résultats de recherche dans la gestion des aires protégées, en interrogeant directement les gestionnaires de terrain. Trois types d’entretiens nous ont permis d’identifier les acteurs, les questions, l’accessibilité et l’utilité de la recherche, dans une démarche de capitalisation des expériences des opérateurs du Programme ECOFAC 6 : un questionnaire en ligne, un atelier d’échange en groupe en présentiel, et des entretiens individuels par visioconférence. De manière générale, la recherche est perçue par les gestionnaires comme utile dans une démarche appliquée pour appuyer la gestion et les stratégies de conservation. Les gestionnaires accueillent très fréquemment des chercheurs extérieurs. Les accords de partenariats garantissent la restitution et la valorisation des résultats de la recherche auprès des gestionnaires. Les gestionnaires apportent un appui logistique et technique important aux chercheurs qu’ils accueillent, et les chercheurs contribuent au renforcement local des capacités. Néanmoins, dans beaucoup d’aires protégées, la formation du personnel de terrain doit être renforcée et les chercheurs se doivent d’y contribuer. Les résultats de recherche générés sont régulièrement utilisés par les gestionnaires, de différentes manières et pour différentes thématiques. Néanmoins, seulement un quart des gestionnaires ont défini leurs questions de recherche prioritaires dans un document et il existe beaucoup de données dormantes que personne n’utilise. Il subsiste donc un décalage important entre les sujets de recherche et les priorités de gestion, qui appelle au développement de recherches appliquées et stratégiques pour lesquelles les chercheurs devraient mieux se concerter avec les gestionnaires. Nous avons présenté de nombreux exemples inspirants qui démontrent qu’il est possible de coordonner les efforts de recherche aux priorités de gestion et de conservation dans les aires protégées. En outre, les publications scientifiques ne sont pas produites assez rapidement pour les besoins pratiques des gestionnaires, qui n’ont souvent même pas accès à ces documents. Les chercheurs ont la responsabilité de transmettre leurs recommandations aux gestionnaires d’aires protégées dans un délai compatible avec la prise de décision, déjà avant que leurs résultats soient publiés dans des revues scientifiques. Il est aussi essentiel de rendre l’accès aux résultats de recherche libre et sans contraintes pour les gestionnaires des aires protégées. La recherche est donc utile, mais seulement quand elle est orientée stratégiquement en cohérence avec les enjeux de gestion des aires protégées.
Nous terminons ce rapport d’expertise par une liste de 20 recommandations allant du financement de la recherche, à son exécution, la diffusion des résultats et leur utilisation concrète. Ces recommandations s’adressent aux gestionnaires d’aires protégées, aux États d’Afrique centrale et à la CEEAC/COMIFAC, aux institutions de recherche et de formation, aux bailleurs de fonds, ainsi qu’à la société civile. Nous invitons le lecteur à étudier ces recommandations détaillées (pages 53 à 57), mais citons notamment les recommandations essentielles suivantes : allouer des ressources suffisantes à la recherche dans les aires protégées, permettant de développer une vision stratégique et appliquée ; assurer des financements et projets sur le long terme (minimum 10 ans) ; fixer des engagements entre gestionnaires et chercheurs pour la diffusion des résultats de recherche ; favoriser les financements de mémoires, thèses de doctorats et post-doctorats pour produire une recherche efficace et utile ; soutenir l’OFAC pour la capitalisation des résultats de recherche ; concevoir des programmes de renforcement des capacités des gestionnaires pour la prise en main des données scientifiques, ainsi que de la société civile et des journalistes pour la vulgarisation scientifique ; permettre le renforcement des universités nationales par des partenariats de terrain avec les universités internationales ; produire une science plus inclusive en impliquant la diversité des acteurs dans la formulation des questions de recherche ; profiter des expériences positives du réseau de gestionnaires d’aires protégées pour renforcer les pratiques locales de gestion à de multiples niveaux ; générer des outils simples pour l’utilisation concrète des résultats de recherche dans la gestion ; définir un protocole simple de diffusion de la littérature produite à l’échelle régionale ; renforcer les procédures d’archivage numérique et physique des données et résultats de recherche à l’échelle des aires protégées ; faciliter la diffusion et l’appropriation des résultats de recherche par l’organisation de forums aux échelles régionale et paysagère rassemblant tous les acteurs concernés ; prioriser les efforts de capitalisation des futurs programmes de conservation
diagNNose: A Library for Neural Activation Analysis
In this paper we introduce diagNNose, an open source library for analysing
the activations of deep neural networks. diagNNose contains a wide array of
interpretability techniques that provide fundamental insights into the inner
workings of neural networks. We demonstrate the functionality of diagNNose with
a case study on subject-verb agreement within language models. diagNNose is
available at https://github.com/i-machine-think/diagnnose.Comment: Accepted to the Third BlackboxNLP Workshop on Analyzing and
Interpreting Neural Networks for NLP, EMNLP 202
Learning Answer Generation using Supervision from Automatic Question Answering Evaluators
Recent studies show that sentence-level extractive QA, i.e., based on Answer
Sentence Selection (AS2), is outperformed by Generation-based QA (GenQA)
models, which generate answers using the top-k answer sentences ranked by AS2
models (a la retrieval-augmented generation style). In this paper, we propose a
novel training paradigm for GenQA using supervision from automatic QA
evaluation models (GAVA). Specifically, we propose three strategies to transfer
knowledge from these QA evaluation models to a GenQA model: (i) augmenting
training data with answers generated by the GenQA model and labelled by GAVA
(either statically, before training, or (ii) dynamically, at every training
epoch); and (iii) using the GAVA score for weighting the generator loss during
the learning of the GenQA model. We evaluate our proposed methods on two
academic and one industrial dataset, obtaining a significant improvement in
answering accuracy over the previous state of the art.Comment: Accepted at ACL 202
Preserving Pre-trained Features Helps Calibrate Fine-tuned Language Models
Large pre-trained language models (PLMs) have demonstrated strong performance
on natural language understanding (NLU) tasks through fine-tuning. However,
fine-tuned models still suffer from overconfident predictions, especially in
out-of-domain settings. In this paper, we tackle the problem of calibrating
fine-tuned language models. We demonstrate that the PLMs are well-calibrated on
the masked language modeling task with robust predictive confidence under
domain shift, yet the fine-tuned models fail to retain such property due to
catastrophic forgetting, which impacts the calibration on the downstream
classification task. In light of these observations, we evaluate the
calibration of several methods that preserve pre-trained features and show that
preserving pre-trained features can improve the calibration of fine-tuned
language models. Among these methods, our proposed method that encourages the
fine-tuned model to learn generative representations with auxiliary language
modeling objective achieves competitive accuracy and the lowest expected
calibration error compared to several strong baselines under both in-domain and
out-of-domain settings on three downstream NLU tasks.Comment: ICLR 202
Energy and Carbon Considerations of Fine-Tuning BERT
Despite the popularity of the `pre-train then fine-tune' paradigm in the NLP
community, existing work quantifying energy costs and associated carbon
emissions has largely focused on language model pre-training. Although a single
pre-training run draws substantially more energy than fine-tuning, fine-tuning
is performed more frequently by many more individual actors, and thus must be
accounted for when considering the energy and carbon footprint of NLP. In order
to better characterize the role of fine-tuning in the landscape of energy and
carbon emissions in NLP, we perform a careful empirical study of the
computational costs of fine-tuning across tasks, datasets, hardware
infrastructure and measurement modalities. Our experimental results allow us to
place fine-tuning energy and carbon costs into perspective with respect to
pre-training and inference, and outline recommendations to NLP researchers and
practitioners who wish to improve their fine-tuning energy efficiency.Comment: EMNLP 2023 Findings; First two authors contributed equally; 12 page
Evidence-based factual error correction
This paper introduces the task of factual error correction: performing edits to a claim so that the generated rewrite is better supported by evidence. This extends the well-studied task of fact verification by providing a mechanism to correct written texts that are refuted or only partially supported by evidence. We demonstrate that it is feasible to train factual error correction systems from existing fact checking datasets which only contain labeled claims accompanied by evidence, but not the correction. We achieve this by employing a two-stage distant supervision approach that incorporates evidence into masked claims when generating corrections. Our approach, based on the T5 transformer and using retrieved evidence, achieved better results than existing work which used a pointer copy network and gold evidence, producing accurate factual error corrections for 5x more instances in human evaluation and a.125 increase in SARI score. The evaluation is conducted on a dataset of 65,000 instances based on a recent fact verification shared task and we release it to enable further work on the task
- …