41 research outputs found

    "Honey, Tell Me What's Wrong", Global Explanation of Textual Discriminative Models through Cooperative Generation

    Full text link
    The ubiquity of complex machine learning has raised the importance of model-agnostic explanation algorithms. These methods create artificial instances by slightly perturbing real instances, capturing shifts in model decisions. However, such methods rely on initial data and only provide explanations of the decision for these. To tackle these problems, we propose Therapy, the first global and model-agnostic explanation method adapted to text which requires no input dataset. Therapy generates texts following the distribution learned by a classifier through cooperative generation. Because it does not rely on initial samples, it allows to generate explanations even when data is absent (e.g., for confidentiality reasons). Moreover, conversely to existing methods that combine multiple local explanations into a global one, Therapy offers a global overview of the model behavior on the input space. Our experiments show that although using no input data to generate samples, Therapy provides insightful information about features used by the classifier that is competitive with the ones from methods relying on input samples and outperforms them when input samples are not specific to the studied model.Comment: 8 pages plus references and 2 pages of appendices. 7 figures and 2 table

    PPL-MCTS: Constrained Textual Generation Through Discriminator-Guided MCTS Decoding

    Full text link
    Large language models (LM) based on Transformers allow to generate plausible long texts. In this paper, we explore how this generation can be further controlled at decoding time to satisfy certain constraints (e.g. being non-toxic, conveying certain emotions, using a specific writing style, etc.) without fine-tuning the LM. Precisely, we formalize constrained generation as a tree exploration process guided by a discriminator that indicates how well the associated sequence respects the constraint. This approach, in addition to being easier and cheaper to train than fine-tuning the LM, allows to apply the constraint more finely and dynamically. We propose several original methods to search this generation tree, notably the Monte Carlo Tree Search (MCTS) which provides theoretical guarantees on the search efficiency, but also simpler methods based on re-ranking a pool of diverse sequences using the discriminator scores. These methods are evaluated, with automatic and human-based metrics, on two types of constraints and languages: review polarity and emotion control in French and English. We show that discriminator-guided MCTS decoding achieves state-of-the-art results without having to tune the language model, in both tasks and languages. We also demonstrate that other proposed decoding methods based on re-ranking can be really effective when diversity among the generated propositions is encouraged.Comment: 15 pages, 5 tables, 7 figures, accepted to NAACL 202

    Multitask Prompted Training Enables Zero-Shot Task Generalization

    Get PDF
    International audienceLarge language models have recently been shown to attain reasonable zero-shot generalization on a diverse set of tasks (Brown et al., 2020). It has been hypothesized that this is a consequence of implicit multitask learning in language models’ pretraining (Radford et al., 2019). Can zero-shot generalization instead be directly induced by explicit multitask learning? To test this question at scale, we develop a system for easily mapping any natural language tasks into a human-readable prompted form. We convert a large set of supervised datasets, each with multiple prompts with diverse wording. These prompted datasets allow for benchmarking the ability of a model to perform completely held-out tasks. We fine-tune a pre-trained encoder-decoder model (Raffel et al., 2020; Lester et al., 2021) on this multitask mixture covering a wide variety of tasks. The model attains strong zero-shot performance on several standard datasets, often outperforming models up to 16x its size. Further, our approach attains strong performance on a subset of tasks from the BIG-bench benchmark, outperforming models up to 6x its size. All trained models are available at https://github.com/bigscience-workshop/t-zero, and all prompts are available at https://github.com/bigscience-workshop/promptsource

    BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

    Full text link
    Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License

    Détection de désinformation multimodale : surmonter le défi de la collecte de données d'entraînement grâce à la génération de données

    No full text
    To tackle the growing issue of misinformation, automated fact-check tools are required. Because images are often found within misinformation, these models need to be multimodal. Collecting enough unbiased data to train the models is challenging. In this thesis, we explore how generative models can be used for discriminative tasks when there is a lack of data. To tackle the sparse rewards issue of textual GANs, we explore cooperative generation where the generator is guided by an external model and present a novel method based on the MCTS. We then use cooperative generation to generate explanations of black-box models and conduct an empirical study on the complexity/quality of different types of models in the cooperative setup. Finally, we explore the use of ground truth caption in a reinforcement learning training of an image captioning model using rewards from a cross-modal retriever. We conclude by discussing the opportunities and risks of generative models in the context of misinformation as well as watermarking.Pour répondre au problème croissant de la désinformation, des outils de vérification automatique de l'information sont nécessaires. Des images étant fréquemment associées à la désinformation, ces modèles doivent être multimodaux. La collecte de suffisamment de données non biaisées nécessaires pour entraîner les modèles est un défi. Dans cette thèse, nous explorons comment les modèles génératifs peuvent être utilisés pour des tâches discriminatives en cas de manque de données. Pour résoudre le problème des récompenses clairsemées des GAN textuels, nous explorons la génération coopérative, où le générateur est guidé par un modèle externe, et nous présentons une méthode originale basée sur le MCTS. Ensuite, nous utilisons la génération coopérative pour créer des explications de modèles boîte noire et réalisons une étude empirique sur la complexité/qualité de différents types de modèles dans le cadre de cette coopération. Enfin, nous explorons l'utilisation de légendes humaines dans l'apprentissage par renforcement d'un modèle de légendage d'images en utilisant des récompenses d'un modèle de recherche cross-modal. Nous concluons en discutant des opportunités et des risques des modèles génératifs dans le contexte de la désinformation et en abordant la question du tatouage numérique

    Détection de désinformation multimodale : surmonter le défi de la collecte de données d'entraînement grâce à la génération de données

    No full text
    To tackle the growing issue of misinformation, automated fact-check tools are required. Because images are often found within misinformation, these models need to be multimodal. Collecting enough unbiased data to train the models is challenging. In this thesis, we explore how generative models can be used for discriminative tasks when there is a lack of data. To tackle the sparse rewards issue of textual GANs, we explore cooperative generation where the generator is guided by an external model and present a novel method based on the MCTS. We then use cooperative generation to generate explanations of black-box models and conduct an empirical study on the complexity/quality of different types of models in the cooperative setup. Finally, we explore the use of ground truth caption in a reinforcement learning training of an image captioning model using rewards from a cross-modal retriever. We conclude by discussing the opportunities and risks of generative models in the context of misinformation as well as watermarking.Pour répondre au problème croissant de la désinformation, des outils de vérification automatique de l'information sont nécessaires. Des images étant fréquemment associées à la désinformation, ces modèles doivent être multimodaux. La collecte de suffisamment de données non biaisées nécessaires pour entraîner les modèles est un défi. Dans cette thèse, nous explorons comment les modèles génératifs peuvent être utilisés pour des tâches discriminatives en cas de manque de données. Pour résoudre le problème des récompenses clairsemées des GAN textuels, nous explorons la génération coopérative, où le générateur est guidé par un modèle externe, et nous présentons une méthode originale basée sur le MCTS. Ensuite, nous utilisons la génération coopérative pour créer des explications de modèles boîte noire et réalisons une étude empirique sur la complexité/qualité de différents types de modèles dans le cadre de cette coopération. Enfin, nous explorons l'utilisation de légendes humaines dans l'apprentissage par renforcement d'un modèle de légendage d'images en utilisant des récompenses d'un modèle de recherche cross-modal. Nous concluons en discutant des opportunités et des risques des modèles génératifs dans le contexte de la désinformation et en abordant la question du tatouage numérique

    Détection de désinformation multimodale : surmonter le défi de la collecte de données d'entraînement grâce à la génération de données

    No full text
    To tackle the growing issue of misinformation, automated fact-check tools are required. Because images are often found within misinformation, these models need to be multimodal. Collecting enough unbiased data to train the models is challenging. In this thesis, we explore how generative models can be used for discriminative tasks when there is a lack of data. To tackle the sparse rewards issue of textual GANs, we explore cooperative generation where the generator is guided by an external model and present a novel method based on the MCTS. We then use cooperative generation to generate explanations of black-box models and conduct an empirical study on the complexity/quality of different types of models in the cooperative setup. Finally, we explore the use of ground truth caption in a reinforcement learning training of an image captioning model using rewards from a cross-modal retriever. We conclude by discussing the opportunities and risks of generative models in the context of misinformation as well as watermarking.Pour répondre au problème croissant de la désinformation, des outils de vérification automatique de l'information sont nécessaires. Des images étant fréquemment associées à la désinformation, ces modèles doivent être multimodaux. La collecte de suffisamment de données non biaisées nécessaires pour entraîner les modèles est un défi. Dans cette thèse, nous explorons comment les modèles génératifs peuvent être utilisés pour des tâches discriminatives en cas de manque de données. Pour résoudre le problème des récompenses clairsemées des GAN textuels, nous explorons la génération coopérative, où le générateur est guidé par un modèle externe, et nous présentons une méthode originale basée sur le MCTS. Ensuite, nous utilisons la génération coopérative pour créer des explications de modèles boîte noire et réalisons une étude empirique sur la complexité/qualité de différents types de modèles dans le cadre de cette coopération. Enfin, nous explorons l'utilisation de légendes humaines dans l'apprentissage par renforcement d'un modèle de légendage d'images en utilisant des récompenses d'un modèle de recherche cross-modal. Nous concluons en discutant des opportunités et des risques des modèles génératifs dans le contexte de la désinformation et en abordant la question du tatouage numérique

    "Honey, Tell Me What's Wrong", Explicabilité Globale des Modèles de TAL par la Génération Coopérative

    No full text
    National audienceL'omniprésence de l'apprentissage automatique a mis en lumière l'importance des algorithmes d'explicabilité. Parmi ces algorithmes, les méthodes agnostiques au type de modèle génèrent des exemples artificiels en modifiant légèrement les données originales. Elles observent ensuite les changements de décision du modèle sur ces exemples artificiels. Cependant, de telles méthodes nécessitent d'avoir des exemples initiaux et fournissent des explications uniquement sur la décision pour ces derniers. Pour répondre à ces problématiques, nous proposons Therapy, la première méthode d'explicabilité modèle-agnostique pour les modèles de langue qui ne nécessite pas de données en entrée. Cette méthode génère des textes qui suivent la distribution apprise par le classifieur à expliquer grâce à la génération coopérative. Ne pas dépendre d'exemples initiaux permet, en plus d'être applicable lorsqu'aucune donnée n'est disponible (e.g, pour des raisons de confidentialité), de fournir des explications sur le fonctionnement global du modèle au lieu de plusieurs explications locales, offrant ainsi une vue d'ensemble du fonctionnement du modèle. Nos expériences montrent que, même sans données en entrée, Therapy fournit des informations instructives sur les caractéristiques des textes utilisées par le classifieur qui sont compétitives avec celles fournies par les méthodes utilisant des données

    "Honey, Tell Me What's Wrong", Explicabilité Globale des Modèles de TAL par la Génération Coopérative

    No full text
    National audienceL'omniprésence de l'apprentissage automatique a mis en lumière l'importance des algorithmes d'explicabilité. Parmi ces algorithmes, les méthodes agnostiques au type de modèle génèrent des exemples artificiels en modifiant légèrement les données originales. Elles observent ensuite les changements de décision du modèle sur ces exemples artificiels. Cependant, de telles méthodes nécessitent d'avoir des exemples initiaux et fournissent des explications uniquement sur la décision pour ces derniers. Pour répondre à ces problématiques, nous proposons Therapy, la première méthode d'explicabilité modèle-agnostique pour les modèles de langue qui ne nécessite pas de données en entrée. Cette méthode génère des textes qui suivent la distribution apprise par le classifieur à expliquer grâce à la génération coopérative. Ne pas dépendre d'exemples initiaux permet, en plus d'être applicable lorsqu'aucune donnée n'est disponible (e.g, pour des raisons de confidentialité), de fournir des explications sur le fonctionnement global du modèle au lieu de plusieurs explications locales, offrant ainsi une vue d'ensemble du fonctionnement du modèle. Nos expériences montrent que, même sans données en entrée, Therapy fournit des informations instructives sur les caractéristiques des textes utilisées par le classifieur qui sont compétitives avec celles fournies par les méthodes utilisant des données

    Generating artificial texts as substitution or complement of training data

    No full text
    8 pagesThe quality of artificially generated texts has considerably improved with the advent of transformers. The question of using these models to generate learning data for supervised learning tasks naturally arises. In this article, this question is explored under 3 aspects: (i) are artificial data an efficient complement? (ii) can they replace the original data when those are not available or cannot be distributed for confidentiality reasons? (iii) can they improve the explainability of classifiers? Different experiments are carried out on Web-related classification tasks -- namely sentiment analysis on product reviews and Fake News detection -- using artificially generated data by fine-tuned GPT-2 models. The results show that such artificial data can be used in a certain extend but require pre-processing to significantly improve performance. We show that bag-of-word approaches benefit the most from such data augmentation
    corecore