62 research outputs found

    Vers la mitigation des biais en traitement neuronal des langues

    Full text link
    Il est de notoriété que les modèles d'apprentissage profond sont sensibles aux biais qui peuvent être présents dans les données utilisées pour l'apprentissage. Ces biais qui peuvent être définis comme de l'information inutile ou préjudiciable pour la tâche considérée, peuvent être de différentes natures: on peut par exemple trouver des biais dans les styles d'écriture utilisés, mais aussi des biais bien plus problématiques portant sur le sexe ou l'origine ethnique des individus. Ces biais peuvent provenir de différentes sources, comme des annotateurs ayant créé les bases de données, ou bien du processus d'annotation lui-même. Ma thèse a pour sujet l'étude de ces biais et, en particulier, s'organise autour de la mitigation des effets des biais sur l'apprentissage des modèles de Traitement Automatique des Langues (TAL). J'ai notamment beaucoup travaillé avec les modèles pré-entraînés comme BERT, RoBERTa ou UnifiedQA qui sont devenus incontournables ces dernières années dans tous les domaines du TAL et qui, malgré leur large pré-entraînement, sont très sensibles à ces problèmes de biais. Ma thèse s'organise en trois volets, chacun présentant une façon différente de gérer les biais présents dans les données. Le premier volet présente une méthode permettant d'utiliser les biais présents dans une base de données de résumé automatique afin d'augmenter la variabilité et la contrôlabilité des résumés générés. Puis, dans le deuxième volet, je m'intéresse à la génération automatique d'une base de données d'entraînement pour la tâche de question-réponse à choix multiples. L'intérêt d'une telle méthode de génération est qu'elle permet de ne pas faire appel à des annotateurs et donc d'éliminer les biais venant de ceux-ci dans les données. Finalement, je m'intéresse à l'entraînement d'un modèle multitâche pour la reconnaissance optique de texte. Je montre dans ce dernier volet qu'il est possible d'augmenter les performances de nos modèles en utilisant différents types de données (manuscrites et tapuscrites) lors de leur entraînement.It is well known that deep learning models are sensitive to biases that may be present in the data used for training. These biases, which can be defined as useless or detrimental information for the task in question, can be of different kinds: one can, for example, find biases in the writing styles used, but also much more problematic biases relating to the sex or ethnic origin of individuals. These biases can come from different sources, such as annotators who created the databases, or from the annotation process itself. My thesis deals with the study of these biases and, in particular, is organized around the mitigation of the effects of biases on the training of Natural Language Processing (NLP) models. In particular, I have worked a lot with pre-trained models such as BERT, RoBERTa or UnifiedQA which have become essential in recent years in all areas of NLP and which, despite their extensive pre-training, are very sensitive to these bias problems. My thesis is organized in three parts, each presenting a different way of managing the biases present in the data. The first part presents a method allowing to use the biases present in an automatic summary database in order to increase the variability and the controllability of the generated summaries. Then, in the second part, I am interested in the automatic generation of a training dataset for the multiple-choice question-answering task. The advantage of such a generation method is that it makes it possible not to call on annotators and therefore to eliminate the biases coming from them in the data. Finally, I am interested in training a multitasking model for optical text recognition. I show in this last part that it is possible to increase the performance of our models by using different types of data (handwritten and typed) during their training

    Seq-to-NSeq model for multi-summary generation

    Get PDF
    International audienceSummaries of texts and documents written by people present a high variability, depending on the information they want to focus on and their writing style. Despite recent progress in generative models and controllable text generation, automatic summarization systems are still relatively limited in their capacity to both generate various types of summaries and capture this variability from a corpus. We propose to address this challenge with a multi-decoder model for abstractive sentence summa-rization that generates several summaries from a single input text. This model is an extension of a sequence-to-sequence model in which multiple concurrent decoders with shared attention and embeddings are trained to generate different summaries that capture the variability of styles present in the corpus. The full model is trained jointly with an Expectation-Maximization algorithm. A first qualitative analysis of the resulting de-coders reveals clusters that tend to be consistent with respect to a given style, e.g., passive vs. active voice. The code and experimental setup are released as open source

    Un SIG pour connaître et pour gérer la plaisance dans le Finistère

    Get PDF
    En plus d’un réel atout de développement économique, la plaisance constitue un outil de promotion touristique pour le département du Finistère. Pourtant, cette activité qui s’est développée jusqu’à présent sans réel contrôle, ni organisation globale, nécessite une structuration en raison de son emprise spatiale croissante, de l’augmentation du nombre de pratiquants et de la pression qui en découle sur le littoral et sur ses différents usagers. Nautisme En Finistère (NEF) joue un rôle fédérateur pour l’organisation et le développement de la plaisance dans le département et, à ce titre, a engagé plusieurs études complémentaires visant à améliorer la connaissance de cette activité et des infrastructures liées. Les données collectées lors de ces études ont été intégrées à un système d’information géographique qui fourni la base d’un observatoire de la plaisance dans le Finistère sur lequel doivent s’appuyer les stratégies de gestion et de développement de cette activité en plein essor. Cet article présente ce SIG et les premiers résultats qui en sont issus. Le diagnostic du dispositif actuel d’accueil de la plaisance dans le Finistère est exposé. Les perspectives offertes par l’outil pour la gestion, l’interrogation, la mise à jour et la diffusion des données relatives à la plaisance ainsi que pour leur analyse en regard de données environnementales ou socio-économiques produites par des organismes variés sont également décrites et discutées.Recreational boating is regarded as an asset for economic development in the Département du Finistère, according to its direct incomes. It is seen also as a relevant medium to promote the image of the Département, especially in terms of environment quality and tourism facilities. However, until today this activity has developped without global planning, despite its spreading influence on coastal zone infrastructures and users. While promoting the development of recreational boating in the Département, Nautisme en Finistère, aims at improving its organization and its integration in the local socio-economical and environmental context. Indeed, NEF has ordered and coordinated several complementary studies to increase knowledge in recreational boating and its dedicated infrastructures in the Finistère. The data collected have been integrated into a GIS that provides a consistent frame for the implementation of an observatory dedicated to boating that will be used for the definition of management and development strategies of this thriving activity. This paper deals with presenting this GIS and its first outputs. The diagnosis of the Département capacities and facilities for boating is presented. The GIS potentialities for managing and spreading data about boating, but as well for cross-analysis with socio-economical and environmental data are also described and discussed

    Unsupervised post-tuning of deep neural networks

    Get PDF
    International audienceWe propose in this work a new unsupervised training procedure that is most effective when it is applied after supervised training and fine-tuning of deep neural network classifiers. While standard regularization techniques combat overfitting by means that are unrelated to the target classification loss, such as by minimizing the L2 norm or by adding noise either in the data, model or process, the proposed unsupervised training loss reduces overfitting by optimizing the true classifier risk. The proposed approach is evaluated on several tasks of increasing difficulty and varying conditions: unsupervised training, posttuning and anomaly detection. It is also tested both on simple neural networks, such as small multi-layer perceptron, and complex Natural Language Processing models, e.g., pretrained BERT embeddings. Experimental results confirm the theory and show that the proposed approach gives the best results in posttuning conditions, i.e., when applied after supervised training and fine-tuning

    The state of OAI-PMH repositories in Canadian Universities

    Full text link
    This article presents a study of the current state of Universities Institutional Repositories (UIRs) in Canada. UIRs are vital to sharing information and documents, mainly Electronic Thesis and Dissertation (ETDs), and theoretically allow anyone, anywhere, to access the documents contained within the repository. Despite calls for consistent and shareable metadata in these repositories, our literature review shows inconsistencies in UIRs, including incorrect use of metadata fields and the omission of crucial information, rendering the systematic analysis of UIR complex. Nonetheless, we collected the data of 57 Canadian UIRs with the aim of analyzing Canadian data and to assess the quality of its UIRs. This was surprisingly difficult due to the lack of information about the UIRs, and we attempt to ease future collection efforts by organizing vital information which are difficult to find, starting from addresses of UIRs. We furthermore present and analyze the main characteristics of the UIRs we managed to collect, using this dataset to create recommendations for future practitioners.Comment: Published at DCMI -- International conference on dublin core and metadata applications, 202

    Towards mitigating biases in natural language processing

    No full text
    Il est de notoriété que les modèles d'apprentissage profond sont sensibles aux biais qui peuvent être présents dans les données utilisées pour l'apprentissage. Ces biais qui peuvent être définis comme de l'information inutile ou préjudiciable pour la tâche considérée, peuvent être de différentes natures: on peut par exemple trouver des biais dans les styles d'écriture utilisés, mais aussi des biais bien plus problématiques portant sur le sexe ou l'origine ethnique des individus. Ces biais peuvent provenir de différentes sources, comme des annotateurs ayant créé les bases de données, ou bien du processus d'annotation lui-même. Ma thèse a pour sujet l'étude de ces biais et, en particulier, s'organise autour de la mitigation des effets des biais sur l'apprentissage des modèles de Traitement Automatique des Langues (TAL). J'ai notamment beaucoup travaillé avec les modèles pré-entraînés comme BERT, RoBERTa ou UnifiedQA qui sont devenus incontournables ces dernières années dans tous les domaines du TAL et qui, malgré leur large pré-entraînement, sont très sensibles à ces problèmes de biais. Ma thèse s'organise en trois volets, chacun présentant une façon différente de gérer les biais présents dans les données. Le premier volet présente une méthode permettant d'utiliser les biais présents dans une base de données de résumé automatique afin d'augmenter la variabilité et la contrôlabilité des résumés générés. Puis, dans le deuxième volet, je m'intéresse à la génération automatique d'une base de données d'entraînement pour la tâche de question-réponse à choix multiples. L'intérêt d'une telle méthode de génération est qu'elle permet de ne pas faire appel à des annotateurs et donc d'éliminer les biais venant de ceux-ci dans les données. Finalement, je m'intéresse à l'entraînement d'un modèle multitâche pour la reconnaissance optique de texte. Je montre dans ce dernier volet qu'il est possible d'augmenter les performances de nos modèles en utilisant différents types de données (manuscrites et tapuscrites) lors de leur entraînement.It is well known that deep learning models are sensitive to biases that may be present in the data used for training. These biases, which can be defined as useless or detrimental information for the task in question, can be of different kinds: one can, for example, find biases in the writing styles used, but also much more problematic biases relating to the sex or ethnic origin of individuals. These biases can come from different sources, such as annotators who created the databases, or from the annotation process itself. My thesis deals with the study of these biases and, in particular, is organized around the mitigation of the effects of biases on the training of Natural Language Processing (NLP) models. In particular, I have worked a lot with pre-trained models such as BERT, RoBERTa or UnifiedQA which have become essential in recent years in all areas of NLP and which, despite their extensive pre-training, are very sensitive to these bias problems.My thesis is organized in three parts, each presenting a different way of managing the biases present in the data. The first part presents a method allowing to use the biases present in an automatic summary database in order to increase the variability and the controllability of the generated summaries. Then, in the second part, I am interested in the automatic generation of a training dataset for the multiple-choice question-answering task. The advantage of such a generation method is that it makes it possible not to call on annotators and therefore to eliminate the biases coming from them in the data. Finally, I am interested in training a multitasking model for optical text recognition. I show in this last part that it is possible to increase the performance of our models by using different types of data (handwritten and typed) during their training

    Vers la mitigation des biais en traitement neuronal des langues

    No full text
    It is well known that deep learning models are sensitive to biases that may be present in the data used for training. These biases, which can be defined as useless or detrimental information for the task in question, can be of different kinds: one can, for example, find biases in the writing styles used, but also much more problematic biases relating to the sex or ethnic origin of individuals. These biases can come from different sources, such as annotators who created the databases, or from the annotation process itself. My thesis deals with the study of these biases and, in particular, is organized around the mitigation of the effects of biases on the training of Natural Language Processing (NLP) models. In particular, I have worked a lot with pre-trained models such as BERT, RoBERTa or UnifiedQA which have become essential in recent years in all areas of NLP and which, despite their extensive pre-training, are very sensitive to these bias problems.My thesis is organized in three parts, each presenting a different way of managing the biases present in the data. The first part presents a method allowing to use the biases present in an automatic summary database in order to increase the variability and the controllability of the generated summaries. Then, in the second part, I am interested in the automatic generation of a training dataset for the multiple-choice question-answering task. The advantage of such a generation method is that it makes it possible not to call on annotators and therefore to eliminate the biases coming from them in the data. Finally, I am interested in training a multitasking model for optical text recognition. I show in this last part that it is possible to increase the performance of our models by using different types of data (handwritten and typed) during their training.Il est de notoriété que les modèles d'apprentissage profond sont sensibles aux biais qui peuvent être présents dans les données utilisées pour l'apprentissage. Ces biais qui peuvent être définis comme de l'information inutile ou préjudiciable pour la tâche considérée, peuvent être de différentes natures: on peut par exemple trouver des biais dans les styles d'écriture utilisés, mais aussi des biais bien plus problématiques portant sur le sexe ou l'origine ethnique des individus. Ces biais peuvent provenir de différentes sources, comme des annotateurs ayant créé les bases de données, ou bien du processus d'annotation lui-même. Ma thèse a pour sujet l'étude de ces biais et, en particulier, s'organise autour de la mitigation des effets des biais sur l'apprentissage des modèles de Traitement Automatique des Langues (TAL). J'ai notamment beaucoup travaillé avec les modèles pré-entraînés comme BERT, RoBERTa ou UnifiedQA qui sont devenus incontournables ces dernières années dans tous les domaines du TAL et qui, malgré leur large pré-entraînement, sont très sensibles à ces problèmes de biais. Ma thèse s'organise en trois volets, chacun présentant une façon différente de gérer les biais présents dans les données. Le premier volet présente une méthode permettant d'utiliser les biais présents dans une base de données de résumé automatique afin d'augmenter la variabilité et la contrôlabilité des résumés générés. Puis, dans le deuxième volet, je m'intéresse à la génération automatique d'une base de données d'entraînement pour la tâche de question-réponse à choix multiples. L'intérêt d'une telle méthode de génération est qu'elle permet de ne pas faire appel à des annotateurs et donc d'éliminer les biais venant de ceux-ci dans les données. Finalement, je m'intéresse à l'entraînement d'un modèle multitâche pour la reconnaissance optique de texte. Je montre dans ce dernier volet qu'il est possible d'augmenter les performances de nos modèles en utilisant différents types de données (manuscrites et tapuscrites) lors de leur entraînement

    Vers la mitigation des biais en traitement neuronal des langues

    No full text
    It is well known that deep learning models are sensitive to biases that may be present in the data used for training. These biases, which can be defined as useless or detrimental information for the task in question, can be of different kinds: one can, for example, find biases in the writing styles used, but also much more problematic biases relating to the sex or ethnic origin of individuals. These biases can come from different sources, such as annotators who created the databases, or from the annotation process itself. My thesis deals with the study of these biases and, in particular, is organized around the mitigation of the effects of biases on the training of Natural Language Processing (NLP) models. In particular, I have worked a lot with pre-trained models such as BERT, RoBERTa or UnifiedQA which have become essential in recent years in all areas of NLP and which, despite their extensive pre-training, are very sensitive to these bias problems.My thesis is organized in three parts, each presenting a different way of managing the biases present in the data. The first part presents a method allowing to use the biases present in an automatic summary database in order to increase the variability and the controllability of the generated summaries. Then, in the second part, I am interested in the automatic generation of a training dataset for the multiple-choice question-answering task. The advantage of such a generation method is that it makes it possible not to call on annotators and therefore to eliminate the biases coming from them in the data. Finally, I am interested in training a multitasking model for optical text recognition. I show in this last part that it is possible to increase the performance of our models by using different types of data (handwritten and typed) during their training.Il est de notoriété que les modèles d'apprentissage profond sont sensibles aux biais qui peuvent être présents dans les données utilisées pour l'apprentissage. Ces biais qui peuvent être définis comme de l'information inutile ou préjudiciable pour la tâche considérée, peuvent être de différentes natures: on peut par exemple trouver des biais dans les styles d'écriture utilisés, mais aussi des biais bien plus problématiques portant sur le sexe ou l'origine ethnique des individus. Ces biais peuvent provenir de différentes sources, comme des annotateurs ayant créé les bases de données, ou bien du processus d'annotation lui-même. Ma thèse a pour sujet l'étude de ces biais et, en particulier, s'organise autour de la mitigation des effets des biais sur l'apprentissage des modèles de Traitement Automatique des Langues (TAL). J'ai notamment beaucoup travaillé avec les modèles pré-entraînés comme BERT, RoBERTa ou UnifiedQA qui sont devenus incontournables ces dernières années dans tous les domaines du TAL et qui, malgré leur large pré-entraînement, sont très sensibles à ces problèmes de biais. Ma thèse s'organise en trois volets, chacun présentant une façon différente de gérer les biais présents dans les données. Le premier volet présente une méthode permettant d'utiliser les biais présents dans une base de données de résumé automatique afin d'augmenter la variabilité et la contrôlabilité des résumés générés. Puis, dans le deuxième volet, je m'intéresse à la génération automatique d'une base de données d'entraînement pour la tâche de question-réponse à choix multiples. L'intérêt d'une telle méthode de génération est qu'elle permet de ne pas faire appel à des annotateurs et donc d'éliminer les biais venant de ceux-ci dans les données. Finalement, je m'intéresse à l'entraînement d'un modèle multitâche pour la reconnaissance optique de texte. Je montre dans ce dernier volet qu'il est possible d'augmenter les performances de nos modèles en utilisant différents types de données (manuscrites et tapuscrites) lors de leur entraînement

    Etude expérimentale et théorique de microcaloducs en technologie silicium

    No full text
    Les réseaux de microcaloducs en silicium sont des systèmes intégrables dans des composants électroniques pour assurer leur refroidissement. Des réseaux de 27 microcanaux triangulaires de 2 cm de long, 500 micromètres d ouverture et 350 micromètres de profondeur ont été réalisés par gravure anisotrope humide d une plaquette de silicium et assemblage moléculaire d une plaquette de fermeture en silicium. Le remplissage et les essais thermiques des réseaux ont été réalisés sur un banc d essais permettant de faire varier la charge du fluide. Les mesures de températures sont assurées par des thermocouples montés sur la parois ou par des thermistances en silicium polycristallin intégrées au silicium. La conductivité thermique équivalente d un réseau est déterminée grâce à un modèle numérique tridimensionnel. Elle est égale à celle du réseau vide si le taux de remplissage du réseau est supérieur à 0,50, et elle est maximale pour de faibles taux de remplissage, de l ordre 10 %. L augmentation maximale de cette conductivité est de 41 % dans le cas du méthanol et du pentane, elle est de 12 % pour l éthanol et nulle pour l eau et le FC72. Dans le cas du méthanol, l influence de la nature de la paroi sur les performances est importante, alors que celles de la puissance dissipée et de la température de fonctionnement sont faibles. Plusieurs modèles numériques de microcaloducs ont été développés, ils permettent de calculer le rayon de courbure interfacial, les pressions, les vitesses des écoulements et les températures de la paroi et de saturation pour un fonctionnement optimal ou pour une masse de fluide et une puissance thermique imposées.Silicon micro heat pipe arrays are systems that can be integrated in electronic components to ensure their proper cooling. Arrays of 27 triangular micro heat pipes 20 mm long, 500 micrometers wide and 350 micrometers deep are micro machined by chemical anisotropic etching of a silicon wafer using a potassium hydroxide solution. They are closed by molecular bonding of a bulk silicon wafer. The experimental set-up enables to evacuate the arrays, fill them with working fluid and to measure their wall temperatures under known thermal conditions. Thermal captors are either thermocouples or polycrystalline silicon thermistances. The effective thermal conductivity is determined with a three-dimensional numerical model. For filling ratios superior to 0.5, it is equal to the conductivity of the empty array, whereas it is maxima for weak filling ratios, close to 0.10. Its maximal improvement is 41 % for methanol and pentane, 12 % for ethanol and null for water and FC72. The effect of the wall surface on the micro heat pipe performances is important. The effects of the input power and the cooling temperature are weak. The different models developed enable to calculate the evolutions of the curvature radius, of the pressures and the speeds of the liquid and vapour flows and the wall and saturation temperatures for optimal operation or for imposed thermal conditions.VILLEURBANNE-DOC'INSA LYON (692662301) / SudocSudocFranceF

    Etude expérimentale et théorique de microcaloducs en technologie silicium

    No full text
    Les réseaux de microcaloducs en silicium sont des systèmes intégrables dans des composants électroniques pour assurer leur refroidissement. Des réseaux de 27 microcanaux triangulaires de 2 cm de long, 500 micromètres d ouverture et 350 micromètres de profondeur ont été réalisés par gravure anisotrope humide d une plaquette de silicium et assemblage moléculaire d une plaquette de fermeture en silicium. Le remplissage et les essais thermiques des réseaux ont été réalisés sur un banc d essais permettant de faire varier la charge du fluide. Les mesures de températures sont assurées par des thermocouples montés sur la parois ou par des thermistances en silicium polycristallin intégrées au silicium. La conductivité thermique équivalente d un réseau est déterminée grâce à un modèle numérique tridimensionnel. Elle est égale à celle du réseau vide si le taux de remplissage du réseau est supérieur à 0,50, et elle est maximale pour de faibles taux de remplissage, de l ordre 10 %. L augmentation maximale de cette conductivité est de 41 % dans le cas du méthanol et du pentane, elle est de 12 % pour l éthanol et nulle pour l eau et le FC72. Dans le cas du méthanol, l influence de la nature de la paroi sur les performances est importante, alors que celles de la puissance dissipée et de la température de fonctionnement sont faibles. Plusieurs modèles numériques de microcaloducs ont été développés, ils permettent de calculer le rayon de courbure interfacial, les pressions, les vitesses des écoulements et les températures de la paroi et de saturation pour un fonctionnement optimal ou pour une masse de fluide et une puissance thermique imposées.Silicon micro heat pipe arrays are systems that can be integrated in electronic components to ensure their proper cooling. Arrays of 27 triangular micro heat pipes 20 mm long, 500 micrometers wide and 350 micrometers deep are micro machined by chemical anisotropic etching of a silicon wafer using a potassium hydroxide solution. They are closed by molecular bonding of a bulk silicon wafer. The experimental set-up enables to evacuate the arrays, fill them with working fluid and to measure their wall temperatures under known thermal conditions. Thermal captors are either thermocouples or polycrystalline silicon thermistances. The effective thermal conductivity is determined with a three-dimensional numerical model. For filling ratios superior to 0.5, it is equal to the conductivity of the empty array, whereas it is maxima for weak filling ratios, close to 0.10. Its maximal improvement is 41 % for methanol and pentane, 12 % for ethanol and null for water and FC72. The effect of the wall surface on the micro heat pipe performances is important. The effects of the input power and the cooling temperature are weak. The different models developed enable to calculate the evolutions of the curvature radius, of the pressures and the speeds of the liquid and vapour flows and the wall and saturation temperatures for optimal operation or for imposed thermal conditions.VILLEURBANNE-DOC'INSA LYON (692662301) / SudocSudocFranceF
    • …
    corecore