42 research outputs found

    Vers un désenchevêtrement de l'ambiguïté de la tâche et de l'incertitude du modèle pour la classification avec option de rejet à l'aide de réseaux neuronaux

    Get PDF
    International audienceClassification with reject option is a way to address the problem of estimating the uncertainty of a classifier. Recent approaches to this problem use criteria based on either a confidence or a dispersion measure. However, they do not explicitly combine the two main sources of uncertainty : the ambiguity of the task, inherent to it, and the uncertainty of the model, resulting from data sampling and stochasticity of learning process. In this article, we explore how these two quantities can be merged to build more effective rejection criteria. In particular, we propose methods for combining disagreement measures and ambiguity estimates using an ensemble of models. Experiments on synthetic data sets constructed to model different types of uncertainties indicate that these new criteria have similar performance to the baselines. Nevertheless, more in-depth analyses show empirical evidence that highlights the existence of additional information in the distribution of the overall results. In practice, the ideal rejector may be a more complex function than the previous criteria, and may even be counter-intuitive at times.La classification avec option de rejet est un moyen d'aborder le problème de l'estimation de l'incertitude d'un classifieur. Les approches récentes s'attaquant à ce problème utilisent des critères basés sur une mesure, soit, de confiance, soit, de dispersion. Cependant, aucune d'entre elles ne combine explicitement les deux principales sources d'incertitude : l'ambiguïté de la tâche, intrinsèque à celle-ci, et l'incertitude du modèle, découlant de l'échantillon-nage des données et de la stochasticité de l'apprentissage. Dans cet article, nous explorons comment ces deux quantités peuvent être fusionnées afin d'établir des critères de rejet plus efficaces. En particulier, nous proposons une série de méthodes combinant des mesures de désaccord et des estimations de l'ambiguïté en utilisant un ensemble de modèles. Des expériences sur des jeux de données synthé-tiques construits pour modéliser différents types d'incertitudes indiquent que ces nouveaux critères ont des performances similaires aux méthodes de référence. Néanmoins, des analyses plus approfondies montrent des indices empiriques qui mettent en avant l'existence d'information supplémentaire dans la distribution des résultats de l'ensemble. Dans les faits, le réjecteur idéal peut être une fonction plus complexe que les critères précédents, et peut même parfois être contre-intuitif

    Multi-Label Learning From Single Positive Labels

    Get PDF
    Predicting all applicable labels for a given image is known as multi-label classification. Compared to the standard multi-class case (where each image has only one label), it is considerably more challenging to annotate training data for multi-label classification. When the number of potential labels is large, human annotators find it difficult to mention all applicable labels for each training image. Furthermore, in some settings detection is intrinsically difficult e.g. finding small object instances in high resolution images. As a result, multi-label training data is often plagued by false negatives. We consider the hardest version of this problem, where annotators provide only one relevant label for each image. As a result, training sets will have only one positive label per image and no confirmed negatives. We explore this special case of learning from missing labels across four different multi-label image classification datasets for both linear classifiers and end-to-end fine-tuned deep networks. We extend existing multi-label losses to this setting and propose novel variants that constrain the number of expected positive labels during training. Surprisingly, we show that in some cases it is possible to approach the performance of fully labeled classifiers despite training with significantly fewer confirmed labels.Comment: CVPR 2021. Supplementary material include

    A comparative study of fine-grained classification methods in the context of the LifeCLEF plant identification challenge 2015

    Get PDF
    International audienceThis paper describes the participation of Inria to the plant identification task of the LifeCLEF 2015 challenge. The aim of the task was to produce a list of relevant species for a large set of plant observations related to 1000 species of trees, herbs and ferns living in Western Europe. Each plant observation contained several annotated pictures with organ/view tags: Flower, Leaf, Fruit, Stem, Branch, Entire, Scan (exclusively of leaf). To address this challenge, we experimented two popular families of classification techniques, i.e. convolutional neural networks (CNN) on one side and fisher vectors-based discriminant models on the other side. Our results show that the CNN approach achieves much better performance than the fisher vectors. Beyond, we show that the fusion of both techniques, based on a Bayesian inference using the confusion matrix of each classifier, did not improve the results of the CNN alone

    Overview of LifeCLEF location-based species prediction task 2020 (GeoLifeCLEF)

    Get PDF
    International audienceUnderstanding the geographic distribution of species is a key concern in conservation. By pairing species occurrences with environmental features, researchers can model the relationship between an environment and the species which may be found there. To advance the state-of-the-art in this area, a large-scale machine learning competition called GeoLifeCLEF 2020 was organized. It relied on a dataset of 1.9 million species observations paired with high-resolution remote sensing imagery, land cover data, and altitude, in addition to traditional low-resolution climate and soil variables. This paper presents an overview of the competition , synthesizes the approaches used by the participating groups, and analyzes the main results. In particular, we highlight the ability of remote sensing imagery and convolutional neural networks to improve predictive performance, complementary to traditional approaches

    Pl@ntNet-300K: a plant image dataset with high label ambiguity and a long-tailed distribution

    Get PDF
    International audienceThis paper presents a novel image dataset with high intrinsic ambiguity and a longtailed distribution built from the database of Pl@ntNet citizen observatory. It consists of 306,146 plant images covering 1,081 species. We highlight two particular features of the dataset, inherent to the way the images are acquired and to the intrinsic diversity of plants morphology: (i) the dataset has a strong class imbalance, i.e., a few species account for most of the images, and, (ii) many species are visually similar, rendering identification difficult even for the expert eye. These two characteristics make the present dataset well suited for the evaluation of set-valued classification methods and algorithms. Therefore, we recommend two set-valued evaluation metrics associated with the dataset (macro-average top-k accuracy and macro-average average-k accuracy) and we provide baseline results established by training deep neural networks using the cross-entropy loss

    Machine learning using digitized herbarium specimens to advance phenological research

    Get PDF
    Machine learning (ML) has great potential to drive scientific discovery by harvesting data from images of herbarium specimens—preserved plant material curated in natural history collections—but ML techniques have only recently been applied to this rich resource. ML has particularly strong prospects for the study of plant phenological events such as growth and reproduction. As a major indicator of climate change, driver of ecological processes, and critical determinant of plant fitness, plant phenology is an important frontier for the application of ML techniques for science and society. In the present article, we describe a generalized, modular ML workflow for extracting phenological data from images of herbarium specimens, and we discuss the advantages, limitations, and potential future improvements of this workflow. Strategic research and investment in specimen-based ML methods, along with the aggregation of herbarium specimen data, may give rise to a better understanding of life on Earth

    Incertitude des prédictions dans les modèles d'apprentissage profonds appliqués à la classification fine

    No full text
    Deep neural networks have shown dramatic improvements in a lot of supervised classification tasks. Such models are usually trained with the objective to ultimately minimize the top-1 error rate. Although this approach is very powerful, it averages out the uncertainty of individual samples and does not capture if on a given data point this prediction is reliable or not and why.In real-world scenarios, it can actually be impossible - even for an oracle - to determine the exact label of a given data item because it does not, by itself, contain sufficient evidence to decide between several similar classes. Unlike multi-task classification where each data sample is associated with several labels, here, each item corresponds to exactly one label but this latter is uncertain. For instance, an image of a plant leaf might not be enough to distinguish between several possible species sharing the same leaf morphology. In fine-grained classification problems, most data samples intrinsically contain a certain amount of such label ambiguity even if they are associated with a single hard label. Furthermore, the model itself introduces additional uncertainty in the prediction because it is learned using a finite training dataset.This uncertainty is expected to be progressively reduced by increasing the training set size contrary to the intrinsic ambiguity of the data items which is theoretically irreducible.The goal of this PhD is to study these two types of uncertainties in a decision-theoretic framework. To do so, we propose to move away from the classic top-1 prediction error rate which solely requires to estimate the most probable class. Instead, we pick decision frameworks that force the model to learn more structure about the existing uncertainty. In particular, we focus on two frameworks: (i) adding the opportunity for the classifier to refuse to answer, usually referred to as classification with reject option, and (ii) allowing the classifier to output a set of possible labels rather than a single one, which is known as set-valued classification.We first study how uncertainty information can be exploited to tackle classification with reject option. In this framework, the predictor is a pair containing a classifier and a rejector. By fixing the classifier and focusing on the rejector, we can study how uncertainty information about the classifier can be leveraged to hopefully build a better rejection criterion. Unfortunately, we empirically show that it is difficult to separate both forms of uncertainty and recombine them properly. Based on this observation, we then focus on the first form of uncertainty, task ambiguity, and study natural frameworks to handle it: set-valued classification. There are several ways to predict sets. The most naive approach is to predict the K most probable classes. However, this assumes that all the samples have the same level of ambiguity which is known to be wrong in most cases. Instead, we propose to use average-K: the predictor can output sets of different sizes but on average their size must be equal to K. We then generalize to other adaptive set-valued classification approaches and propose a framework unifying most of them. In particular, we show several ways to construct such classifiers depending on the constraints on the error rate and on the set size and study their relative advantages and weaknesses.Les réseaux neuronaux profonds ont permis des améliorations spectaculaires dans de nombreuses tâches de classification supervisées. Ces modèles sont généralement entraînés avec pour objectif final de minimiser le taux d’erreur en top 1. Bien que cette approche soit très puissante, elle moyenne l’incertitude des échantillons individuels et ne permet pas de savoir si, sur un point de données donné, cette prévision est fiable ou non et pourquoi.Dans des cas réels, il peut être impossible (même pour un oracle) de déterminer l’étiquette exacte d’un échantillon donné car il ne contient pas, en soi, de preuves suffisantes pour trancher entre plusieurs classes similaires. Contrairement à la classification multitâche où chaque échantillon de données est associé à plusieurs étiquettes, ici, chaque donnée correspond exactement à une classe, mais cette dernière est incertaine. Par exemple, une image d’une feuille de plante peut ne pas suffire à distinguer plusieurs espèces possibles partageant la même morphologie de feuille. Dans les problèmes de classification à grain fin, la plupart des échantillons de données contiennent intrinsèquement un certain niveau de cette ambiguïté sur l’étiquette, même s’ils sont associés à une seule vraie étiquette. En outre, le modèle lui-même introduit une incertitude supplémentaire dans ses prédictions car il est entraîné à l’aide d’un jeu de données d’apprentissage fini. Cette incertitude devrait être progressivement réduite en augmentant la taille de cette ensemble d’apprentissage, contrairement à l’ambiguïté intrinsèque des données qui est théoriquement irréductible.L’objectif de ce doctorat est d’étudier ces deux types d’incertitudes dans le cadre de la théorie de la décision. Pour ce faire, nous proposons de mettre de côté le taux d’erreur de prédiction en top 1 classique qui ne nécessite que l’estimation de la classe la plus probable. Nous proposons plutôt de nous intéresser à des cadres décisionnels qui forcent le modèle à mieux apprendre la structure de l’incertitude existante. En particulier, nous nous concentrons sur deux cadres : (i) ajouter la possibilité pour le classifieur de refuser de répondre, généralement appelé classification avec option de rejet, et (ii) en autorisant au classifieur de produire un ensemble d’étiquettes possibles plutôt qu’une seule, ce qui est connu sous le nom de prédiction d’ensembles.Nous étudions d’abord comment l’information d’incertitude peut être exploitée pour traiter la classification avec option de rejet. Dans cette configuration, le prédicteur est une paire comprenant un classifieur et un rejeteur. En fixant le classifieur et en étudiant le rejeteur, nous pouvons étudier comment l’information d’incertitude concernant le classifieur peut être exploitée pour éventuellement construire un meilleur critère de rejet. Malheureusement, nous montrons empiriquement qu’il est difficile de séparer les deux formes d’incertitude et de les recombiner correctement. Sur la base de cette observation, nous nous concentrons ensuite sur la première forme d’incertitude, l’ambiguïté de la tâche, et étudions un cadre naturel pour la gérer : la prédiction d’ensemble. Il existe plusieurs façons de prédire des ensembles. L’approche la plus naïve consiste à prédire les K classes les plus probables. Toutefois, cela suppose que tous les échantillons présentent le même niveau d’ambiguïté, ce qui est connu pour être faux dans la plupart des cas. Nous proposons plutôt d’utiliser une approche moyenne-K : le prédicteur peut produire des ensembles de taille différente, mais en moyenne leur taille doit être égale à K. Nous généralisons ensuite à d’autres approches adaptatives de prédiction d’ensembles et proposons un cadre unifiant la plupart d’entre elles. En particulier, nous montrons plusieurs façons de construire de tels classifieurs en fonction des contraintes sur le taux d’erreur et sur la taille de l’ensemble et étudions leurs avantages et faiblesses relatifs

    Uncertainty in predictions of Deep Learning models for fine-grained classification

    No full text
    Les réseaux neuronaux profonds ont permis des améliorations spectaculaires dans de nombreuses tâches de classification supervisées. Ces modèles sont généralement entraînés avec pour objectif final de minimiser le taux d’erreur en top 1. Bien que cette approche soit très puissante, elle moyenne l’incertitude des échantillons individuels et ne permet pas de savoir si, sur un point de données donné, cette prévision est fiable ou non et pourquoi.Dans des cas réels, il peut être impossible (même pour un oracle) de déterminer l’étiquette exacte d’un échantillon donné car il ne contient pas, en soi, de preuves suffisantes pour trancher entre plusieurs classes similaires. Contrairement à la classification multitâche où chaque échantillon de données est associé à plusieurs étiquettes, ici, chaque donnée correspond exactement à une classe, mais cette dernière est incertaine. Par exemple, une image d’une feuille de plante peut ne pas suffire à distinguer plusieurs espèces possibles partageant la même morphologie de feuille. Dans les problèmes de classification à grain fin, la plupart des échantillons de données contiennent intrinsèquement un certain niveau de cette ambiguïté sur l’étiquette, même s’ils sont associés à une seule vraie étiquette. En outre, le modèle lui-même introduit une incertitude supplémentaire dans ses prédictions car il est entraîné à l’aide d’un jeu de données d’apprentissage fini. Cette incertitude devrait être progressivement réduite en augmentant la taille de cette ensemble d’apprentissage, contrairement à l’ambiguïté intrinsèque des données qui est théoriquement irréductible.L’objectif de ce doctorat est d’étudier ces deux types d’incertitudes dans le cadre de la théorie de la décision. Pour ce faire, nous proposons de mettre de côté le taux d’erreur de prédiction en top 1 classique qui ne nécessite que l’estimation de la classe la plus probable. Nous proposons plutôt de nous intéresser à des cadres décisionnels qui forcent le modèle à mieux apprendre la structure de l’incertitude existante. En particulier, nous nous concentrons sur deux cadres : (i) ajouter la possibilité pour le classifieur de refuser de répondre, généralement appelé classification avec option de rejet, et (ii) en autorisant au classifieur de produire un ensemble d’étiquettes possibles plutôt qu’une seule, ce qui est connu sous le nom de prédiction d’ensembles.Nous étudions d’abord comment l’information d’incertitude peut être exploitée pour traiter la classification avec option de rejet. Dans cette configuration, le prédicteur est une paire comprenant un classifieur et un rejeteur. En fixant le classifieur et en étudiant le rejeteur, nous pouvons étudier comment l’information d’incertitude concernant le classifieur peut être exploitée pour éventuellement construire un meilleur critère de rejet. Malheureusement, nous montrons empiriquement qu’il est difficile de séparer les deux formes d’incertitude et de les recombiner correctement. Sur la base de cette observation, nous nous concentrons ensuite sur la première forme d’incertitude, l’ambiguïté de la tâche, et étudions un cadre naturel pour la gérer : la prédiction d’ensemble. Il existe plusieurs façons de prédire des ensembles. L’approche la plus naïve consiste à prédire les K classes les plus probables. Toutefois, cela suppose que tous les échantillons présentent le même niveau d’ambiguïté, ce qui est connu pour être faux dans la plupart des cas. Nous proposons plutôt d’utiliser une approche moyenne-K : le prédicteur peut produire des ensembles de taille différente, mais en moyenne leur taille doit être égale à K. Nous généralisons ensuite à d’autres approches adaptatives de prédiction d’ensembles et proposons un cadre unifiant la plupart d’entre elles. En particulier, nous montrons plusieurs façons de construire de tels classifieurs en fonction des contraintes sur le taux d’erreur et sur la taille de l’ensemble et étudions leurs avantages et faiblesses relatifs.Deep neural networks have shown dramatic improvements in a lot of supervised classification tasks. Such models are usually trained with the objective to ultimately minimize the top-1 error rate. Although this approach is very powerful, it averages out the uncertainty of individual samples and does not capture if on a given data point this prediction is reliable or not and why.In real-world scenarios, it can actually be impossible - even for an oracle - to determine the exact label of a given data item because it does not, by itself, contain sufficient evidence to decide between several similar classes. Unlike multi-task classification where each data sample is associated with several labels, here, each item corresponds to exactly one label but this latter is uncertain. For instance, an image of a plant leaf might not be enough to distinguish between several possible species sharing the same leaf morphology. In fine-grained classification problems, most data samples intrinsically contain a certain amount of such label ambiguity even if they are associated with a single hard label. Furthermore, the model itself introduces additional uncertainty in the prediction because it is learned using a finite training dataset.This uncertainty is expected to be progressively reduced by increasing the training set size contrary to the intrinsic ambiguity of the data items which is theoretically irreducible.The goal of this PhD is to study these two types of uncertainties in a decision-theoretic framework. To do so, we propose to move away from the classic top-1 prediction error rate which solely requires to estimate the most probable class. Instead, we pick decision frameworks that force the model to learn more structure about the existing uncertainty. In particular, we focus on two frameworks: (i) adding the opportunity for the classifier to refuse to answer, usually referred to as classification with reject option, and (ii) allowing the classifier to output a set of possible labels rather than a single one, which is known as set-valued classification.We first study how uncertainty information can be exploited to tackle classification with reject option. In this framework, the predictor is a pair containing a classifier and a rejector. By fixing the classifier and focusing on the rejector, we can study how uncertainty information about the classifier can be leveraged to hopefully build a better rejection criterion. Unfortunately, we empirically show that it is difficult to separate both forms of uncertainty and recombine them properly. Based on this observation, we then focus on the first form of uncertainty, task ambiguity, and study natural frameworks to handle it: set-valued classification. There are several ways to predict sets. The most naive approach is to predict the K most probable classes. However, this assumes that all the samples have the same level of ambiguity which is known to be wrong in most cases. Instead, we propose to use average-K: the predictor can output sets of different sizes but on average their size must be equal to K. We then generalize to other adaptive set-valued classification approaches and propose a framework unifying most of them. In particular, we show several ways to construct such classifiers depending on the constraints on the error rate and on the set size and study their relative advantages and weaknesses

    Static and dynamic autopsy of deep networks

    No full text

    Incertitude des prédictions dans les modèles d'apprentissage profonds appliqués à la classification fine

    No full text
    Deep neural networks have shown dramatic improvements in a lot of supervised classification tasks. Such models are usually trained with the objective to ultimately minimize the top-1 error rate. Although this approach is very powerful, it averages out the uncertainty of individual samples and does not capture if on a given data point this prediction is reliable or not and why.In real-world scenarios, it can actually be impossible - even for an oracle - to determine the exact label of a given data item because it does not, by itself, contain sufficient evidence to decide between several similar classes. Unlike multi-task classification where each data sample is associated with several labels, here, each item corresponds to exactly one label but this latter is uncertain. For instance, an image of a plant leaf might not be enough to distinguish between several possible species sharing the same leaf morphology. In fine-grained classification problems, most data samples intrinsically contain a certain amount of such label ambiguity even if they are associated with a single hard label. Furthermore, the model itself introduces additional uncertainty in the prediction because it is learned using a finite training dataset.This uncertainty is expected to be progressively reduced by increasing the training set size contrary to the intrinsic ambiguity of the data items which is theoretically irreducible.The goal of this PhD is to study these two types of uncertainties in a decision-theoretic framework. To do so, we propose to move away from the classic top-1 prediction error rate which solely requires to estimate the most probable class. Instead, we pick decision frameworks that force the model to learn more structure about the existing uncertainty. In particular, we focus on two frameworks: (i) adding the opportunity for the classifier to refuse to answer, usually referred to as classification with reject option, and (ii) allowing the classifier to output a set of possible labels rather than a single one, which is known as set-valued classification.We first study how uncertainty information can be exploited to tackle classification with reject option. In this framework, the predictor is a pair containing a classifier and a rejector. By fixing the classifier and focusing on the rejector, we can study how uncertainty information about the classifier can be leveraged to hopefully build a better rejection criterion. Unfortunately, we empirically show that it is difficult to separate both forms of uncertainty and recombine them properly. Based on this observation, we then focus on the first form of uncertainty, task ambiguity, and study natural frameworks to handle it: set-valued classification. There are several ways to predict sets. The most naive approach is to predict the K most probable classes. However, this assumes that all the samples have the same level of ambiguity which is known to be wrong in most cases. Instead, we propose to use average-K: the predictor can output sets of different sizes but on average their size must be equal to K. We then generalize to other adaptive set-valued classification approaches and propose a framework unifying most of them. In particular, we show several ways to construct such classifiers depending on the constraints on the error rate and on the set size and study their relative advantages and weaknesses.Les réseaux neuronaux profonds ont permis des améliorations spectaculaires dans de nombreuses tâches de classification supervisées. Ces modèles sont généralement entraînés avec pour objectif final de minimiser le taux d’erreur en top 1. Bien que cette approche soit très puissante, elle moyenne l’incertitude des échantillons individuels et ne permet pas de savoir si, sur un point de données donné, cette prévision est fiable ou non et pourquoi.Dans des cas réels, il peut être impossible (même pour un oracle) de déterminer l’étiquette exacte d’un échantillon donné car il ne contient pas, en soi, de preuves suffisantes pour trancher entre plusieurs classes similaires. Contrairement à la classification multitâche où chaque échantillon de données est associé à plusieurs étiquettes, ici, chaque donnée correspond exactement à une classe, mais cette dernière est incertaine. Par exemple, une image d’une feuille de plante peut ne pas suffire à distinguer plusieurs espèces possibles partageant la même morphologie de feuille. Dans les problèmes de classification à grain fin, la plupart des échantillons de données contiennent intrinsèquement un certain niveau de cette ambiguïté sur l’étiquette, même s’ils sont associés à une seule vraie étiquette. En outre, le modèle lui-même introduit une incertitude supplémentaire dans ses prédictions car il est entraîné à l’aide d’un jeu de données d’apprentissage fini. Cette incertitude devrait être progressivement réduite en augmentant la taille de cette ensemble d’apprentissage, contrairement à l’ambiguïté intrinsèque des données qui est théoriquement irréductible.L’objectif de ce doctorat est d’étudier ces deux types d’incertitudes dans le cadre de la théorie de la décision. Pour ce faire, nous proposons de mettre de côté le taux d’erreur de prédiction en top 1 classique qui ne nécessite que l’estimation de la classe la plus probable. Nous proposons plutôt de nous intéresser à des cadres décisionnels qui forcent le modèle à mieux apprendre la structure de l’incertitude existante. En particulier, nous nous concentrons sur deux cadres : (i) ajouter la possibilité pour le classifieur de refuser de répondre, généralement appelé classification avec option de rejet, et (ii) en autorisant au classifieur de produire un ensemble d’étiquettes possibles plutôt qu’une seule, ce qui est connu sous le nom de prédiction d’ensembles.Nous étudions d’abord comment l’information d’incertitude peut être exploitée pour traiter la classification avec option de rejet. Dans cette configuration, le prédicteur est une paire comprenant un classifieur et un rejeteur. En fixant le classifieur et en étudiant le rejeteur, nous pouvons étudier comment l’information d’incertitude concernant le classifieur peut être exploitée pour éventuellement construire un meilleur critère de rejet. Malheureusement, nous montrons empiriquement qu’il est difficile de séparer les deux formes d’incertitude et de les recombiner correctement. Sur la base de cette observation, nous nous concentrons ensuite sur la première forme d’incertitude, l’ambiguïté de la tâche, et étudions un cadre naturel pour la gérer : la prédiction d’ensemble. Il existe plusieurs façons de prédire des ensembles. L’approche la plus naïve consiste à prédire les K classes les plus probables. Toutefois, cela suppose que tous les échantillons présentent le même niveau d’ambiguïté, ce qui est connu pour être faux dans la plupart des cas. Nous proposons plutôt d’utiliser une approche moyenne-K : le prédicteur peut produire des ensembles de taille différente, mais en moyenne leur taille doit être égale à K. Nous généralisons ensuite à d’autres approches adaptatives de prédiction d’ensembles et proposons un cadre unifiant la plupart d’entre elles. En particulier, nous montrons plusieurs façons de construire de tels classifieurs en fonction des contraintes sur le taux d’erreur et sur la taille de l’ensemble et étudions leurs avantages et faiblesses relatifs
    corecore