16 research outputs found

    Mixture of Experts with Uncertainty Voting for Imbalanced Deep Regression Problems

    Full text link
    Data imbalance is ubiquitous when applying machine learning to real-world problems, particularly regression problems. If training data are imbalanced, the learning is dominated by the densely covered regions of the target distribution, consequently, the learned regressor tends to exhibit poor performance in sparsely covered regions. Beyond standard measures like over-sampling or re-weighting, there are two main directions to handle learning from imbalanced data. For regression, recent work relies on the continuity of the distribution; whereas for classification there has been a trend to employ mixture-of-expert models and let some ensemble members specialize in predictions for the sparser regions. Here, we adapt the mixture-of-experts approach to the regression setting. A main question when using this approach is how to fuse the predictions from multiple experts into one output. Drawing inspiration from recent work on probabilistic deep learning, we propose to base the fusion on the aleatoric uncertainties of individual experts, thus obviating the need for a separate aggregation module. In our method, dubbed MOUV, each expert predicts not only an output value but also its uncertainty, which in turn serves as a statistically motivated criterion to rely on the right experts. We compare our method with existing alternatives on multiple public benchmarks and show that MOUV consistently outperforms the prior art, while at the same time producing better calibrated uncertainty estimates. Our code is available at link-upon-publication

    Accuracy and Consistency of Space-based Vegetation Height Maps for Forest Dynamics in Alpine Terrain

    Full text link
    Monitoring and understanding forest dynamics is essential for environmental conservation and management. This is why the Swiss National Forest Inventory (NFI) provides countrywide vegetation height maps at a spatial resolution of 0.5 m. Its long update time of 6 years, however, limits the temporal analysis of forest dynamics. This can be improved by using spaceborne remote sensing and deep learning to generate large-scale vegetation height maps in a cost-effective way. In this paper, we present an in-depth analysis of these methods for operational application in Switzerland. We generate annual, countrywide vegetation height maps at a 10-meter ground sampling distance for the years 2017 to 2020 based on Sentinel-2 satellite imagery. In comparison to previous works, we conduct a large-scale and detailed stratified analysis against a precise Airborne Laser Scanning reference dataset. This stratified analysis reveals a close relationship between the model accuracy and the topology, especially slope and aspect. We assess the potential of deep learning-derived height maps for change detection and find that these maps can indicate changes as small as 250 m2m^2. Larger-scale changes caused by a winter storm are detected with an F1-score of 0.77. Our results demonstrate that vegetation height maps computed from satellite imagery with deep learning are a valuable, complementary, cost-effective source of evidence to increase the temporal resolution for national forest assessments

    Apprentissage profond pour le suivi des cultures agricoles par séries temporelles d'images satellite

    No full text
    Understanding and monitoring the agricultural activity of a territory requires the production of accurate crop type maps. Such maps identify the boundaries of each agricultural parcel along with the cultivated crop type. This information is valuable for a variety of stakeholders and has applications ranging from food supply prediction to subsidy allocation and environmental monitoring. While earlier crop type maps required tedious in situ data collection, the advent of automated analysis of remote sensing data enabled large-scale mapping efforts. In this dissertation, we consider the problem of crop type mapping from multispectral satellite image time series. In most of the literature of the past decade, this problem is typically addressed with traditional machine learning models trained on hand-engineered descriptors. Meanwhile, in the Computer Vision (CV) and Natural Language Processing (NLP) literature, the ability to train deep learning models to learn representations from raw data provoked a paradigm shift leading to unprecedented levels of performance on a variety of problems. Similarly, the application of deep learning models to remote sensing data significantly improved the state-of-the-art for crop type mapping as well as other tasks.In this thesis, we hold that current state-of-the-art methods from CV and NLP ignore some of the crucial specificities of remote sensing data and should not be applied directly. Instead, we argue for the design of bespoke methods exploiting the specific spatial, spectral, and temporal structures of satellite time series. We successively characterise crop type mapping as parcel-based classification, semantic segmentation, and panoptic segmentation. For each of these tasks, we develop a novel deep learning architecture adapted to the task's peculiarities and inspired by recent advances in the deep learning literature. We show that our methods set a new state-of-the-art while being more efficient than competing approaches.Specifically, we introduce (i) the Pixel-Set Encoder, an efficient spatial parcel-based encoder, (ii) the Temporal Attention Encoder (TAE), a self-attention temporal encoder, (iii) U-net with TAE, a variation of the TAE for segmentation problems, and (iv) Parcel-as-Point, a lightweight instance segmentation head designed for the panoptic segmentation of parcels.We also explore how these architectures can leverage multi-modal image time series combining optical and radar information through well-chosen fusion schemes. This approach improves the mapping performance as well as the robustness to cloud obstruction. Lastly, we focus on the hierarchical tree that encapsulates the semantic relationships between crop classes. We introduce a method to include such structure in the learning process. On crop classification as well as other classification problems, we show that our method reduces the rate of errors between semantically distant classes.Along with these methods, we introduce PASTIS, the first large-scale open-access dataset of multimodal satellite image time series with panoptic annotations of agricultural parcels. We hope that this dataset, along with the promising results presented in this dissertation, will encourage further research and help produce ever more accurate agricultural mapsL'analyse et le suivi de l'activité agricole d'un territoire nécessitent la production de cartes agricoles précises. Ces cartes identifient les bordures de chaque parcelle ainsi que le type de culture. Ces informations sont précieuses pour une variété d'acteurs et ont des applications allant de la prévision de la production alimentaire à l'allocation de subventions ou à la gestion environnementale. Alors que les premières cartes agricoles nécessitaient un travail de terrain fastidieux, l'essor de l'analyse automatisée des données de télédétection a ouvert la voie à des cartographies à grande échelle. Dans cette thèse nous nous intéressons à la cartographie agricole à partir de séries temporelles d'images satellites multi-spectrales. Dans la plupart des travaux de la dernière décennie ce problème est abordé à l'aide de modèles d'apprentissage automatique entraînés sur des descripteurs conçus par des experts. Cependant, dans la littérature de vision par ordinateur (VO) et du traitement automatique de la langue (TAL), l'entrainement de modèles d'apprentissage profond à apprendre des représentations à partir des données brutes a constitué un changement de paradigme menant à des performances sans précédent sur une variété de problèmes. De même, l'application de ces modèles d'apprentissage profond aux données de télédétection a considérablement amélioré l'état de l'art pour la cartographie agricole ainsi que d'autres tâches de télédétection.Dans cette thèse nous soutenons que les méthodes actuelles issues des littérature VO et TAL ignorent certaines des spécificités des données de télédétection et ne devraient pas être appliquées directement. Au contraire, nous pronons le développement de méthodes adaptées, exploitant les structures spatiales, spectrales et temporelles spécifiques des séries temporelles d'images satellites. Nous caractérisons la cartographie agricole successivement comme une classification à la parcelle, une segmentation sémantique et une segmentation panoptique. Pour chacune de ces tâches, nous développons une nouvelle architecture d'apprentissage profond adaptée aux particularités de la tâche et inspirée des avancées récentes de l'apprentissage profond. Nous montrons que nos méthodes établissent un nouvel état de l'art tout en étant plus efficaces que les approches concurrentes.Plus précisément, nous présentons (i) le Pixel-Set Encoder, un encodeur spatial efficace, (ii) le Temporal Attention Encoder (TAE), un encodeur temporel utilisant la self-attention, (iii) le U-net avec TAE, une variation du TAE pour les problèmes de segmentation, et (iv) Parcel-as-Point, un module de segmentation d'instance conçu pour la segmentation panoptique des parcelles.Nous étudions également comment exploiter des séries temporelles multimodales combinant des informations optiques et radar. Nous améliorons ainsi les performances de nos modèles ainsi que leur robustesse aux nuages. Enfin, nous considérons l'arbre hiérarchique qui décrit les relations sémantiques entre les types de culture. Nous présentons une méthode pour inclure cette structure dans le processus d'apprentissage. Sur la classification des cultures ainsi que d'autres problèmes de classification, notre méthode réduit le taux d'erreurs entre les classes sémantiquement éloignées. En plus de ces méthodes, nous introduisons PASTIS, le premier jeu de données en accès libre de séries temporelles d'images satellites multimodales avec des annotations panoptiques de parcelles agricoles. Nous espérons que ce jeu de données, ainsi que les résultats prometteurs présentés dans cette thèse encourageront d'autres travaux de recherche et aideront à produire des cartes agricoles toujours plus précise

    Apprentissage profond pour le suivi des cultures agricoles par séries temporelles d'images satellite

    No full text
    L'analyse et le suivi de l'activité agricole d'un territoire nécessitent la production de cartes agricoles précises. Ces cartes identifient les bordures de chaque parcelle ainsi que le type de culture. Ces informations sont précieuses pour une variété d'acteurs et ont des applications allant de la prévision de la production alimentaire à l'allocation de subventions ou à la gestion environnementale. Alors que les premières cartes agricoles nécessitaient un travail de terrain fastidieux, l'essor de l'analyse automatisée des données de télédétection a ouvert la voie à des cartographies à grande échelle. Dans cette thèse nous nous intéressons à la cartographie agricole à partir de séries temporelles d'images satellites multi-spectrales. Dans la plupart des travaux de la dernière décennie ce problème est abordé à l'aide de modèles d'apprentissage automatique entraînés sur des descripteurs conçus par des experts. Cependant, dans la littérature de vision par ordinateur (VO) et du traitement automatique de la langue (TAL), l'entrainement de modèles d'apprentissage profond à apprendre des représentations à partir des données brutes a constitué un changement de paradigme menant à des performances sans précédent sur une variété de problèmes. De même, l'application de ces modèles d'apprentissage profond aux données de télédétection a considérablement amélioré l'état de l'art pour la cartographie agricole ainsi que d'autres tâches de télédétection.Dans cette thèse nous soutenons que les méthodes actuelles issues des littérature VO et TAL ignorent certaines des spécificités des données de télédétection et ne devraient pas être appliquées directement. Au contraire, nous pronons le développement de méthodes adaptées, exploitant les structures spatiales, spectrales et temporelles spécifiques des séries temporelles d'images satellites. Nous caractérisons la cartographie agricole successivement comme une classification à la parcelle, une segmentation sémantique et une segmentation panoptique. Pour chacune de ces tâches, nous développons une nouvelle architecture d'apprentissage profond adaptée aux particularités de la tâche et inspirée des avancées récentes de l'apprentissage profond. Nous montrons que nos méthodes établissent un nouvel état de l'art tout en étant plus efficaces que les approches concurrentes.Plus précisément, nous présentons (i) le Pixel-Set Encoder, un encodeur spatial efficace, (ii) le Temporal Attention Encoder (TAE), un encodeur temporel utilisant la self-attention, (iii) le U-net avec TAE, une variation du TAE pour les problèmes de segmentation, et (iv) Parcel-as-Point, un module de segmentation d'instance conçu pour la segmentation panoptique des parcelles.Nous étudions également comment exploiter des séries temporelles multimodales combinant des informations optiques et radar. Nous améliorons ainsi les performances de nos modèles ainsi que leur robustesse aux nuages. Enfin, nous considérons l'arbre hiérarchique qui décrit les relations sémantiques entre les types de culture. Nous présentons une méthode pour inclure cette structure dans le processus d'apprentissage. Sur la classification des cultures ainsi que d'autres problèmes de classification, notre méthode réduit le taux d'erreurs entre les classes sémantiquement éloignées. En plus de ces méthodes, nous introduisons PASTIS, le premier jeu de données en accès libre de séries temporelles d'images satellites multimodales avec des annotations panoptiques de parcelles agricoles. Nous espérons que ce jeu de données, ainsi que les résultats prometteurs présentés dans cette thèse encourageront d'autres travaux de recherche et aideront à produire des cartes agricoles toujours plus précisesUnderstanding and monitoring the agricultural activity of a territory requires the production of accurate crop type maps. Such maps identify the boundaries of each agricultural parcel along with the cultivated crop type. This information is valuable for a variety of stakeholders and has applications ranging from food supply prediction to subsidy allocation and environmental monitoring. While earlier crop type maps required tedious in situ data collection, the advent of automated analysis of remote sensing data enabled large-scale mapping efforts. In this dissertation, we consider the problem of crop type mapping from multispectral satellite image time series. In most of the literature of the past decade, this problem is typically addressed with traditional machine learning models trained on hand-engineered descriptors. Meanwhile, in the Computer Vision (CV) and Natural Language Processing (NLP) literature, the ability to train deep learning models to learn representations from raw data provoked a paradigm shift leading to unprecedented levels of performance on a variety of problems. Similarly, the application of deep learning models to remote sensing data significantly improved the state-of-the-art for crop type mapping as well as other tasks.In this thesis, we hold that current state-of-the-art methods from CV and NLP ignore some of the crucial specificities of remote sensing data and should not be applied directly. Instead, we argue for the design of bespoke methods exploiting the specific spatial, spectral, and temporal structures of satellite time series. We successively characterise crop type mapping as parcel-based classification, semantic segmentation, and panoptic segmentation. For each of these tasks, we develop a novel deep learning architecture adapted to the task's peculiarities and inspired by recent advances in the deep learning literature. We show that our methods set a new state-of-the-art while being more efficient than competing approaches.Specifically, we introduce (i) the Pixel-Set Encoder, an efficient spatial parcel-based encoder, (ii) the Temporal Attention Encoder (TAE), a self-attention temporal encoder, (iii) U-net with TAE, a variation of the TAE for segmentation problems, and (iv) Parcel-as-Point, a lightweight instance segmentation head designed for the panoptic segmentation of parcels.We also explore how these architectures can leverage multi-modal image time series combining optical and radar information through well-chosen fusion schemes. This approach improves the mapping performance as well as the robustness to cloud obstruction. Lastly, we focus on the hierarchical tree that encapsulates the semantic relationships between crop classes. We introduce a method to include such structure in the learning process. On crop classification as well as other classification problems, we show that our method reduces the rate of errors between semantically distant classes.Along with these methods, we introduce PASTIS, the first large-scale open-access dataset of multimodal satellite image time series with panoptic annotations of agricultural parcels. We hope that this dataset, along with the promising results presented in this dissertation, will encourage further research and help produce ever more accurate agricultural map
    corecore