3 research outputs found

    Contribution en apprentissage automatique pour la maîtrise des risques

    Get PDF
    Les changements climatiques entraînent régulièrement des phénomènes menaçant directement l'environnement et l'humanité. Dans ce contexte, la météorologie joue de plus en plus un rôle important dans la compréhension et la prévision de ces phénomènes. Le problème de fiabilisation des observations est essentiel pour le raisonnement numérique et la qualité de la simulation. En plus, l'interopérabilité est importante tant pour les entreprises que pour les services publics traitant des données et des modèles complexes découlant de ces observations. Dans les services météorologiques, la fiabilité des données d’observations est une exigence fondamentale. Les prévisions du temps et du climats sont dépendantes de nombreux phénomènes physiques à différentes échelles de temps et d’espace. Un de ces phénomènes est le transfert d’énergie de la surface vers l’atmosphère qui est considéré un paramètre sensible. Les observations des paramètres sensibles produisent souvent des données qui ne sont pas fiables (données imparfaites). Un meilleur traitement de ces données imparfaites pourra améliorer l’évaluation de la simulation. Nous proposons l'utilisation de méthodes d'apprentissage automatique susceptibles (i) d'améliorer l’évaluation des échanges entre la surface et l’atmosphère dans les modèles numériques de prévision du temps et du climat et (ii) de produire des connaissances pour l'interopérabilité. Cela peut appuyer la communication des services d'observation et les modèles numériques de prévision. L'objectif de ce travail est de diagnostiquer les modèles numériques de prévision pour chercher les faiblesses de ces modèles dans la simulation des échanges entre la surface et l'atmosphère. Ces échanges sont quantifiés par les flux de chaleur sensible et de chaleur latente. Dans un premier temps, la méthode d'extraction des règles d'association est choisie pour : mettre en évidence les faiblesses du modèle ; effectuer des comparaisons entre les observations effectuées et les simulations réalisées par le modèle numérique pour la détection des variables critiques. Dans un deuxième temps, des processus gaussiens tenant compte des incertitudes sont utilisés pour modéliser les valeurs mesurées afin de rendre la base de données d'observation plus fiable. Cette modélisation est réalisée par un processus d'apprentissage approfondi qui inclut la régression en intégrant les connaissances sur le terrain. Ensuite, un optimiseur a été défini à partir des propriétés sur les transformations géométriques par homothétie. Cet optimiseur permet d'effectuer un ajustement aux données simulées pour mettre à l’échelle le modèle. Ces méthodes sont déployées sur une base de données mesurées sur le site expérimental du Centre de Recherches Atmosphériques (CRA) qui est l'un des deux sites composant la Plateforme Pyrénéenne d'Observation de l'Atmosphère (P2OA) en France. Les résultats obtenus et exprimés sous forme de règles d'association ont permis de mettre en évidence des faiblesses dans les modèles numériques : d'abord, la mise en évidence des différences (erreurs) entre les observations et les simulations ; ensuite l'analyse des règles générées a montré que les différences importantes sur le rayonnement global sont souvent concomitantes à des différences importantes sur les flux de chaleur sensible et latente. Ceci est souvent dû à des perturbations naturelles (par exemple, emplacement des nuages) qui impactent la qualité des observations/ simulations des flux de chaleur sensible et chaleur latente. Les bénéfices escomptés sont relatifs à la génération de connaissances utiles à l'amélioration de la qualité de la simulation numérique des processus de surface. En plus, l'optimiseur proposé a donné des résultats satisfaisants. Les valeurs simulées ont été mises à l’échelle à 100% dans le cas des formes similaires et à 98% dans le cas des formes avec présence de pics. Cet optimiseur peut être appliqué à toutes les autres variables météorologiques

    Categorical and Fuzzy Ensemble-Based Algorithms for Cluster Analysis

    Get PDF
    This dissertation focuses on improving multivariate methods of cluster analysis. In Chapter 3 we discuss methods relevant to the categorical clustering of tertiary data while Chapter 4 considers the clustering of quantitative data using ensemble algorithms. Lastly, in Chapter 5, future research plans are discussed to investigate the clustering of spatial binary data. Cluster analysis is an unsupervised methodology whose results may be influenced by the types of variables recorded on observations. When dealing with the clustering of categorical data, solutions produced may not accurately reflect the structure of the process that generated them. Increased variability within the latent structure of the data and the presence of noisy observations are two issues that may be obscured within the categories. It is also the presence of these issues that may cause clustering solutions produced in categorical cases to be less accurate. To remedy this, in Chapter 3, a method is proposed that utilizes concepts from statistics to improve the accuracy of clustering solutions produced in tertiary data objects. By pre-smoothing the dissimilarities used in traditional clustering algorithms, we show it is possible to produce clustering solutions more reflective of the latent process from which observations arose. To do this the Fienberg-Holland estimator, a shrinkage-based statistical smoother, is used along with 3 choices of smoothing. We show the method results in more accurate clusters via simulation and an application to diabetes. Solutions produced from clustering algorithms may vary regardless of the type of variables observed. Such variations may be due to the clustering algorithm used, the initial starting point of an algorithm, or by the type of algorithm used to produce such solutions. Furthermore, it may sometimes be of interest to produce clustering solutions that allow observations to share similarities with more than one cluster. One method proposed to combat these problems and add flexibility to clustering solutions is fuzzy ensemble-based clustering. In Chapter 4 three fuzzy ensemble based clustering algorithms are introduced for the clustering of quantitative data objects and compared to the performance of the traditional Fuzzy C-Means algorithm. The ensembles proposed in this case, however, differ from traditional ensemble-based methods of clustering in that the clustering solutions produced within the generation process have resulted from supervised classifiers and not from clustering algorithms. A simulation study and two data applications suggest that in certain settings, the proposed fuzzy ensemble-based algorithms of clustering produce more accurate clusters than the Fuzzy C-Means algorithm. In both of the aforementioned cases, only the types of variables recorded on each object were of importance in the clustering process. In Chapter 5 the types of variables recorded and their spatial nature are both of importance. An idea is presented that combines applications to geodesics with categorical cluster analysis to deal with the spatial and categorical nature of observations. The focus in this chapter is on producing an accurate method of clustering the binary and spatial data objects found in the Global Terrorism Database
    corecore