612 research outputs found

    Apprentissage sur Données Massives; trois cas d'usage avec R, Python et Spark.

    Get PDF
    International audienceManagement and analysis of big data are systematically associated with a data distributed architecture in the Hadoop and now Spark frameworks. This article offers an introduction for statisticians to these technologies by comparing the performance obtained by the direct use of three reference environments: R, Python Scikit-learn, Spark MLlib on three public use cases: character recognition, recommending films, categorizing products. As main result, it appears that, if Spark is very efficient for data munging and recommendation by collaborative filtering (non-negative factorization), current implementations of conventional learning methods (logistic regression, random forests) in MLlib or SparkML do not ou poorly compete habitual use of these methods (R, Python Scikit-learn) in an integrated or undistributed architectureLa gestion et l'analyse de données massives sont systématiquement associées à une architecture de données distribuées dans des environnements Hadoop et maintenant Spark. Cet article propose aux statisticiens une introduction à ces technologies en comparant les performances obtenues par l'utilisation élémentaire de trois environnements de référence : R, Python Scikit-learn, Spark MLlib sur trois cas d'usage publics : reconnaissance de caractères, recommandation de films, catégorisation de produits. Comme principal résultat, il en ressort que si Spark est très performant pour la préparation des données et la recommandation par filtrage collaboratif (factorisation non négative), les implémentations actuelles des méthodes classiques d'apprentissage (régression logistique, forêts aléatoires) dans MLlib ou SparkML ne concurrencent pas ou mal une utilisation habituelle de ces méthodes (R, Python Scikit-learn) dans une architecture intégrée au sens de non distribuée

    Réseaux de communication et applications de contrôle-commande

    Get PDF
    Cette thèse se situe dans le domaine des Systèmes Commandés en Réseaux, systèmes pluridisciplinairesqui connaissent un grand développement dans le contexte technologique actuel etqui introduisent de nouveaux problèmes de recherche, en particulier, pour les communautés Automatiqueet Réseau de Communication. L objectif est de montrer l intérêt de considérer un lienbidirectionnel entre la Qualité de Contrôle (QdC) (stabilité et performance des applications decontrôle-commande) et la Qualité de Service (QdS) (retards dans les transmissions) en se focalisantsur les réseaux locaux et plus particulièrement sur l ordonnancement des trames dans la souscouche MAC où on considère des protocoles MAC de type CSMA.Notre travail se situe tout d abord dans le cadre du réseau CAN où nous faisons trois propositions.La première proposition consiste en des solutions de QdS pour des applications decontrôle-commande sur la base du concept de priorité hybride, pour l ordonnancement de trames,dans laquelle nous définissons une partie priorité dynamique qui dépend d un paramètre de QdC.Ceci permet de réaliser une relation QdC->QdS. La deuxième proposition consiste en des solutionsde QdC par une méthode de compensation de retard (maintenance des pôles dominants)ce qui permet de réaliser une relation QdS->QdC. La troisième proposition consiste à réaliserune relation QdC QdS qui assure lors de l implantation de plusieurs applications, une propriétéd équité comportementale. Nous abordons ensuite le cadre particulier des réseaux locaux sans filoù, d une part, nous définissons des protocoles MAC de type CSMA sans collision sur la basede priorités et, d autre part, nous montrons la faisabilité des idées développées dans le cadre duréseau CANThis thesis is in the field of Networked Controlled Systems, which are multidisciplinary systemsand which experience a great development in the context of the current technology andintroduce new research problems, particularly for the communities of Automatic Control andCommunication Network. The aim is to show the interest in considering a bidirectional link betweenthe Quality of Control (QoC) (stability and performance of process control applications) andQuality of Service (QoS) (delays in the transmissions) and to focus on Local Area Networks and,more particularly, on the scheduling of frames in the MAC layer in which we consider CSMAMAC protocols.Our work first concerns a CAN network where we have three proposals. The first proposalconsists of solutions for QoS, for process control applications, which are based on the conceptof hybrid priority for the frame scheduling in which we define a dynamic priority part which dependson a QoC parameter. This allows to implement a relation QoC->QoS. The second proposalconsists of QoC solutions by using a compensation method for time delays (maintenance of dominantpoles) which allows to implement a relation QoS->QoC. The third proposal consists inimplementing a relation QoS QoC that ensures, for the implementation of several applications,a fairness property. We then discuss the specific context of Wireless LANs, where, on the onehand, we define collision-free CSMA MAC protocols on the basis of priorities and, on the otherhand, we show the feasibility of the ideas developed in the CAN networkTOULOUSE-INSA-Bib. electronique (315559905) / SudocSudocFranceF

    Amélioration des processus de prévision et de gestion des stocks dans le cas d'une chaîne logistique des pièces de rechange

    Get PDF
    The main scope of these works is the spare parts supply chain management, particularly the improvement of forecasting and inventory management performance. The specificity of low and erratic demand does not allow the use of conventional approaches of forecasting. Moreover, the associated performance measurements, based on purely statistical indicators, are not adapted to this context. Indeed, it should align with different levels of expectations of the maintenance contracts. After a presentation of the processes and tools used by the dedicated literature. Here we propose new performance analysis approaches seeking to combine the statistical performance of forecasting methods and inventory management performance while considering decision makers priorities and using demand pattern as well as parts age segmentations. These works also address the use of customer differentiation in the inventory model based on forecasting, by comparing the performance of the critical level policy with the common stock and separated stock policies. Each studied process was associated with a comparative analysis of different forecasting methods and inventory management models based on real data of the spare parts supply chain of GE Healthcare, which allowed us to define a set of methods and parameters recommendations according to both part segmentations and supply chain priorities.Le cadre général des travaux de cette thèse est la chaîne logistique des pièces de rechange et particulièrement l’amélioration de sa performance en prévision et en gestion des stocks à plusieurs niveaux de service. La spécificité d’une demande faible et erratique ne permet pas l’utilisation des approches classiques de prévision. Par ailleurs, les mesures de performance associées reposant sur des indicateurs purement statistiques ne reflètent pas nécessairement les objectifs de gestion d’une chaîne logistique qui cherche à s’aligner avec différents niveaux d’exigence des contrats de maintenance. Après une description des processus et des outils en prévision et en gestion de stocks utilisés dans ce contexte, ces travaux proposent de nouvelles approches de sélection des méthodes de prévisions qui intègrent prévision et gestion de stocks, qui permettent la priorisation en service ou en inventaire et qui utilisent une segmentation par profil de la demande et par niveau de maturité des pièces. Par la suite, ces travaux considèrent le cas de la différenciation client dans le modèle de gestion de stocks basé sur des prévisions, en comparant la performance de la politique à niveau critique avec les politiques classiques à stock commun ou séparé. Chaque processus étudié a été accompagné d’une analyse comparative entre différentes méthodes de prévisions et politiques de gestion de stocks sur des données réelles du cas d’application industrielle de la chaine logistique de GE Healthcare. Ce qui a permis de construire un ensemble de recommandations en fonction de la segmentation de la pièce et des priorités des décideurs

    Classification et apprentissage actif à partir d'un flux de données évolutif en présence d'étiquetage incertain

    Get PDF
    This thesis focuses on machine learning for data classification. To reduce the labelling cost, active learning allows to query the class label of only some important instances from a human labeller. We propose a new uncertainty measure that characterizes the importance of data and improves the performance of active learning compared to the existing uncertainty measures. This measure determines the smallest instance weight to associate with new data, so that the classifier changes its prediction concerning this data. We then consider a setting where the data arrives continuously from an infinite length stream. We propose an adaptive uncertainty threshold that is suitable for active learning in the streaming setting and achieves a compromise between the number of classification errors and the number of required labels. The existing stream-based active learning methods are initialized with some labelled instances that cover all possible classes. However, in many applications, the evolving nature of the stream implies that new classes can appear at any time. We propose an effective method of active detection of novel classes in a multi-class data stream. This method incrementally maintains a feature space area which is covered by the known classes, and detects those instances that are self-similar and external to that area as novel classes. Finally, it is often difficult to get a completely reliable labelling because the human labeller is subject to labelling errors that reduce the performance of the learned classifier. This problem was solved by introducing a measure that reflects the degree of disagreement between the manually given class and the predicted class, and a new informativeness measure that expresses the necessity for a mislabelled instance to be re-labeled by an alternative labeller.Cette thèse traite de l'apprentissage automatique pour la classification de données. Afin de réduire le coût de l'étiquetage, l'apprentissage actif permet de formuler des requêtes pour demander à un opérateur d'étiqueter seulement quelques données choisies selon un critère d'importance. Nous proposons une nouvelle mesure d'incertitude qui permet de caractériser l'importance des données et qui améliore les performances de l'apprentissage actif par rapport aux mesures existantes. Cette mesure détermine le plus petit poids nécessaire à associer à une nouvelle donnée pour que le classifieur change sa prédiction concernant cette donnée. Nous intégrons ensuite le fait que les données à traiter arrivent en continu dans un flux de longueur infinie. Nous proposons alors un seuil d'incertitude adaptatif qui convient pour un apprentissage actif à partir d'un flux de données et qui réalise un compromis entre le nombre d'erreurs de classification et le nombre d'étiquettes de classes demandées. Les méthodes existantes d'apprentissage actif à partir de flux de données, sont initialisées avec quelques données étiquetées qui couvrent toutes les classes possibles. Cependant, dans de nombreuses applications, la nature évolutive du flux fait que de nouvelles classes peuvent apparaître à tout moment. Nous proposons une méthode efficace de détection active de nouvelles classes dans un flux de données multi-classes. Cette méthode détermine de façon incrémentale une zone couverte par les classes connues, et détecte les données qui sont extérieures à cette zone et proches entre elles, comme étant de nouvelles classes. Enfin, il est souvent difficile d'obtenir un étiquetage totalement fiable car l'opérateur humain est sujet à des erreurs d'étiquetage qui réduisent les performances du classifieur appris. Cette problématique a été résolue par l'introduction d'une mesure qui reflète le degré de désaccord entre la classe donnée manuellement et la classe prédite et une nouvelle mesure d'"informativité" permettant d'exprimer la nécessité pour une donnée mal étiquetée d'être ré-étiquetée par un opérateur alternatif

    Classification et apprentissage actif à partir d'un flux de données évolutif en présence d'étiquetage incertain

    Get PDF
    This thesis focuses on machine learning for data classification. To reduce the labelling cost, active learning allows to query the class label of only some important instances from a human labeller. We propose a new uncertainty measure that characterizes the importance of data and improves the performance of active learning compared to the existing uncertainty measures. This measure determines the smallest instance weight to associate with new data, so that the classifier changes its prediction concerning this data. We then consider a setting where the data arrives continuously from an infinite length stream. We propose an adaptive uncertainty threshold that is suitable for active learning in the streaming setting and achieves a compromise between the number of classification errors and the number of required labels. The existing stream-based active learning methods are initialized with some labelled instances that cover all possible classes. However, in many applications, the evolving nature of the stream implies that new classes can appear at any time. We propose an effective method of active detection of novel classes in a multi-class data stream. This method incrementally maintains a feature space area which is covered by the known classes, and detects those instances that are self-similar and external to that area as novel classes. Finally, it is often difficult to get a completely reliable labelling because the human labeller is subject to labelling errors that reduce the performance of the learned classifier. This problem was solved by introducing a measure that reflects the degree of disagreement between the manually given class and the predicted class, and a new informativeness measure that expresses the necessity for a mislabelled instance to be re-labeled by an alternative labeller.Cette thèse traite de l'apprentissage automatique pour la classification de données. Afin de réduire le coût de l'étiquetage, l'apprentissage actif permet de formuler des requêtes pour demander à un opérateur d'étiqueter seulement quelques données choisies selon un critère d'importance. Nous proposons une nouvelle mesure d'incertitude qui permet de caractériser l'importance des données et qui améliore les performances de l'apprentissage actif par rapport aux mesures existantes. Cette mesure détermine le plus petit poids nécessaire à associer à une nouvelle donnée pour que le classifieur change sa prédiction concernant cette donnée. Nous intégrons ensuite le fait que les données à traiter arrivent en continu dans un flux de longueur infinie. Nous proposons alors un seuil d'incertitude adaptatif qui convient pour un apprentissage actif à partir d'un flux de données et qui réalise un compromis entre le nombre d'erreurs de classification et le nombre d'étiquettes de classes demandées. Les méthodes existantes d'apprentissage actif à partir de flux de données, sont initialisées avec quelques données étiquetées qui couvrent toutes les classes possibles. Cependant, dans de nombreuses applications, la nature évolutive du flux fait que de nouvelles classes peuvent apparaître à tout moment. Nous proposons une méthode efficace de détection active de nouvelles classes dans un flux de données multi-classes. Cette méthode détermine de façon incrémentale une zone couverte par les classes connues, et détecte les données qui sont extérieures à cette zone et proches entre elles, comme étant de nouvelles classes. Enfin, il est souvent difficile d'obtenir un étiquetage totalement fiable car l'opérateur humain est sujet à des erreurs d'étiquetage qui réduisent les performances du classifieur appris. Cette problématique a été résolue par l'introduction d'une mesure qui reflète le degré de désaccord entre la classe donnée manuellement et la classe prédite et une nouvelle mesure d'"informativité" permettant d'exprimer la nécessité pour une donnée mal étiquetée d'être ré-étiquetée par un opérateur alternatif

    Techniques d'analyse de contenu appliquées à l'imagerie spatiale

    Get PDF
    Depuis les années 1970, la télédétection a permis d’améliorer l’analyse de la surface de la Terre grâce aux images satellites produites sous format numérique. En comparaison avec les images aéroportées, les images satellites apportent plus d’information car elles ont une couverture spatiale plus importante et une période de revisite courte. L’essor de la télédétection a été accompagné de l’émergence des technologies de traitement qui ont permis aux utilisateurs de la communauté d’analyser les images satellites avec l’aide de chaînes de traitement de plus en plus automatiques. Depuis les années 1970, les différentes missions d’observation de la Terre ont permis d’accumuler une quantité d’information importante dans le temps. Ceci est dû notamment à l’amélioration du temps de revisite des satellites pour une même région, au raffinement de la résolution spatiale et à l’augmentation de la fauchée (couverture spatiale d’une acquisition). La télédétection, autrefois cantonnée à l’étude d’une seule image, s’est progressivement tournée et se tourne de plus en plus vers l’analyse de longues séries d’images multispectrales acquises à différentes dates. Le flux annuel d’images satellite est supposé atteindre plusieurs Péta octets prochainement. La disponibilité d’une si grande quantité de données représente un atout pour développer de chaines de traitement avancées. Les techniques d’apprentissage automatique beaucoup utilisées en télédétection se sont beaucoup améliorées. Les performances de robustesse des approches classiques d’apprentissage automatique étaient souvent limitées par la quantité de données disponibles. Des nouvelles techniques ont été développées pour utiliser efficacement ce nouveau flux important de données. Cependant, la quantité de données et la complexité des algorithmes mis en place nécessitent une grande puissance de calcul pour ces nouvelles chaînes de traitement. En parallèle, la puissance de calcul accessible pour le traitement d’images s’est aussi accrue. Les GPUs («Graphic Processing Unit ») sont de plus en plus utilisés et l’utilisation de cloud public ou privé est de plus en plus répandue. Désormais, pour le traitement d’images, toute la puissance nécessaire pour les chaînes de traitements automatiques est disponible à coût raisonnable. La conception des nouvelles chaînes de traitement doit prendre en compte ce nouveau facteur. En télédétection, l’augmentation du volume de données à exploiter est devenue une problématique due à la contrainte de la puissance de calcul nécessaire pour l’analyse. Les algorithmes de télédétection traditionnels ont été conçus pour des données pouvant être stockées en mémoire interne tout au long des traitements. Cette condition est de moins en moins respectée avec la quantité d’images et leur résolution. Les algorithmes de télédétection traditionnels nécessitent d’être revus et adaptés pour le traitement de données à grande échelle. Ce besoin n’est pas propre à la télédétection et se retrouve dans d’autres secteurs comme le web, la médecine, la reconnaissance vocale,… qui ont déjà résolu une partie de ces problèmes. Une partie des techniques et technologies développées par les autres domaines doivent encore être adaptées pour être appliquée aux images satellites. Cette thèse se focalise sur les algorithmes de télédétection pour le traitement de volumes de données massifs. En particulier, un premier algorithme existant d’apprentissage automatique est étudié et adapté pour une implantation distribuée. L’objectif de l’implantation est le passage à l’échelle c’est-à-dire que l’algorithme puisse traiter une grande quantité de données moyennant une puissance de calcul adapté. Enfin, la deuxième méthodologie proposée est basée sur des algorithmes récents d’apprentissage automatique les réseaux de neurones convolutionnels et propose une méthodologie pour les appliquer à nos cas d’utilisation sur des images satellites

    Traitement de la mission et des variables environnementales et intégration au processus de conception systémique

    Get PDF
    Ce travail présente une démarche méthodologique visant le «traitement de profils» de «mission» et plus généralement de «variables environnementales» (mission, gisement, conditions aux limites), démarche constituant la phase amont essentielle d’un processus de conception systémique. La «classification» et la «synthèse» des profils relatifs aux variables d’environnement du système constituent en effet une première étape inévitable permettant de garantir, dans une large mesure, la qualité du dispositif conçu et ce à condition de se baser sur des «indicateurs» pertinents au sens des critères et contraintes de conception. Cette approche s’inscrit donc comme un outil d’aide à la décision dans un contexte de conception systémique. Nous mettons en particulier l’accent dans cette thèse sur l’apport de notre approche dans le contexte de la conception par optimisation qui, nécessitant un grand nombre d’itérations (évaluation de solutions de conception), exige l’utilisation de «profils compacts» au niveau informationnel (temps, fréquence,…). Nous proposons dans une première phase d’étude, une démarche de «classification» et de «segmentation» des profils basée sur des critères de partitionnement. Cette étape permet de guider le concepteur vers le choix du nombre de dispositifs à concevoir pour sectionner les produits créés dans une gamme. Dans une deuxième phase d’étude, nous proposons un processus de «synthèse de profil compact», représentatif des données relatives aux variables environnementales étudiées et dont les indicateurs de caractérisation correspondent aux caractéristiques de référence des données réelles. Ce signal de durée réduite est obtenu par la résolution d’un problème inverse à l’aide d’un algorithme évolutionnaire en agrégeant des motifs élémentaires paramétrés (sinusoïde, segments, sinus cardinaux). Ce processus de «synthèse compacte» est appliqué ensuite sur des exemples de profils de missions ferroviaires puis sur des gisements éoliens (vitesse du vent) associés à la conception de chaînes éoliennes. Nous prouvons enfin que la démarche de synthèse de profil représentatif et compact accroît notablement l’efficacité de l’optimisation en minimisant le coût de calcul facilitant dès lors une approche de conception par optimisation. ABSTACT : This work presents a methodological approach aiming at analyzing and processing mission profiles and more generally environmental variables (e.g. solar or wind energy potential, temperature, boundary conditions) in the context of system design. This process constitutes a key issue in order to ensure system effectiveness with regards to design constraints and objectives. In this thesis, we pay a particular attention on the use of compact profiles for environmental variables in the frame of system level integrated optimal design, which requires a wide number of system simulations. In a first part, we propose a clustering approach based on partition criteria with the aim of analyzing mission profiles. This phase can help designers to identify different system configurations in compliance with the corresponding clusters: it may guide suppliers towards “market segmentation” not only fulfilling economic constraints but also technical design objectives. The second stage of the study proposes a synthesis process of a compact profile which represents the corresponding data of the studied environmental variable. This compact profile is generated by combining parameters and number of elementary patterns (segment, sine or cardinal sine) with regards to design indicators. These latter are established with respect to the main objectives and constraints associated to the designed system. All pattern parameters are obtained by solving the corresponding inverse problem with evolutionary algorithms. Finally, this synthesis process is applied to two different case studies. The first consists in the simplification of wind data issued from measurements in two geographic sites of Guadeloupe and Tunisia. The second case deals with the reduction of a set of railway mission profiles relative to a hybrid locomotive devoted to shunting and switching missions. It is shown from those examples that our approach leads to a wide reduction of the profiles associated with environmental variables which allows a significant decrease of the computational time in the context of an integrated optimal design process

    Contribution au pronostic de défaillances guidé par des données

    Get PDF
    Ce mémoire d’Habilitation à Diriger des Recherche (HDR) présente, dans la première partie, une synthèse de mes travaux d’enseignement et de recherche réalisés au sein de l’École Nationale Supérieure de Mécanique et des Microtechniques (ENSMM) et de l’Institut FEMTO-ST. Ces travaux s’inscrivent dans la thématique du PHM (Prognostics and Health Management) et concernent le développement d’une approche intégrée de pronostic de défaillances guidée par des données. L’approche proposée repose sur l’acquisition de données représentatives des dégradations de systèmes physiques, l’extraction de caractéristiques pertinentes et la construction d’indicateurs de santé, la modélisation des dégradations, l’évaluation de l’état de santé et la prédiction de durées de fonctionnement avant défaillances (RUL : Remaining Useful Life). Elle fait appel à deux familles d’outils : d’un côté des outils probabilistes/stochastiques, tels que les réseaux Bayésiens dynamiques, et de l’autre côté les modèles de régression non linéaires, notamment les machines à vecteurs de support pour la régression. La seconde partie du mémoire présente le projet de recherche autour du PHM de systèmes complexes et de MEMS (Micro-Electro-Mechanical Systems), avec une orientation vers l’approche de pronostic hybride en combinant l’approche guidée par des données et l’approche basée sur des modèles physiques.This Habilitation manuscript presents, in the first part, a synthesis of my teaching and research works achieved at the National Institute of Mechanics and Microtechnologies (ENSMM) and at FEMTO-ST Institute. These works are within the topic of Prognostics and Health Management (PHM) and concern the development of an integrated data-driven failure prognostic approach. The proposed approach relies on acquisition of data which are representative of systems degradations, extraction of relevant features and construction of health indicators, degradation modeling, health assessment and Remaining Useful Life (RUL) prediction. This approach uses two groups of tools: probabilistic/stochastic tools, such as dynamic Bayesian networks, from one hand, and nonlinear regression models such as support vector machine for regression and Gaussian process regression, from the other hand. The second part of the manuscript presents the research project related to PHM of complex systems and MEMS (Micro-Electro-Mechanical Systems), with an orientation towards a hybrid prognostic approach by considering both model-based and data-driven approaches

    Cartographie des écosystèmes et paramètres biophysiques satellitaires pour l'étude des flux hydriques sur le continent africain

    Get PDF
    Dans le contexte des changements climatiques, l'objectif du travail effectué est de caractériser l'hétérogénéité du continent africain afin de mieux comprendre et quantifier les processus de surface agissant sur les flux hydriques. Ce travail s'inscrit dans le cadre de la mise à jour de la base de données ECOCLIMAP-I constituée d'une carte d'occupation des sols et des cartes de paramètres biophysiques. Pour cela, on s'appuie sur des données de télédétection acquises par les capteurs de dernière génération MODIS et SPOT/VEGETATION entre 2000 et 2007. Dans un premier temps, deux techniques de classification ont été développées afin de cartographier les différents écosystèmes. L'une, supervisée, a été conduite dans le contexte du programme AMMA afin de discriminer les écosystèmes sur la région ouest-africaine en combinant l'information complémentaire contenue dans les cartes d'occupation du sol GLC2000 et ECOCLIMAP-I par analyse supervisée de l'indice foliaire (LAI) MODIS. L'autre, non supervisée et hybride, utilise les principes de regroupement hiérarchique et dynamique de manière automatique en combinant l'usage du classificateur k-NN et celui de la transformée de Fourier Discrète sur la base des données d'indice de végétation normalisé (NDVI) SPOT/VEGETATION pour identifier les écosystèmes africains. Dans un deuxième temps, des méthodes d'estimation des paramètres biophysiques tels que l'albédo, la fraction de végétation, l'indice foliaire ont été développées et/ou appliquées sur le continent. Une approche statistique permet de déterminer la contribution du sol nu et de la végétation à la constitution de l'albédo de surface comme tel que cela est requis dans les modèles de surface. La méthode a d'abord été appliquée sur la région ouest-africaine et sa robustesse a été prouvée lors de son application à l'intégralité du continent africain. Ces conditions de surface ont ensuite été implémentées dans le modèle de surface ISBA pour reproduire les processus de surface. La sensibilité d'ISBA au forçage physiographique a été étudiée en analysant deux simulations avec le même forçage atmosphérique sur la région ouest-africaine : l'une en utilisant la classification ECOCLIMAP-I et l'autre en utilisant la nouvelle paramétrisation de la surface développée sur la région ouest-africaine. Les flux de chaleur latente et sensible sont principalement pilotés par la fraction de végétation. Le modèle ISBA peut être utilisé pour prédire l'impact d'un changement d'occupation du sol et par conséquent des actions anthropiques sur le bilan hydrique.In the context of climate change, the aim of this study is to characterize the heterogeneity of the African continent in order to provide some elements to better understand and quantify surfaces process acting on hydric fluxes. This work is intented to update the double ECOCLIMAP-I database which is constituted by a land cover map and a dassets of land biophysical parameters. To this end, we use remotely sensed data acquired by the latest generation sensors MODIS and SPOT/VEGETATION between 2000 and 2007. During the first step, two methods of classifications has been developed for the mapping of different ecosystems. The first method, which is supervised, is obtained by combining information provided by the both global land cover map GLC2000 and ECOCLIMAP-I using an interactive analysis of MODIS leaf area index (LAI). It has been performed in the framework of the AMMA project to discriminate ecosystems over the western African Region. The second method is hybrid in that it combines k-NN clustering, hierarchical principles and the Fast Fourier Transform (FFT) on the basis of multi-annual NDVI data from SPOT/VEGETATION to identify ecosystems at the whole African continent. Then, methods for the estimation of land surface biophysical variables such as albedo, fractional vegetation cover and leaf area index has been developed and/or applied over the mainland. A statistical approach allows us to determine the contribution of bare soil albedo and vegetation albedo to the constitution of albedo as required in land surface models. After the application of the latter approach over the western african region, we demonstrate the robustness of the method by applying it over the entire mainland. The sensitivity of two land surface scenarios was studied by analysing two simulations with the same atmospheric forcing over the western African Region:one using the ECOCLIMAP-I classification and another using the new physiographic forcing specifically developed over the western African region. Heat and latent flux are mainly driven by the fractional vegetation coverage. The land surface model ISBA can be used to predict the impact of land cover change and accordingly the anthropic pressure on hydric fluxes
    corecore