2 research outputs found

    Démarche statistique pour la sélection des indicateurs par Random Forests pour la surveillance de la qualité des sols

    No full text
    The volume of data, and the large number of biological variables to be tested (one hundred), require analytical techniques, such asRandom Forests, which can overcome the problem of multi-colinearity for the selection of indicators, sensitive to various factors.Random Forests methodology is appropriate for the selection of the most discriminant variables. So, we searched for the best wayto select them, by bringing together all biological variables, representing the Microflora and Fauna. This approach focuses on impactindicators from the Bio2 program, indicators of flora and indicators of accumulation (snails) were not included.This work has been implemented on the three factors of discrimination : land use, metallic contamination levels and organic contaminationlevels.We grouped the most discriminating variables from each RF analysis. Linear discriminant analysis was then implemented for each factor,in order to develop a predictive model.El volumen de datos definidos en el programa bioindicadores 2 (Ademe) y el muy grande numero de variables biológicas para probar(una centena) necesitan técnicas de análisis como los Random Forests que pueden liberarse del problema de multicolinealidad para laselección de indicadores sensibles a los diferentes factores estudiados.La metodología de Random Forests consiste en la selección de variables las más discriminantes. Así buscamos la mejor selección agrupandoel conjunto de las variables biológicas que representan la Microflora y la Fauna. Estos trabajos se realizaron sobre los tres factoresde discriminación : el uso de los suelos, los niveles de contaminación en ETM y los niveles de contaminación en contaminantes orgánicos.Luego, agrupamos las variables las más discriminantes derivadas de cada análisis por RF. Un análisis discriminante linear se realizodespués para cada factor con vista a elaborar un modelo predictivo. Se observaron los indicadores del grupo Flora únicamente sobreun sub-conjunto de 47 parcelas de modalidades contrastadas, así no los incluimos en nuestro estudio. Las variables “estandarizadas"del grupo Flora podrán estar integradas en un segundo tiempo.Le volume des données définies dans le programme Bioindicateurs 2 (Ademe) et le très grand nombre de variables biologiques à tester(une centaine) nécessitent des techniques d’analyse telles que les Random Forests qui peuvent s’affranchir du problème de multi-colinéaritépour la sélection d’indicateurs sensibles aux différents facteurs étudiés.La méthodologie des Random Forests consiste en la sélection des variables les plus discriminantes. Ainsi nous avons recherché lameilleure sélection en étudiant l’ensemble des variables biologiques représentant la Microflore et la Faune. Cette démarche a portésur l’ensemble des indicateurs d’effet issus du programme Bio2, les indicateurs de la flore et d’accumulation (escargot) n’ayant pas ététraités. Ces travaux ont été mis en oeuvre sur les trois facteurs de discrimination : l’usage des sols, les niveaux de contamination en ETM,et les niveaux de contamination en polluants organiques.Nous avons ensuite regroupé les variables les plus discriminantes issues de chaque analyse par RF. Une analyse discriminante linéairea ensuite été mise en oeuvre pour chaque facteur en vue d’élaborer un modèle prédictif
    corecore