2 research outputs found
Démarche statistique pour la sélection des indicateurs par Random Forests pour la surveillance de la qualité des sols
The volume of data, and the large number of biological variables to be tested (one hundred), require analytical techniques, such asRandom Forests, which can overcome the problem of multi-colinearity for the selection of indicators, sensitive to various factors.Random Forests methodology is appropriate for the selection of the most discriminant variables. So, we searched for the best wayto select them, by bringing together all biological variables, representing the Microflora and Fauna. This approach focuses on impactindicators from the Bio2 program, indicators of flora and indicators of accumulation (snails) were not included.This work has been implemented on the three factors of discrimination : land use, metallic contamination levels and organic contaminationlevels.We grouped the most discriminating variables from each RF analysis. Linear discriminant analysis was then implemented for each factor,in order to develop a predictive model.El volumen de datos definidos en el programa bioindicadores 2 (Ademe) y el muy grande numero de variables biolĂłgicas para probar(una centena) necesitan tĂ©cnicas de análisis como los Random Forests que pueden liberarse del problema de multicolinealidad para laselecciĂłn de indicadores sensibles a los diferentes factores estudiados.La metodologĂa de Random Forests consiste en la selecciĂłn de variables las más discriminantes. AsĂ buscamos la mejor selecciĂłn agrupandoel conjunto de las variables biolĂłgicas que representan la Microflora y la Fauna. Estos trabajos se realizaron sobre los tres factoresde discriminaciĂłn : el uso de los suelos, los niveles de contaminaciĂłn en ETM y los niveles de contaminaciĂłn en contaminantes orgánicos.Luego, agrupamos las variables las más discriminantes derivadas de cada análisis por RF. Un análisis discriminante linear se realizodespuĂ©s para cada factor con vista a elaborar un modelo predictivo. Se observaron los indicadores del grupo Flora Ăşnicamente sobreun sub-conjunto de 47 parcelas de modalidades contrastadas, asĂ no los incluimos en nuestro estudio. Las variables “estandarizadas"del grupo Flora podrán estar integradas en un segundo tiempo.Le volume des donnĂ©es dĂ©finies dans le programme Bioindicateurs 2 (Ademe) et le très grand nombre de variables biologiques Ă tester(une centaine) nĂ©cessitent des techniques d’analyse telles que les Random Forests qui peuvent s’affranchir du problème de multi-colinĂ©aritĂ©pour la sĂ©lection d’indicateurs sensibles aux diffĂ©rents facteurs Ă©tudiĂ©s.La mĂ©thodologie des Random Forests consiste en la sĂ©lection des variables les plus discriminantes. Ainsi nous avons recherchĂ© lameilleure sĂ©lection en Ă©tudiant l’ensemble des variables biologiques reprĂ©sentant la Microflore et la Faune. Cette dĂ©marche a portĂ©sur l’ensemble des indicateurs d’effet issus du programme Bio2, les indicateurs de la flore et d’accumulation (escargot) n’ayant pas Ă©tĂ©traitĂ©s. Ces travaux ont Ă©tĂ© mis en oeuvre sur les trois facteurs de discrimination : l’usage des sols, les niveaux de contamination en ETM,et les niveaux de contamination en polluants organiques.Nous avons ensuite regroupĂ© les variables les plus discriminantes issues de chaque analyse par RF. Une analyse discriminante linĂ©airea ensuite Ă©tĂ© mise en oeuvre pour chaque facteur en vue d’élaborer un modèle prĂ©dictif