1 research outputs found

    Analyse de la performance de la méthode d'imputation de données manquantes missForest et application à des données environnementales

    Get PDF
    L’acquisition de données et leur enregistrement sous la forme de bases de données en vue d’être ultérieurement exploités sont des opérations courantes dans un large éventail de domaines (médecine, production industrielle, éducation, environnement, etc.). Cependant, les processus de mesure, d’acquisition et/ou d’enregistrement peuvent être soumis à des dysfonctionnement et engendrer des «trous » dans la base de données. Ces manques de données altèrent la capacité d'analyse subséquente et, par conséquence, l’information et la prise de décision associée. En environnement, de par le large spectre des activités qui ont un impact sur les milieux naturels, les données collectées et enregistrées sont généralement de nature quantitative et qualitative (données mixtes). Dans ce contexte, il devient pertinent d’évaluer la performance de méthodes de traitement des données manquantes en tenant compte de cette caractéristique. La présente étude s’est intéressée aux méthodes d’imputation de données manquantes et plus spécifiquement à la performance de la méthode missForest et son application au problème des données manquantes en environnement. Dans ce contexte, une étude comparative a été effectuée entre missForest et deux autres méthodes d’imputation, multivariate imputation by chained equations (MICE) et K-nearest neighbors (KNN). Cette analyse comparative a porté sur 10 bases de données complètes de nature diverses (données qualitatives, quantitatives et mixtes) en considérant spécifiquement des indicateurs d’erreurs d’imputation réelles et le temps de traitement. Par la suite, l’application de la méthode missForest à la base de données de la performance de traitement des stations d’épuration du Québec a été réalisée comme cas d’étude de données environnementale. Les résultats de l’étude comparative ont révélé que sur le plan des erreurs d’imputation, missForest a été la méthode la plus performante sur 9 des 10 bases de données testées. L’écart de performance étant plus manifeste pour les imputations portant sur les bases de données mixtes où missForest a réduit les erreurs d’imputation jusqu’à 60 % par rapport aux deux autres méthodes. En ce qui concerne les temps de traitement, KNN a été la méthode la plus rapide sur l’ensemble des 10 bases de données lorsque le pourcentage de données manquante était inférieur ou égal à 30 %. Les temps de traitement de missForest, bien que généralement supérieurs à ceux de KNN, ont eu tendance à diminuer avec la hausse du pourcentage de données manquante. L’application de la méthode missForest à la base de données de la performance de traitement des stations d’épuration du Québec a donné des erreurs estimées systématiquement inférieures à 10 %. Ces résultats suggèrent que missForest est la méthode d'imputation à privilégier pour le traitement de données manquantes en environnement
    corecore