4 research outputs found

    Improving Binary Classifier Performance Through an Informed Sampling Approach and Imputation

    Get PDF
    RÉSUMÉ Au cours des deux dernières décennies, des progrès importants dans le domaine de l’apprentissage automatique ont été réalisés grâce à des techniques d’échantillonnage. Relevons par exemple le renforcement (boosting), une technique qui assigne des poids aux observations pour améliorer l’entraînement du modèle, ainsi que la technique d’apprentissage actif qui utilise des données non étiquetées partielles pour décider dynamiquement quels cas sont les plus pertinents à demander à un oracle d’étiqueter. Cette thèse s’inscrit dans ces recherches et présente une nouvelle technique d’échantillonnage qui utilise l’entropie des données pour guider l’échantillonnage, un processus que nous appelons l’échantillonnage informé. L’idée centrale est que la fiabilité de l’estimation des paramètres d’un modèle peut dépendre de l’entropie des variables. Donc, l’adaptation du taux d’échantillonnage de variables basée sur leur entropie peut conduire à de meilleures estimations des paramètres. Dans une série d’articles, nous étudions cette hypothèse pour trois modèles de classification, notamment Régression Logistique (LR), le modèle bayes naïf (NB) et le modèle d’arbre bayes naif (TAN—Tree Augmented Naive Bayes), en prenant une tâche de classification binaire avec une fonction d’erreur 0-1. Les résultats démontrent que l’échantillonnage d’entropie élevée (taux d’échantillonnage plus élevé pour les variables d’entropie élevée) améliore systématiquement les performances de prédiction du classificateur TAN. Toutefois, pour les classificateurs NB et LR, les résultats ne sont pas concluants. Des améliorations sont obtenues pour seulement la moitié des 11 ensembles de données utilisées et souvent les améliorations proviennent de l’échantillonnage à entropie élevée, rarement de l’échantillonnage à entropie faible. Cette première expérience est reproduite dans une deuxième étude, cette fois en utilisant un contexte plus réaliste où l’entropie des variables est inconnue à priori, mais plutôt estimée avec des données initiales et où l’échantillonnage est ajusté à la volée avec les nouvelles estimation de l’entropie. Les résultats démontrent qu’avec l’utilisation d’un ensemble de données initial de 1% du nombre total des exemplaires, qui variait de quelques centaines à environ 1000, les gains obtenus de l’étude précédente persistent pour le modèle TAN avec une amélioration moyenne de 13% dans la réduction l’erreur quadratique. Pour la même taille des semences, des améliorations ont également été obtenues pour le classificateur naïf bayésien par un facteur de 8% de l’entropie faible au lieu d’échantillonnage d’entropie élevée. L’échantillonnage informé implique nécessairement des valeurs manquantes, et de nombreux classificateurs nécessitent soit l’imputation des valeurs manquantes, ou peuvent être améliorés par imputation. Par conséquent, l’imputation et l’échantillonnage informatif sont susceptibles d’être combinés dans la pratique. La question évidente est de savoir si les gains obtenus de chacun sont additifs ou s’ils se rapportent d’une manière plus complexe. Nous étudions dans un premier temps comment les méthodes d’imputation affectent la performance des classificateurs puis si la combinaison de techniques d’imputation avec l’échantillonnage informé apporte des gains qui se cumulent. Le gain de méthodes d’imputation sont d’abord étudiés isolément avec une analyse comparative de la performance de certains nouveaux algorithmes et d’autres algorithmes d’imputation bien connus avec l’objectif de déterminer dans quelle mesure le motif des améliorations est stable dans les classificateurs pour la classification binaire. Ici encore, les résultats montrent que les améliorations obtenues par des techniques d’imputation peuvent varier considérablement par modèle et aussi par taux de valeur manquante. Nous étudions également les améliorations le long d’une autre dimension qui est de savoir si le taux d’échantillonnage par enregistrement est stable ou varie. Des différences mineures, mais statistiquement significatives sont observées dans les résultats, montrant que cette dimension peut également affecter les performances du classificateur. Dans une dernière étude, nous étudions empiriquement si les gains obtenus de l’échantillonnage informé et de l’imputation sont additifs, ou s’ils se combinent d’une manière plus complexe. Les résultats montrent que les gains individuels de l’échantillonnage informé et d’imputation sont du même ordre de grandeur, mais en général, ils ne sont pas une simple somme des améliorations individuelles. Il faut noter aussi que, malgré les résultats encourageants pour certaines combinaisons d’échantillonnage informées et des algorithmes d’imputation, une analyse détaillée des résultats de l’ensemble de données individuelles révèle que ces combinaisons apportent rarement des performances supérieures aux algorithmes d’imputation ou à l’échantillonnage informé individuellement. Les résultats de nos études fournissent une démonstration de l’efficacité de l’échantillonnage informé pour améliorer les performances de classification binaire pour le modèle TAN, mais les résultats sont plus mitigés pour NB et LR. En outre, l’échantillonnage à entropie élevée se révèle être le régime le plus bénéfique.----------ABSTRACT In the last two decades or so, some of the substantial advances in machine learning relate to sampling techniques. For example, boosting uses weighted sampling to improve model training, and active learning uses unlabeled data gathered so far to decide what are the most relevant data points to ask an oracle to label. This thesis introduces a novel sampling technique that uses features entropy to guide the sampling, a process we call informed sampling. The central idea is that the reliability of model parameter learning may be more sensitive to variables that have low, or high entropy. Therefore, adapting the sampling rate of variables based on their entropy may lead to better parameter estimates. In a series of papers, we first test this hypothesis for three classifier models, Logistic regression (LR), Naive Bayes (NB), and Tree Augmented Naive Bayes (TAN), and over a binary classification task with a 0-1 loss function. The results show that the high-entropy sampling (higher sampling rate for high entropy variables) systematically improves the prediction performance of the TAN classifier. However, for the NB and LR classifiers, the picture is more blurry. Improvements are obtained for only half of the 11 datasets used, and often the improvements come from high-entropy sampling, seldom from low-entropy sampling. This first experiment is replicated in a second study, this time using a more realistic context where the entropy of variables is unknown a priori, but instead is estimated with seed data and adjusted on the fly. Results showed that using a seed dataset of 1% of the total number of instances, which ranged from a few hundreds to around 1000, the improvements obtained from the former study hold for TAN with an average improvement of 13% in RMSE reduction. For the same seed size improvements were also obtained for the Naive Bayes classifier by a factor of 8% from low instead of high entropy sampling. Also, the pattern of improvements for LR was almost the same as obtained from the former study. Notwithstanding that classifier improvements can be obtained through informed sampling, but that the pattern of improvements varies across the informed sampling approach and the classifier model, we further investigate how the imputation methods affect this pattern. This question is of high importance because informed sampling necessarily implies missing values, and many classifiers either require the imputation of missing values, or can be improved by imputation. Therefore imputation and informative sampling are likely to be combined in practice. The obvious question is whether the gains obtained from each are additive or if they relate in a more complex manner. The gain from imputation methods are first studied in isolation with a comparative analysis of the performance of some new and some well known imputation algorithms, with the objective of determining to which extent the pattern of improvements is stable across classifiers for the binary classification and 0-1 loss function. Here too, results show that patterns of improvement of imputation algorithms can vary substantially per model and also per missing value rate. We also investigate the improvements along a different dimension which is whether the rate of sampling per record is stable or varies. Minor, but statistically significant differences are observed in the results, showing that this dimension can also affect classifier performance. In a final paper, first the levels of improvement from informed sampling are compared with those from a number of imputation techniques. Next, we empirically investigate whether the gains obtained from sampling and imputation are additive, or they combine in a more complex manner. The results show that the individual gains from informed sampling and imputation are within the same range and that combining high-entropy informed sampling with imputation brings significant gains to the classifiers’ performance, but generally, not as a simple sum of the individual improvements. It is also noteworthy that despite the encouraging results for some combinations of informed sampling and imputation algorithms, detailed analysis of individual dataset results reveals that these combinations rarely bring classification performance above the top imputation algorithms or informed sampling by themselves. The results of our studies provide evidence of the effectiveness of informed sampling to improve the binary classification performance of the TAN model. Also, high-entropy sampling is shown to be the most preferable scheme to be conducted. This for example, in the context of Computerized Adaptive Testing, can be translated to favoring the highly uncertain questions (items of average difficulty). Variable number of items administered is another factor that should be taken into account when imputation is involved

    Performance Comparison of Recent Imputation Methods for Classification Tasks over Binary Data

    No full text
    This paper evaluates the effect on the predictive accuracy of different models of two recently proposed imputation methods, namely missForest (MF) and Multiple Imputation based on Expectation-Maximization (MIEM), along with two other imputation methods: Sequential Hot-deck and Multiple Imputation based on Logistic Regression (MILR). Their effect is assessed over the classification accuracy of four different models, namely Tree Augmented Naive Bayes (TAN) which has received little attention, Naive Bayes (NB), Logistic Regression (LR), and Support Vector Machine (SVM) with Radial Basis Function (RBF) kernel. Experiments are conducted over fourteen binary datasets with large feature sets, and across a wide range of missing data rates (between 5 and 50%). The results from 10 fold cross-validations show that the performance of the imputation methods varies substantially between different classifiers and at different rates of missing values. The MIEM method is shown to generally give the best results for all the classifiers across all rates of missing data. While NB model does not benefit much from imputation compared to a no imputation baseline, LR and TAN are highly susceptible to gain from the imputation methods at higher rates of missing values. The results also show that MF works best with TAN, and Hot-deck degrades the predictive performance of SVM and NB models at high rates of missing values (over 30%). Detailed analysis of the imputation methods over the different datasets is reported. Implications of these findings on the choice of an imputation method are discussed

    Analyse de la performance de la méthode d'imputation de données manquantes missForest et application à des données environnementales

    Get PDF
    L’acquisition de données et leur enregistrement sous la forme de bases de données en vue d’être ultérieurement exploités sont des opérations courantes dans un large éventail de domaines (médecine, production industrielle, éducation, environnement, etc.). Cependant, les processus de mesure, d’acquisition et/ou d’enregistrement peuvent être soumis à des dysfonctionnement et engendrer des «trous » dans la base de données. Ces manques de données altèrent la capacité d'analyse subséquente et, par conséquence, l’information et la prise de décision associée. En environnement, de par le large spectre des activités qui ont un impact sur les milieux naturels, les données collectées et enregistrées sont généralement de nature quantitative et qualitative (données mixtes). Dans ce contexte, il devient pertinent d’évaluer la performance de méthodes de traitement des données manquantes en tenant compte de cette caractéristique. La présente étude s’est intéressée aux méthodes d’imputation de données manquantes et plus spécifiquement à la performance de la méthode missForest et son application au problème des données manquantes en environnement. Dans ce contexte, une étude comparative a été effectuée entre missForest et deux autres méthodes d’imputation, multivariate imputation by chained equations (MICE) et K-nearest neighbors (KNN). Cette analyse comparative a porté sur 10 bases de données complètes de nature diverses (données qualitatives, quantitatives et mixtes) en considérant spécifiquement des indicateurs d’erreurs d’imputation réelles et le temps de traitement. Par la suite, l’application de la méthode missForest à la base de données de la performance de traitement des stations d’épuration du Québec a été réalisée comme cas d’étude de données environnementale. Les résultats de l’étude comparative ont révélé que sur le plan des erreurs d’imputation, missForest a été la méthode la plus performante sur 9 des 10 bases de données testées. L’écart de performance étant plus manifeste pour les imputations portant sur les bases de données mixtes où missForest a réduit les erreurs d’imputation jusqu’à 60 % par rapport aux deux autres méthodes. En ce qui concerne les temps de traitement, KNN a été la méthode la plus rapide sur l’ensemble des 10 bases de données lorsque le pourcentage de données manquante était inférieur ou égal à 30 %. Les temps de traitement de missForest, bien que généralement supérieurs à ceux de KNN, ont eu tendance à diminuer avec la hausse du pourcentage de données manquante. L’application de la méthode missForest à la base de données de la performance de traitement des stations d’épuration du Québec a donné des erreurs estimées systématiquement inférieures à 10 %. Ces résultats suggèrent que missForest est la méthode d'imputation à privilégier pour le traitement de données manquantes en environnement

    Predictability of Missing Data Theory to Improve U.S. Estimator’s Unreliable Data Problem

    Get PDF
    Since the topic of improving data quality has not been addressed for the U.S. defense cost estimating discipline beyond changes in public policy, the goal of the study was to close this gap and provide empirical evidence that supports expanding options to improve software cost estimation data matrices for U.S. defense cost estimators. The purpose of this quantitative study was to test and measure the level of predictive accuracy of missing data theory techniques that were referenced as traditional approaches in the literature, compare each theories’ results to a complete data matrix used in support of the U.S. defense cost estimation discipline, and determine which theories rendered incomplete and missing data sets in a single data matrix most reliable and complete under eight missing value percentages. A quantitative pre-experimental research design, a one group pretest-posttest no control group design, empirically tested and measured the predictive accuracy of traditional missing data theory techniques typically used in non-cost estimating disciplines. The results from the pre-experiments on a representative U.S. defense software cost estimation data matrix obtained, a nonproprietary set of historical software effort, size, and schedule numerical data used at Defense Acquisition University revealed that single and multiple imputation techniques were two viable options to improve data quality since calculations fell within 20% of the original data value 16.4% and 18.6%, respectively. This study supports positive social change by investigating how cost estimators, engineering economists, and engineering managers could improve the reliability of their estimate forecasts, provide better estimate predictions, and ultimately reduce taxpayer funds that are spent to fund defense acquisition cost overruns
    corecore