1,658 research outputs found

    Bayesian Approach For Early Stage Event Prediction In Survival Data

    Get PDF
    Predicting event occurrence at an early stage in longitudinal studies is an important and challenging problem which has high practical value. As opposed to the standard classification and regression problems where a domain expert can provide the labels for the data in a reasonably short period of time, training data in such longitudinal studies must be obtained only by waiting for the occurrence of sufficient number of events. On the other hand, survival analysis aims at finding the underlying distribution for data that measure the length of time until the occurrence of an event. However, it cannot give an answer to the open question of how to forecast whether a subject will experience event by end of study having event occurrence information at early stage of survival data?\u27\u27. This problem exhibits two major challenges: 1) absence of complete information about event occurrence (censoring) and 2) availability of only a partial set of events that occurred during the initial phase of the study. Thus, the main objective of this work is to predict for which subject in the study event will occur at future based on few event information at the initial stages of a longitudinal study. In this thesis, we propose a novel approach to address the first challenge by introducing a new method for handling censored data using Kaplan-Meier estimator. The second challenge is tackled by effectively integrating Bayesian methods with an Accelerated Failure Time (AFT) model by adapting the prior probability of the event occurrence for future time points. In another word, we propose a novel Early Stage Prediction (ESP) framework for building event prediction models which are trained at early stages of longitudinal studies. More specifically, we extended the Naive Bayes, Tree-Augmented Naive Bayes (TAN) and Bayesian Network methods based on the proposed framework, and developed three algorithms, namely, ESP-NB, ESP-TAN and ESP-BN, to effectively predict event occurrence using the training data obtained at early stage of the study. The proposed framework is evaluated using a wide range of synthetic and real-world benchmark datasets. Our extensive set of experiments show that the proposed ESP framework is able to more accurately predict future event occurrences using only a limited amount of training data compared to the other alternative prediction methods

    Data mining for heart failure : an investigation into the challenges in real life clinical datasets

    Get PDF
    Clinical data presents a number of challenges including missing data, class imbalance, high dimensionality and non-normal distribution. A motivation for this research is to investigate and analyse the manner in which the challenges affect the performance of algorithms. The challenges were explored with the help of a real life heart failure clinical dataset known as Hull LifeLab, obtained from a live cardiology clinic at the Hull Royal Infirmary Hospital. A Clinical Data Mining Workflow (CDMW) was designed with three intuitive stages, namely, descriptive, predictive and prescriptive. The naming of these stages reflects the nature of the analysis that is possible within each stage; therefore a number of different algorithms are employed. Most algorithms require the data to be distributed in a normal manner. However, the distribution is not explicitly used within the algorithms. Approaches based on Bayes use the properties of the distributions very explicitly, and thus provides valuable insight into the nature of the data.The first stage of the analysis is to investigate if the assumptions made for Bayes hold, e.g. the strong independence assumption and the assumption of a Gaussian distribution. The next stage is to investigate the role of missing values. Results found that imputation does not affect the performance as much as those records which are initially complete. These records are often not outliers, but contain problem variables. A method was developed to identify these. The effect of skews in the data was also investigated within the CDMW. However, it was found that methods based on Bayes were able to handle these, albeit with a small variability in performance. The thesis provides an insight into the reasons why clinical data often causes problems. Even the issue of imbalanced classes is not an issue, for Bayes is independent of this

    Contributions to learning Bayesian network models from weakly supervised data: Application to Assisted Reproductive Technologies and Software Defect Classification

    Get PDF
    162 p.Las técnicas de análisis de datos permitenextraer información de un conjunto de datos. Hoy en día, con la explosión delas nuevas tecnologías, el enorme volumen de datos que una amplia variedadde dispositivos recogen y almacenan no puede ser procesado por medio de lastécnicas clásicas de análisis de datos. Para afrontar esta tarea, la minería dedatos y el aprendizaje automático son dos campos dentro de la inteligenciaartificial que desarrollan métodos computacionales de análisis de datos queaprovechan la capacidad de procesamiento de los ordenadores modernos.Las técnicas de clasificación supervisada se enmarcan dentro del campodel aprendizaje automático. En un problema de clasificación, existe un conjuntode posibles categorías a una de las cuales se asigna cada uno de los casosdel problema. En este contexto, se entiende por aprendizaje el proceso de inferirel mapeo de casos y categorías que se observa en el problema original apartir de un conjunto de casos de ejemplo. Estas técnicas de clasificación sedicen ¿supervisadas¿ porque dicho conjunto de ejemplos lo forman casos delproblema que han sido previamente asignados, uno a uno, a sus respectivascategorías. De esta manera, las técnicas de clasificación supervisada infierenel mapeo a partir de un conjunto de ejemplos completamente categorizado(o etiquetado) y construyen un clasificador que, dado un nuevo caso del problemaaún sin categorizar, es capaz de predecir su pertenencia a una de lasposibles categorías.En esta tesis se explora el problema de la clasificación supervisada cuandolos ejemplos que se aportan no están completamente categorizados. Elconjunto de trabajos que estudian la posibilidad de aprender un clasificadoren este tipo de escenarios son globalmente conocidos como clasificacióndébilmente supervisada o parcialmente etiquetada. El problema clásico declasificación semi-supervisada, donde sólo un subconjunto de los ejemplos estácategorizado, es uno de los primeros ejemplos de este tipo de problemas.Recientemente, el intento de resolver cada vez problemas de clasificaciónpor medio de técnicas de clasificación supervisada ha hecho patente que laobtención de un conjunto de datos completamente supervisado es con frecuenciaimposible o extremadamente difícil. Ante esta situación, diferentesinvestigadores han propuesto técnicas de clasificación débilmente supervisadaespecíficas que les permiten aprovechar toda la información de supervisiónque han podido recoger para su conjunto de ejemplos. La amplia variedadde restricciones que han impedido a los diferentes investigadores recoger unconjunto de ejemplos totalmente categorizado ha multiplicado el número deproblemas de clasificación débilmente supervisada presentados recientementeen la literatura junto con las soluciones propuestas para resolverlos.Nuestra primera propuesta en esta tesis es precisamente una ordenaciónnovedosa del espectro de problemas de clasificación débilmente supervisada.Se trata de una taxonomía con tres ejes donde cada uno de los cuales representauna característica fundamental a la hora de describir un problema declasificación débilmente supervisada. Todos los problemas se pueden identificarpor el tipo de información parcial de supervisión con que se categorizanlos ejemplos con que se aprende el clasificador. Además, en un segundo eje sediscute y visualiza la existencia de problemas de clasificación que permitenal clasificador, una vez aprendido, aprovechar cierta información parcial desupervisión de los ejemplos que debe predecir. El tercer eje de la taxonomíasepara los diferentes problemas según lo que se entiende en cada casoconcreto por ejemplo y categoría. Esta organización del estado del arte permitedescubrir las similitudes y diferencias entre los diferentes problemas declasificación. Alternativamente, el uso de esta taxonomía permite detectar ycaracterizar áreas por explorar, las cuales podrían representar nuevos problemasque todavía no han sido estudiados en la literatura relacionada.La taxonomía propuesta establece un marco general que cubre los diferentesproblemas estudiados en esta tesis. Hasta cuatro problemas diferentes declasificación débilmente supervisada han sido considerados. Todas nuestraspropuestas para abordarlos se basan en el aprendizaje de modelos de clasificaciónprobabilista, en concreto los clasificadores basados en redes Bayesianas(BNCs, por sus siglas en inglés). Esta familia de clasificadores está basadaen la sólida teoría matemática de las redes Bayesianas y los modelos gráficosprobabilísticos. Nuestras técnicas para aprender este tipo de clasificadoresusando un conjunto de datos débilmente supervisado se basan en una estrategiaiterativa conocida como EM (del inglés, expectation-maximization).Una adaptación de esta estrategia clásica para lidiar con la información parcialde supervisión disponible en cada problema estudiado está en la base delas propuestas metodológicas.Aparte de la taxonomía, esta tesis contiene otros cuatro trabajos de investigaciónnovedosos. Dos de ellos son contribuciones metolodógicas que resuelvensendos problemas de clasificación débilmente supervisada: el aprendizajea partir de proporciones de etiquetas (LLP, por sus siglas en inglés) y elaprendizaje con ejemplos etiquetados por múltiples anotadores (CrL).El problema LLP se caracteriza por un conjunto de ejemplos, el cual noha podido ser categorizado, que se divide en subconjuntos. Para cada subconjunto,la información de supervisión de la que se dispone consiste en laproporción de ejemplos que pertenece a cada una de las categorías (etiquetas)posibles. En nuestro trabajo, se considera el coste del aprendizaje en losdiferentes escenarios de este problema de clasificación. Hasta cuatro versionesde un método basado en la estrategia EM, los cuales tratan la incertidumbreen el etiquetado del problema de diversas maneras, son propuestos. Laestrategia EM permite, iterativamente, aprender un modelo a la vez que sedescubre la imputación idónea para las etiquetas de los ejemplos provistos.La primera versión propuesta imputa la etiqueta más probable (de acuerdocon el modelo actual) para cada ejemplo. Una segunda versión, probabilista,asigna cada ejemplo a cada una de las posibles etiquetas con la probabilidadque el modelo devuelve para esa combinación de ejemplo y categoría. La terceraversión está diseñada para lidiar con los escenarios del problema máscostosos, realizando una imputación probabilista aproximada mediante unproceso MCMC (del inglés Markov Chain Monte Carlo). La última versión,la cual se ha demostrado que es la más eficiente y sin diferencias significativascon respecto a la versión probabilista exacta (2), es una combinación de lasversiones 2 y 3 que sólo lleva a cabo la aproximación MCMC en caso de que elcoste de la imputación exacta supere cierto umbral. Este trabajo incluye unestudio experimental de la estabilidad del método ante escenarios del problemacada vez más costosos, así como una comparativa con dos propuestas delestado del arte, ante las cuales nuestro método muestra un comportamientocompetitivo.En la segunda contribución metodológica estudiamos el problema CrL. Eneste caso, la etiqueta real de cada ejemplo es desconocida, pero se disponede las diferentes categorías propuestas por múltiples anotadores de credi-bilidad cuestionable (los anotadores no siempre anotan la etiqueta real delejemplo en cuestión). En este trabajo, estudiamos la robustez de dos estrategiasbásicas que ofrecen resultados competitivos en escenarios del problemabien informados (los anotadores, abundantes en número, son suficientementecompetentes). Centrado en escenarios poco informados, hemos propuestoun método que aprende clasificadores multidimensionales (a cada ejemplo lecorresponde una categoría simultáneamente en diferentes clasificaciones). Unconjunto de pesos codifica la fiabilidad de cada anotador en cada dimensión oglobalmente. Este conjunto de pesos es actualizado iterativamente usando laestrategia EM mediante una de estas dos posibles configuraciones: de acuerdoa la tasa de acierto del anotador considerando las etiquetas predichas porel modelo recientemente aprendido como las reales, o bien, usando la mediade las probabilidades asignadas por el modelo a cada par caso-categoríasetiquetado por el anotador. Mediante una completa experimentación, la configuracióndel método que obtiene mejores resultados ha sido identificada.Además, se ha testado la capacidad del método propuesto para recuperar lafiabilidad real de cada anotador en entornos simulados y se ha comparado endiferentes escenarios con las estrategias básicas estudiadas.La última parte de la tesis consiste en dos trabajos de investigación aplicados,los cuales nos han permitido testar nuestras propuestas metodológicasen entornos reales. El primero de ellos, un estudio de la aplicación de técnicasde clasificación débilmente supervisada para mejorar la tasa de éxito entratamientos de reproducción asistida, ha sido llevado a cabo en colaboracióncon la Unidad de Reproducción Asistida del Hospital Donostia (Gipuzkoa).En el segundo caso, un problema de clasificación de defectos de software extraídosde la plataforma oficial de seguimiento de errores/fallos del softwareCompendium ha sido abordado desde el punto de vista de un problema CrL.El problema de las tecnologías de reproducción asistida (ARTs, por susiglas en inglés) se trata de un ejemplo claro de clasificación débilmente supervisadadebido a la imposibilidad de monitorizar el proceso completo de lareproducción asistida; concretamente, entre la transferencia del óvulo fecundadohasta su implantación e inicio del proceso de gestación. En realidad, latarea es doble. Por un lado, se afronta la tarea de identificar el tratamientoindividualizado para cada mujer (pareja) que maximiza la probabilidad deembarazo. Asimismo, también se aborda la selección de los embriones másprometedores (obtenidos tras extraer y fecundar los óvulos, y cultivarlos hastala formación de embriones). Ambas tareas adquieren un matiz diferente sise consideran antes o después de la transferencia de los embriones al úterode la paciente ¿es entonces cuando se pierde la capacidad de monitorizarel proceso¿ pues la información de supervisión disponible es diferente. Así,cuatro aproximaciones diferentes han sido usadas para resolver parcialmentediferentes aristas de este problema. La primera, predecir la probabilidad deque un tratamiento acabe en embarazo, se ha modelado mediante un problemade clasificación supervisada clásico. Así, técnicas estándar de aprendizajede BNCs han podido ser utilizadas. La segunda aproximación, predecir la posibilidadde que un embrión se implante (e induzca un embarazo), se modelamediante el problema LLP. La metodología presentada en esta misma tesisha sido usada para abordar este problema. Las dos siguientes aproximacionesson equivalentes a las dos anteriores, pero evitan el proceso de implantaciónmodelando un evento del proceso ART previo a la transferencia. Así, la tercerapredice si un tratamiento se ha configurado de una manera idónea paragestar un embarazo y se modela mediante un problema de aprendizaje conejemplos positivos y no-etiquetados (PU, por sus siglas en inglés). Una metodologíadesarrollada previamente en nuestro grupo de investigación paralidiar con este tipo de problemas ha sido aplicada. Finalmente, la cuartaaproximación, que anticipa si un embrión se desarrollará correctamente, hasido modelada mediante otro problema de clasificación débilmente supervisada:el aprendizaje con proporciones de ejemplos positivos y no-etiquetados(PUP), un problema que combina características de los problemas LLP yPU. Algunos resultados clínicamente relevantes se han derivado del análisisde un conjunto de datos recogido por la citada Unidad durante un períodode 18 meses. El rendimiento de los clasificadores aprendidos para predecirla viabilidad de un ciclo (tratamiento de ARTs) es prometedora. Se ha podidoconstatar experimentalmente que los datos referentes a la estimulacióny otros factores del tratamiento son relevantes a la hora de predecir la implantaciónde un embrión. Sin embargo, el proceso de implantación está lejosde ser completamente entendido. En consonancia, de los resultados obtenidostambién se desprende que los datos recogidos para elegir los embriones atransferir determinan más efectivamente el correcto desarrollo de los embrionesque su implantación en caso de ser transferido. De todas formas, el buendesarrollo del embrión es indiscutiblemente un requisito para que un embrióntransferido al útero de una mujer se implante. Por ello, una ordenación másprecisa de los embriones de acuerdo a su probabilidad de desarrollarse espresentada en este trabajo. Este ordenamiento podría ser asimismo usado enun nuevo criterio de selección de embriones a transferir.Del campo de la ingeniería del software nos llega la segunda aplicaciónpráctica, el estudio de la cual constituye la quinta y última contribución deesta tesis. Un conjunto de ejemplos de defectos del software Compendiumregistrados por los usuarios en su sistema de seguimiento de errores ha sidoobtenido y etiquetado por un grupo de anotadores. El etiquetado de este tipode problemas de ingeniería del software es típicamente una tarea subjetivaque implica numerosas y habituales contradicciones entre diferentes anotadores.Por lo tanto, esta aplicación ha sido modelada como un problema CrL conmúltiples clases (categorías) desbalanceadas (no todas aparecen con la mismafrecuencia) y abordado mediante una adaptación de la metodología propuestaen esta misma tesis para el problema CrL. Ésta es una aproximación alproblema de clasificación de defectos novedosa en la literatura relacionada.Además, la metodología de aprendizaje propuesta anteriormente se ha combinadocon dos técnicas ampliamente utilizadas por la comunidad que intentanlidiar con dos dificultades añadidas que caracterizan a esta aplicación real:por un lado, una estrategia que descompone en subproblemas binarios el problemaoriginal con múltiples clases (conocida como weighted OvO) y, por elotro, una técnica de muestreo que intenta mitigar los efectos del desbalanceode las clases (conocida como SMOTEBoost). Estas técnicas han sido exitosamenteadaptadas al entorno CrL. Las diferentes estrategias consideradas hansido testadas en un completo conjunto de experimentos. Para poder valorarel rendimiento de los modelos aprendidos se implementa una de las estrategiasbásicas más robustas, el voto mayoritario (MV, por sus siglas en inglés).Esta estrategia asigna a cada ejemplo la clase mayoritariamente etiquetadapor el conjunto de anotadores, convirtiendo el problema CrL en un problemaclásico de clasificación supervisada para el cual se pueden usar metodologíasestándar de aprendizaje. En general, se aprecia que las metodologías propuestasson competitivas ante la estrategia MV. Cada estrategia cumple sufunción y, de esta manera, se puede observar que el SMOTEBoost adaptadosacrifica en parte el rendimiento global (menor tasa de acierto) para mejorarel rendimiento al predecir las clases minoritarias. La metodología propuestapara el problema CrL es competitiva también para problemas con múltiplesclases, como puede apreciarse en el hecho de que los resultados del weightedOvO rara vez mejoran los de nuestra metodología por sí sola

    Learning Extended Tree Augmented Naive Structures

    Get PDF
    This work proposes an extended version of the well-known tree-augmented naive Bayes (TAN) classifier where the structure learning step is performed without requiring features to be connected to the class. Based on a modification of Edmonds ’ algorithm, our structure learning procedure explores a superset of the structures that are considered by TAN, yet achieves global optimality of the learning score function in a very efficient way (quadratic in the number of features, the same complexity as learning TANs). We enhance our procedure with a new score function that only takes into account arcs that are relevant to predict the class, as well as an optimization over the equivalent sample size during learning. These ideas may be useful for structure learning of Bayesian networks in general. A range of experiments show that we obtain models with better prediction accuracy than Naive Bayes and TAN, and comparable to the accuracy of the state-of-the-art classifier averaged one-dependence estimator (AODE). We release our implementation of ETAN so that it can be easily installed and run within Weka

    Improving Binary Classifier Performance Through an Informed Sampling Approach and Imputation

    Get PDF
    RÉSUMÉ Au cours des deux dernières décennies, des progrès importants dans le domaine de l’apprentissage automatique ont été réalisés grâce à des techniques d’échantillonnage. Relevons par exemple le renforcement (boosting), une technique qui assigne des poids aux observations pour améliorer l’entraînement du modèle, ainsi que la technique d’apprentissage actif qui utilise des données non étiquetées partielles pour décider dynamiquement quels cas sont les plus pertinents à demander à un oracle d’étiqueter. Cette thèse s’inscrit dans ces recherches et présente une nouvelle technique d’échantillonnage qui utilise l’entropie des données pour guider l’échantillonnage, un processus que nous appelons l’échantillonnage informé. L’idée centrale est que la fiabilité de l’estimation des paramètres d’un modèle peut dépendre de l’entropie des variables. Donc, l’adaptation du taux d’échantillonnage de variables basée sur leur entropie peut conduire à de meilleures estimations des paramètres. Dans une série d’articles, nous étudions cette hypothèse pour trois modèles de classification, notamment Régression Logistique (LR), le modèle bayes naïf (NB) et le modèle d’arbre bayes naif (TAN—Tree Augmented Naive Bayes), en prenant une tâche de classification binaire avec une fonction d’erreur 0-1. Les résultats démontrent que l’échantillonnage d’entropie élevée (taux d’échantillonnage plus élevé pour les variables d’entropie élevée) améliore systématiquement les performances de prédiction du classificateur TAN. Toutefois, pour les classificateurs NB et LR, les résultats ne sont pas concluants. Des améliorations sont obtenues pour seulement la moitié des 11 ensembles de données utilisées et souvent les améliorations proviennent de l’échantillonnage à entropie élevée, rarement de l’échantillonnage à entropie faible. Cette première expérience est reproduite dans une deuxième étude, cette fois en utilisant un contexte plus réaliste où l’entropie des variables est inconnue à priori, mais plutôt estimée avec des données initiales et où l’échantillonnage est ajusté à la volée avec les nouvelles estimation de l’entropie. Les résultats démontrent qu’avec l’utilisation d’un ensemble de données initial de 1% du nombre total des exemplaires, qui variait de quelques centaines à environ 1000, les gains obtenus de l’étude précédente persistent pour le modèle TAN avec une amélioration moyenne de 13% dans la réduction l’erreur quadratique. Pour la même taille des semences, des améliorations ont également été obtenues pour le classificateur naïf bayésien par un facteur de 8% de l’entropie faible au lieu d’échantillonnage d’entropie élevée. L’échantillonnage informé implique nécessairement des valeurs manquantes, et de nombreux classificateurs nécessitent soit l’imputation des valeurs manquantes, ou peuvent être améliorés par imputation. Par conséquent, l’imputation et l’échantillonnage informatif sont susceptibles d’être combinés dans la pratique. La question évidente est de savoir si les gains obtenus de chacun sont additifs ou s’ils se rapportent d’une manière plus complexe. Nous étudions dans un premier temps comment les méthodes d’imputation affectent la performance des classificateurs puis si la combinaison de techniques d’imputation avec l’échantillonnage informé apporte des gains qui se cumulent. Le gain de méthodes d’imputation sont d’abord étudiés isolément avec une analyse comparative de la performance de certains nouveaux algorithmes et d’autres algorithmes d’imputation bien connus avec l’objectif de déterminer dans quelle mesure le motif des améliorations est stable dans les classificateurs pour la classification binaire. Ici encore, les résultats montrent que les améliorations obtenues par des techniques d’imputation peuvent varier considérablement par modèle et aussi par taux de valeur manquante. Nous étudions également les améliorations le long d’une autre dimension qui est de savoir si le taux d’échantillonnage par enregistrement est stable ou varie. Des différences mineures, mais statistiquement significatives sont observées dans les résultats, montrant que cette dimension peut également affecter les performances du classificateur. Dans une dernière étude, nous étudions empiriquement si les gains obtenus de l’échantillonnage informé et de l’imputation sont additifs, ou s’ils se combinent d’une manière plus complexe. Les résultats montrent que les gains individuels de l’échantillonnage informé et d’imputation sont du même ordre de grandeur, mais en général, ils ne sont pas une simple somme des améliorations individuelles. Il faut noter aussi que, malgré les résultats encourageants pour certaines combinaisons d’échantillonnage informées et des algorithmes d’imputation, une analyse détaillée des résultats de l’ensemble de données individuelles révèle que ces combinaisons apportent rarement des performances supérieures aux algorithmes d’imputation ou à l’échantillonnage informé individuellement. Les résultats de nos études fournissent une démonstration de l’efficacité de l’échantillonnage informé pour améliorer les performances de classification binaire pour le modèle TAN, mais les résultats sont plus mitigés pour NB et LR. En outre, l’échantillonnage à entropie élevée se révèle être le régime le plus bénéfique.----------ABSTRACT In the last two decades or so, some of the substantial advances in machine learning relate to sampling techniques. For example, boosting uses weighted sampling to improve model training, and active learning uses unlabeled data gathered so far to decide what are the most relevant data points to ask an oracle to label. This thesis introduces a novel sampling technique that uses features entropy to guide the sampling, a process we call informed sampling. The central idea is that the reliability of model parameter learning may be more sensitive to variables that have low, or high entropy. Therefore, adapting the sampling rate of variables based on their entropy may lead to better parameter estimates. In a series of papers, we first test this hypothesis for three classifier models, Logistic regression (LR), Naive Bayes (NB), and Tree Augmented Naive Bayes (TAN), and over a binary classification task with a 0-1 loss function. The results show that the high-entropy sampling (higher sampling rate for high entropy variables) systematically improves the prediction performance of the TAN classifier. However, for the NB and LR classifiers, the picture is more blurry. Improvements are obtained for only half of the 11 datasets used, and often the improvements come from high-entropy sampling, seldom from low-entropy sampling. This first experiment is replicated in a second study, this time using a more realistic context where the entropy of variables is unknown a priori, but instead is estimated with seed data and adjusted on the fly. Results showed that using a seed dataset of 1% of the total number of instances, which ranged from a few hundreds to around 1000, the improvements obtained from the former study hold for TAN with an average improvement of 13% in RMSE reduction. For the same seed size improvements were also obtained for the Naive Bayes classifier by a factor of 8% from low instead of high entropy sampling. Also, the pattern of improvements for LR was almost the same as obtained from the former study. Notwithstanding that classifier improvements can be obtained through informed sampling, but that the pattern of improvements varies across the informed sampling approach and the classifier model, we further investigate how the imputation methods affect this pattern. This question is of high importance because informed sampling necessarily implies missing values, and many classifiers either require the imputation of missing values, or can be improved by imputation. Therefore imputation and informative sampling are likely to be combined in practice. The obvious question is whether the gains obtained from each are additive or if they relate in a more complex manner. The gain from imputation methods are first studied in isolation with a comparative analysis of the performance of some new and some well known imputation algorithms, with the objective of determining to which extent the pattern of improvements is stable across classifiers for the binary classification and 0-1 loss function. Here too, results show that patterns of improvement of imputation algorithms can vary substantially per model and also per missing value rate. We also investigate the improvements along a different dimension which is whether the rate of sampling per record is stable or varies. Minor, but statistically significant differences are observed in the results, showing that this dimension can also affect classifier performance. In a final paper, first the levels of improvement from informed sampling are compared with those from a number of imputation techniques. Next, we empirically investigate whether the gains obtained from sampling and imputation are additive, or they combine in a more complex manner. The results show that the individual gains from informed sampling and imputation are within the same range and that combining high-entropy informed sampling with imputation brings significant gains to the classifiers’ performance, but generally, not as a simple sum of the individual improvements. It is also noteworthy that despite the encouraging results for some combinations of informed sampling and imputation algorithms, detailed analysis of individual dataset results reveals that these combinations rarely bring classification performance above the top imputation algorithms or informed sampling by themselves. The results of our studies provide evidence of the effectiveness of informed sampling to improve the binary classification performance of the TAN model. Also, high-entropy sampling is shown to be the most preferable scheme to be conducted. This for example, in the context of Computerized Adaptive Testing, can be translated to favoring the highly uncertain questions (items of average difficulty). Variable number of items administered is another factor that should be taken into account when imputation is involved
    • …
    corecore