thesis

Comparativa de análisis de imputación da datos faltantes con análisis de casos completos en pruebas diagnósticas

Abstract

El objetivo principal de este trabajo es la comparación de diversos métodos de tratamiento de datos faltantes en bases de datos de pruebas diagnósticas generadas a partir de una base de datos, sin pérdida de datos, mediante los diferentes mecanismos de pérdida de datos (MCAR, MAR y MNAR). La base de datos original recoge información sobre tumores mamarios malignos y benignos en una muestra de mujeres. La comparación se basa en los efectos que tienen los métodos de tratamiento de datos faltantes, tanto en el modelo diagnóstico que se obtenga mediante regresión logística con sus errores estándar, como en las curvas ROC y los valores asociados a dichas curvas. El objetivo secundario es obtener el mejor modelo de regresión logística para realizar el diagnóstico de los tumores. Se parte de la base de datos original sin datos faltantes, y el modelo fina obtenido es el que se aplica para comparar los efectos de los métodos de tratamiento de datos faltantes. Se explica la manera en la que se generan bases de datos con datos faltantes según cada mecanismo de pérdida de datos, tras detallar lo que representan las diferentes variables de la base de datos original. Se explican minuciosamente los métodos utilizados de tratamiento de datos faltantes con imputación múltiple, Missing Forest y MICE, y de manera más sencilla los demás métodos, el análisis de casos completos, el método de sustitución por la media y el uso de variables indicadoras de pérdida de datos

    Similar works