Comparación empírica de la eficiencia de algunas técnicas de tratamiento de datos faltantes aplicadas al análisis de regresión lineal múltiple.

Abstract

En este trabajo se caracterizan algunas de las más comunes técnicas estadísticas de tratamiento de datos faltantes y se comparan empíricamente a través de una simulación para determinar cuál es la más eficiente en la estimación de los coeficientes de regresión y de determinación de un modelo lineal de regresión múltiple con dos variables explicativas y un patrón univariado de datos faltantes sobre una de las variables. Se midieron la eficiencia relativa a través del error cuadrático medio y con base en las estimaciones por intervalos de confianza de los coeficientes de regresión a través de su cubierta y amplitud. Los resultados sugieren que análisis de casos completos, debe ser usado cuando el porcentaje de faltantes es pequeño y bajo mecanismos completamente al azar. En general, para todas las técnicas cuando el porcentaje aumenta, las estimaciones de los coeficientes de determinación y regresión se vuelven ineficientes alterando la cubierta y amplitud de los intervalos de confianza de los coeficientes de regresión. El análisis de casos disponibles y la imputación de la media no condicional y condicional no son recomendables porque producen en muchos casos estimaciones ineficientes de los coeficientes de determinación y de regresión. El algoritmo EM es una técnica eficiente y menos sensible a mecanismos que no son completamente al azar

    Similar works