Universidad de Talca (Chile). Facultad de Ingeniería
Abstract
50 p.Más del 50% de los matriculados en Chile en educación superior, no termina sus estudios en la primera carrera que se matricula. Esto genera importantes pérdidas de eficiencia para el Estado, las familias de los alumnos y las Universidades. Por este motivo se presenta un análisis comparativo de diversos algoritmos de Machine Learning para predecir la deserción en varios niveles y establece cuales son las variables significativas
para los modelos. El estudio se dividió en dos etapas, la primera determina la deserción de los estudiantes, sin importar el tiempo en que suceda. La segunda considera la deserción en tres diferentes niveles por separado: Primer, Segundo y Tercer año. Los análisis muestran que el método Random Forest es el que mejor desempeño presenta. Los atributos más significativos de acuerdo a Information Gain resultaron ser las Notas de Educación Media e Índice de Pobreza Comunal, factores que de acuerdo al estado del arte no han sido aplicados en otros estudios de Minería de Datos aplicada a la Educación. Otro aporte de esta investigación, es la respuesta a una interrogante planteada por Arrau and Loiseau (2003) respecto de la deserción por quintiles de Ingreso económico. Palabras claves— Retención estudiantil, Random Forest, Minería de datos, Dashboar