Comparative analysis of performance gaps in the Sabre 11° test - ICFES: Data Science Methodology with Apache Spark and Machine Learning

Abstract

La República de Colombia, por medio del Instituto Colombiano para la Evaluación de la Educación (ICFES), evalúa la educación a través de pruebas estandarizadas en sus distintos niveles educativos, como la prueba Saber 11. La presente investigación aborda la marcada y persistente brecha de desempeño académico en las pruebas Saber 11 entre municipios del país, tomando como caso de estudio la comparación entre Bucaramanga y Santa Marta. Para analizar esta brecha, se desarrolla una metodología basada en la Ciencia de Datos que integra el marco CRISP-DM y una arquitectura de procesamiento distribuido en Apache Spark, con el propósito de construir un flujo reproducible de análisis y modelado diferenciado por territorio. El estudio parte de un conjunto histórico de resultados de Saber 11 (2014-2024) sobre el cual se realiza un proceso de ingeniería de datos para su depuración y estructuración. Posteriormente, se emplean técnicas de machine learning con PySpark para entrenar y comparar modelos independientes para cada municipio mediante validación cruzada, seleccionando el algoritmo Gradient Boosted Trees(GBT) por su capacidad de capturar relaciones no lineales. Los resultados muestran que estos modelos explican una proporción cercana al 22% de la variabilidad del puntaje global utilizando únicamente información socioeconómica, familiar e institucional, lo que cuantifica el peso estructural del contexto en el desempeño. Adicionalmente, el análisis de interpretabilidad (SHAP) revela una divergencia en los determinantes de la brecha: mientras en Bucaramanga el desempeño depende del capital cultural heredado, en Santa Marta está condicionado por barreras de acceso a infraestructura tecnológica. La metodología propuesta constituye una guía práctica para la construcción de sistemas de monitoreo territorial basados en datos del ICFES, resaltando la utilidad de aislar los factores de contexto para diseñar políticas públicas diferenciadas.The Republic of Colombia, through the Colombian Institute for the Evaluation of Education (ICFES), assesses the educational system via standardized tests at various levels, such as the Saber 11 test. This research addresses the marked and persistent academic performance gap in the Saber 11 tests between the country's municipalities, adopting the comparison between Bucaramanga and Santa Marta as a specific case study. To analyze this gap, a methodology based on Data Science is developed, integrating the CRISP-DM framework and a distributed processing architecture using Apache Spark, with the aim of constructing a reproducible workflow for analysis and territorially differentiated modeling. The study utilizes a historical dataset of Saber 11 results (2014-2024), undergoing a data engineering process for cleaning and structuring. Subsequently, machine learning techniques using PySpark are employed to train and compare independent models for each municipality through cross-validation, selecting the Gradient Boosted Trees (GBT) algorithm due to its ability to capture non-linear relationships. Results indicate that these models explain a proportion close to 22% of the global score variability using solely socioeconomic, familial, and institutional information, thereby quantifying the structural weight of context on performance. Additionally, the interpretability analysis (SHAP) reveals a divergence in the determinants of the gap: while in Bucaramanga performance depends on inherited cultural capital, in Santa Marta it is conditioned by barriers to access regarding technological infrastructure. The proposed methodology constitutes a practical guide for the construction of territorial monitoring systems based on ICFES data, highlighting the utility of isolating context factors to design differentiated public policies

Similar works

Full text

Having an issue?

Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.

Licence: info:eu-repo/semantics/openAccess