Identificación y pronóstico de sífilis congénita mediante técnicas de Aprendizaje Automático para las localidades de Usme, Tunjuelito, Ciudad Bolívar y Sumapaz (Bogotá D.C.)

Abstract

La sífilis congénita es una infección bacteriana grave transmitida en un recién nacido de una madre que no fue tratada o fue tratada de manera inadecuada para la sífilis durante el embarazo; las consecuencias de esta infección en el bebé están relacionadas con una afectación en la calidad de vida y enfermedades como masas abdominales, bajo peso, anormalidades esqueléticas y dolores óseos, inflamación articular, ceguera, sordera, entre otros, e inclusive la muerte, por lo que constituye un problema de interés en salud pública a nivel mundial; esto ha llevado a los gobiernos y científicos a la búsqueda de estrategias para la reducción de nuevos casos de sífilis en bebés; por ello la importancia de contar con modelos predictivos como herramienta para la identificación temprana de factores de riesgo o variables en las embarazadas y así realizar una acción en salud para evitar el contagio de sífilis al recién nacido. Desde este punto de gravedad e impacto que la sífilis congénita genera, el presente trabajo utilizó técnicas de aprendizaje automático para la elaboración de modelos predictivos que apoyen la identificación de variables relacionadas con la aparición de nuevos casos de recién nacidos infectados y que sean útiles en las instituciones de salud para el manejo oportuno del tratamiento en la mujer gestante; esto a partir del conocimiento sobre variables sociodemográficas y de salud de la madre y su contexto. Se contó con un conjunto de datos que recopilan información sociodemográfica y de salud de una cohorte de 451 mujeres gestantes con diagnóstico positivo para sífilis de las localidades de Usme, Tunjuelito, Ciudad Bolívar y Sumapaz (Bogotá D.C.); se contó con información básica acerca del recién nacido en cuanto a su peso y estado de contagio de sífilis; se identificó en el conjunto de datos que el 21,5% (n=97) de los nacimientos de madres con sífilis también nacieron con sífilis (sífilis congénita); se entrenaron 12 modelos de predicción de sífilis congénita mediante técnicas de aprendizaje automático supervisado. El principal resultado ha sido generar cuatro modelos predictivos, K Neighbors Classifier, Light Gradient Boosting Machine, Gradient Boosting Classifier y Random Forest Classifier. Sobre los modelos de predicción se evaluaron sus métricas de desempeño para seleccionar el mejor de ellos, logrando un F1-Score del 77,28% en el modelo basado en K Neighbors Classifier , del 73,69% en el modelo basado en Light Gradient Boosting Machine, del 73,76% en el modelo basado en Gradient Boosting Classifier y del 68,38% en el modelo basado en Random Forest Classifier, además con sensibilidad por encima del 70%, superando las métricas de desempeño de un modelo inicial basado en reglas; se consideran como variables relevantes en el potencial predictivo del modelo basado en algoritmos de aprendizaje automático: el número de semanas de gestación al momento del primer control prenatal; la edad de la madre y del; procedencia de la madre y el número de controles prenatales totales esperados.Congenital syphilis is a serious bacterial infection transmitted in a newborn from a mother who was not treated or was inadequately treated for syphilis during pregnancy; the consequences of this infection in the baby are related to an affectation in the quality of life and diseases such as abdominal masses, low weight, skeletal abnormalities and bone pain, joint inflammation, blindness, deafness, among others, and even death, so it is a problem of interest in public health worldwide; This has led governments and scientists to search for strategies to reduce new cases of syphilis in infants; hence the importance of having predictive models as a tool for early identification of risk factors or variables in pregnant women and thus perform a health action to prevent the transmission of syphilis to the newborn. From this point of gravity and impact that congenital syphilis generates, the present work used machine learning techniques for the elaboration of predictive models that support the identification of variables related to the appearance of new cases of infected newborns and that are useful in health institutions for the timely management of treatment in pregnant women; this from the knowledge of sociodemographic and health variables of the mother and her context. A data set was available that compiles sociodemographic and health information of a cohort of 451 pregnant women with positive diagnosis for syphilis; basic information was available about the newborn in terms of weight and syphilis infection status; it was identified in the data set that 21.5% (n=97) of the births of mothers with syphilis were also born with syphilis (congenital syphilis); 12 prediction models of congenital syphilis were trained using supervised automatic learning techniques. The main result has been to generate four predictive models, K Neighbors Classifier, Light Gradient Boosting Machine, Gradient Boosting Classifier and Random Forest Classifier. The performance metrics of the predictive models were evaluated to select the best of them, achieving an F1-Score of 77.28% in the model based on K Neighbors Classifier, 73.69% in the model based on Light Gradient Boosting Machine, 73.76% in the model based on Gradient Boosting Classifier and 68.38% in the model based on Random Forest Classifier, also with sensitivity above 70%, exceeding the performance metrics of an initial model based on rules; are considered as relevant variables in the predictive potential of the model based on machine learning algorithms: the number of weeks of gestation at the time of the first prenatal checkup; the age of the mother and the; origin of the mother and the number of expected total prenatal checkups

    Similar works