31 research outputs found
Método Tres-Pasos para integrar fuertemente tareas de minería de datos en un sistema de base de datos relacional
In this paper, a result of the research project that aimed to define new algebraic operators and new SQL primitives for
knowledge discovery in a tightly coupled architecture with a Relational Database Management System (RDBMS)
is presented. In order to facilitate the tight coupling and to support the data mining tasks into the RDBMS engine,
the three-step approach is proposed. In the first step, the relational algebra is extended with new algebraic operators
to facilitate more expensive computationally processes of data mining tasks. In the next step and with the aim that
the SQL language is relationally complete, these operators are defined as new primitives in the SELECT clause. In
the last step, these primitives are unified into new SQL operator that runs a specific data mining task. Applying this
method, new algebraic operators, new SQL primitives and new SQL operators for association and classification
tasks were defined and were implemented into the PostgreSQL DBMS engine, giving it the capacity to discover
association and classification rules efficiently.En este artículo se presenta uno de los resultados del proyecto de investigación cuyo objetivo fue definir nuevosoperadores algebraicos y nuevas primitivas SQL para el Descubrimiento de Conocimiento en una arquitecturafuertemente acoplada con un Sistema Gestor de Bases de Datos Relacional (SGBDR). Se propone el método trespasoscon el fin de facilitar el acoplamiento fuerte y soportar tareas de minería de datos al interior del motor de unSGBDR. En el primer paso, se extiende el álgebra relacional con nuevos operadores algebraicos que faciliten losprocesos computacionales más costosos de las tareas de minería de datos. En el siguiente paso y con el fin de queel lenguaje SQL sea relacionalmente completo, estos operadores son definidos como nuevas primitivas SQL en lacláusula SELECT. En el último paso, estas primitivas son unificadas en un nuevo operador SQL que ejecuta unatarea específica de minería de datos. Aplicando este método, se definieron nuevos operadores algebraicos, nuevasprimitivas y operadores SQL para las tareas de Asociación y Clasificación y fueron implementados al interiordel motor del SGBD PostgreSQL, dotándolo de la capacidad para descubrir reglas de asociación y clasificacióneficientemente
Una lectura sobre deserción universitaria en estudiantes de pregrado desde la perspectiva de la minería de datos
En este artículo se describe el proceso de descubrimiento de conocimiento que se llevó a cabo en la Universidad de Nariño para determinar en la comunidad universitaria perfiles de bajo rendimiento académico y deserción estudiantil, para lo cual se utilizó la base de datos histórica de los estudiantes de pregrado. Este proceso se apoyó con TariyKDD, una herramienta de minería de datos de distribución libre, desarrollada en los laboratorios KDD del grupo de investigación Grias, del Departamento de Sistemas de la Facultad de Ingeniería de la Universidad de Nariño
Applying Predictive Data Mining to Discover Factors Associated to the Language Skill Performance from Elementary School Students
In this paper, predictive data mining techniques are applied to determine the academic performance from fifth grade students in the Saber 5° tests Language skill at Colombian elementary schools in 2017. We employed the CRISP-DM methodology. Socioeconomic, academic, and institutional information was available at the ICFES databases. A minable dataset was obtained using data cleaning and transformation techniques. A decision tree was built with the Weka tool J48 algorithm. Some of the predictors of the discovered patterns are the nature and location of the school, whether or not students failed a school year, the age group, the mother's educational attainment, and the rates of ICTs and household appliances. The findings of this research serve as quality information for the decision-making at the Ministry of National Education (MEN) and the secretaries of education, and for the directors of elementary educational institutions to define improvement plans that result in the quality of elementary school education in Colombia
DESCUBRIMIENTO DE PERFILES DE DESERCIÓN ESTUDIANTIL CON TÉCNICAS DE MINERÍA DE DATOS
En este artículo se presentan los resultados de un proyecto de investigación, cuyo objetivo fue detectar patrones de deserción estudiantil utilizando técnicas de minería de datos, y tomando como referente datos socioeconómicos, académicos, disciplinares e institucionales de los estudiantes de los programas de pregrado de la Universidad de Nariño y la Institución Universitaria IUCESMAG de la ciudad de Pasto (Colombia). Se construyó así, un repositorio de datos con la información de los estudiantes que ingresaron a la Universidad de Nariño entre el primer semestre de 2004 y el segundo semestre de 2006, con una ventana de observación hasta el 2011. Utilizando técnicas de clasificación y clustering, se descubrieron perfiles socioeconómicos y académicos de los estudiantes que desertan. El conocimiento generado permitirá soportar la toma de decisiones eficaces por parte de las directivas universitarias, enfocadas a formular políticas y estrategias relacionadas con los programas de retención estudiantil
Árboles de decisión para predecir factores asociados al desempeño académico de estudiantes de bachillerato en las pruebas Saber 11°
En este artículo se presentan los resultados obtenidos al aplicar el modelo de clasificación basado en árboles de decisión, con el fin de detectar factores asociados al desempeño académico de los estudiantes colombianos de grado undécimo de educación media, que presentaron las pruebas Saber 11° en los años 2015 y 2016. La investigación fue de tipo descriptivo bajo el enfoque cuantitativo, aplicando un diseño no experimental. Siguiendo la metodología CRISP-DM, se seleccionó, de las bases de datos del ICFES, la información socioeconómica, académica e institucional de estos estudiantes. Se construyó, limpió y transformó un repositorio de datos y utilizando la herramienta de minería de datos WEKA, se generaron árboles de decisión que permitieron identificar patrones asociados al buen o mal desempeño académico de los estudiantes en las pruebas Saber 11°. Los patrones descubiertos ayudarán en los procesos de toma de decisiones del Ministerio de Educación Nacional, junto con las instituciones que velan por la calidad de la educación en Colombia
Decision Tree Algorithm Moderately Coupled to PostgreSQL DBMS
Using machine learning for data management is an extraordinary opportunity to move towards a leadership model based on information, which drives the organization towards success in each initiative. However, when incorporating these technologies, a company presents problems associated with the economic and administrative costs generated in this process since these are usually quite high, limiting their implementation in MSMEs. This paper proposes to integrate supervised machine learning techniques into PostgreSQL DBMS in a moderately coupled architecture to provide it with the capabilities of discovering knowledge in databases. Classification and regression algorithms were coupled by developing extensions using one of the procedural languages supported by PostgreSQL. Initially, the C4.5 decision tree classification algorithm was implemented using the PL/pgSQL procedural language. The main advantage of this strategy is that it considers the scalability, administration, and data manipulation of the DBMS. Since PostgreSQL is an open-source manager, organizations such as MSMEs will have a free tool that allows them to perform predictive analysis in order to improve their decision-making processes by anticipating future consumer behavior and making rational decisions based on their findings
Detección de patrones de desempeño académico en la competencia de matemáticas en las pruebas Saber 5o
The Saber 5° tests seek to contribute to improving the quality of education in Colombia. Their application is periodic, they evaluate students’ basic skills, and they analyze the factors that affect their achievements. This paper presents one of the results of a research work whose objective was to apply data mining techniques to detect patterns of academic performance regarding the mathematics component of the Saber 5 tests in the year 2017. This test was taken by the fifth-grade students of Colombian Primary Education institutions. To meet this objective, the CRISP-DM methodology was used. Socioeconomic, academic, and institutional information was obtained from the ICFES databases. This information was preprocessed using data cleaning and transformation techniques. The decision tree classification model was selected, as it allows easily interpreting patterns. Among the most important factors in the patterns associated with good or poor academic performance in mathematics are the nature and location of the school and whether or not the student had failed a grade. The knowledge generated in this research constitutes quality information for decision-making by the Ministry of National Education, education secretariats, and the executives of Primary Education institutions with regard to the definition of improvement plans that result in the quality of Primary Education in Colombia.Las pruebas Saber 5° buscan contribuir al mejoramiento de la calidad de la educación en Colombia. Su aplicación es periódica, evalúa las competencias básicas de los estudiantes y analiza los factores que inciden en sus logros. En este artículo se presenta uno de los resultados de una investigación cuyo objetivo fue aplicar técnicas de minería de datos para detectar patrones de desempeño académico en la competencia de matemáticas de las pruebas Saber 5º del año 2017. Esta prueba fue presentada por los estudiantes de grado quinto de las instituciones educativas colombianas de Básica Primaria. Para cumplir con este objetivo, se utilizó la metodología CRISP-DM. Se obtuvo información socioeconómica, académica e institucional de las bases de datos del ICFES. Esta información fue preprocesada utilizando técnicas de limpieza y transformación de datos. Se seleccionó el modelo de clasificación por árboles de decisión por su facilidad para interpretar patrones. Entre los factores más importantes de los patrones asociados al buen o mal desempeño académico en matemáticas están la naturaleza y la zona de ubicación del colegio y si el estudiante reprobó o no grado. El conocimiento generado en esta investigación constituye información de calidad para la toma de decisiones del Ministerio de Educación Nacional, las secretarias de educación y las directivas de las instituciones educativas de Básica Primaria en la definición de planes de mejoramiento que redunden en la calidad de la educación en Colombia
Identificación de Patrones de Rendimiento Académico en las Pruebas Saber Pro entre 2012-2014, en las Competencias Lectura Crítica y Comunicación Escrita con Técnicas Predictivas de Minería de Datos
The Law 30 of 1992 December 28th(Fundamentals of Higher Education),
mentions inArticle 31 the need to: “Strive for the creation ofmechanisms to evaluate the quality of the academicprograms of higher education institutions”. Thequality exams of Higher Education (ECAES) are aglobal trend of which Colombia is no stranger; onthe contrary, the Ministry of National Educationseeks to guarantee through these practices qualityat the educational level. In this paper, they wereidentified patterns of academic performancein the generic competences of Critical Readingand Written Communication from the databasesof the Saber Pro tests that Colombian studentspresented in the period from 2012 to 2014 usingmining techniques. data. In order to fulfill thisobjective, and following the phases of the CRISPDMmethodology, an analysis of the Saber Protests and of the databases was made in orderto have a knowledge of the business and theinformation of the tests, then a repository was builtinitial, which served as the basis for the applicationof an ETL process to build a final repository (cleanand transformed) that contains the socioeconomic,academic and institutional factors of the studentswho submitted these tests. Data mining techniqueswere applied to this repository to discover patternsof academic performance in these tests. Finally, theresults obtained were evaluated and interpreted.The knowledge obtained serves as a basis formaking recommendations that help governmentalentities and institutions of higher education tomake decisions in order to improve the quality ofhigher education in Colombia.La Ley 30 del 28 de diciembre de 1992 (Fundamentos de la Educación Superior),
menciona en el artículo 31 la necesidad de: “Propender por la creación de mecanismos de evaluación de la calidad de los programas académicos de las instituciones de Educación Superior”. Los exámenes de calidad de la educación superior (ECAES) son una tendencia mundial, de la cual Colombia no es ajena; por el contrario, el Ministerio de Educación Nacional busca garantizar por medio de estas prácticas la calidad en el nivel educativo. En este artículo se identificaron patrones de rendimiento académico en las competencias genéricas deLectura Crítica y Comunicación Escrita a partir de las bases de datos de las pruebas Saber Pro que presentaron los estudiantes colombianos entre los años 2012 al 2014 utilizando técnicas de minería de datos. Para cumplir este objetivo, y siguiendo las fases de la metodología CRISP-DM, se hizo un análisis de las pruebas Saber Pro y de las bases de datos para tener un conocimiento del negocio y de la información de las pruebas, luego se construyó un repositorio inicial el cual, sirvió sirve de base para la aplicación de un proceso de ETL para construir un repositorio final (limpio y transformado) que contiene los factores socioeconómicos, académicos e institucionales de los estudiantes que presentaron estas pruebas. A este repositorio se le aplicaron técnicas de mineríade datos para descubrir patrones de rendimiento académico en estas pruebas. Finalmente, se evaluaron e interpretaron los resultados obtenidos. El conocimiento obtenido sirve como base para realizar recomendaciones que ayuden a los entes gubernamentales e instituciones de educación superior a la toma de decisiones con el fin de mejorar la calidad de la educación superior en Colombia
Método Tres-Pasos para integrar fuertemente tareas de minería de datos en un sistema de base de datos relacional
In this paper, a result of the research project that aimed to define new algebraic operators and new SQL primitives for knowledge discovery in a tightly coupled architecture with a Relational Database Management System (RDBMS) is presented. In order to facilitate the tight coupling and to support the data mining tasks into the RDBMS engine, the three-step approach is proposed. In the first step, the relational algebra is extended with new algebraic operators to facilitate more expensive computationally processes of data mining tasks. In the next step and with the aim that the SQL language is relationally complete, these operators are defined as new primitives in the SELECT clause. In the last step, these primitives are unified into new SQL operator that runs a specific data mining task. Applying this method, new algebraic operators, new SQL primitives and new SQL operators for association and classification tasks were defined and were implemented into the PostgreSQL DBMS engine, giving it the capacity to discover association and classification rules efficiently.En este artículo se presenta uno de los resultados del proyecto de investigación cuyo objetivo fue definir nuevosoperadores algebraicos y nuevas primitivas SQL para el Descubrimiento de Conocimiento en una arquitecturafuertemente acoplada con un Sistema Gestor de Bases de Datos Relacional (SGBDR). Se propone el método trespasoscon el fin de facilitar el acoplamiento fuerte y soportar tareas de minería de datos al interior del motor de unSGBDR. En el primer paso, se extiende el álgebra relacional con nuevos operadores algebraicos que faciliten losprocesos computacionales más costosos de las tareas de minería de datos. En el siguiente paso y con el fin de queel lenguaje SQL sea relacionalmente completo, estos operadores son definidos como nuevas primitivas SQL en lacláusula SELECT. En el último paso, estas primitivas son unificadas en un nuevo operador SQL que ejecuta unatarea específica de minería de datos. Aplicando este método, se definieron nuevos operadores algebraicos, nuevasprimitivas y operadores SQL para las tareas de Asociación y Clasificación y fueron implementados al interiordel motor del SGBD PostgreSQL, dotándolo de la capacidad para descubrir reglas de asociación y clasificacióneficientemente
Arquitecturas de integración del proceso de descubrimiento de conocimiento con sistemas de gestión de bases de datos: un estado del arte
Las investigaciones en descubrimiento de conocimiento en bases de datos (DCBD), se centraron inicialmente en definir modelos de descubrimiento de patrones y desarrollar algoritmos para éstos. Investigaciones posteriores se han focalizado en el problema de integrar DCBD con sistemas de bases de datos, produciendo como resultado el desarrollo de sistemas y herramientas de descubrimiento de conocimiento cuyas arquitecturas se pueden clasificar en tres categorías: débilmente, medianamente y fuertemente acopladas con un sistema de gestión de bases de datos (SGBD). En este artículo se presenta una revisión del estado del arte de las arquitecturas de integración del proceso de descubrimiento de conocimiento con SGBD que forma parte de la propuesta de investigación doctoral denominada "nuevas primitivas SQL para el descubrimiento de conocimiento en arquitecturas fuertemente acopladas con un SGBD" que actualmente está desarrollando el autor de este artículo en el Doctorado en Ingeniería, área de énfasis Ciencias de la Computación de la Universidad del Valle