Estudio de representaciones mediante co-embeddings para estudiantes y contenidos en minerı́a de datos educativos

Abstract

Tesis (Doctora en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2019.Este trabajo es un estudio sobre la generación automática de representaciones basadas en métodos neuronales, en aplicaciones dentro del área de Minerı́a de Datos Educacionales (EDM). Se propone utilizar una arquitectura neuronal recurrente para modelar el cambio en el estado de los estudiantes a medida que interactúan con plataformas de aprendizaje en lı́nea. Al mismo tiempo, se generan representaciones automáticas para los elementos de los cursos, como problemas o lecciones, evitando la necesidad de utilizar ejemplos etiquetados con información adicional, y en consecuencia costosos de obtener. Sobre esta base, se modifica la arquitectura para modelar explı́citamente la relación entre la representación de los estudiantes y la de los componentes del curso, proyectando ambos tipos de entidades en el mismo espacio latente. De esta manera, se espera mejorar el desempeño del clasificador a través de la inyección directa de conocimiento de dominio en el modelo. Ambas propuestas son evaluadas para las tareas de estimación de conocimiento (Knowledge Tracing) y predicción del abandono escolar (dropout) en tutores inteligentes y cursos masivos, respectivamente. Se observa que las representaciones conjuntas de estudiantes y lecciones obtienen resultados similares a las representaciones disjuntas, mejorando significativamente en escenarios con pocos datos o con desbalance de clases pronunciado.This work is a study on the automatic generation of representations based on neuronal methods, for applications in the area of Educational Data Mining (EDM). We proposed to use a recurrent neuronal architecture to model the change in the state of students as they interact with online learning platforms. At the same time, automatic representations are generated for course elements, such as problems or lessons, avoiding the need to use examples labeled with additional information, and consequently costly to obtain. On this basis, the architecture is modified to explicitly model the relationship between the students’ representation and that of the course components, projecting both types of entities in the same latent space. In this way, the performance of the classifier is expected to improve through the direct injection of domain knowledge into the model. Both proposals are evaluated for knowledge tracing and dropout prediction in intelligent tutor systems and mass open online courses, respectively. It is observed that the joint representations of students and lessons obtain results similar to the disjoint representations, improving significantly in scenarios with fewer training data, partial sequences, or with pronounced class imbalance.Fil: Teruel, Milagro. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina

    Similar works