2 research outputs found

    Peer assessment model with the sentiment an谩lisis approach

    Get PDF
    La evaluaci贸n de los trabajos de respuesta abierta es una tarea que debe ser realizada por un experto; sin embargo, suponen una importante carga de trabajo de correcci贸n para el docente. En este contexto, la evaluaci贸n entre pares se ha considerado como un enfoque alternativo para abordar el problema. Este tipo de evaluaci贸n no solo proporciona la reducci贸n en la carga de trabajo de correcci贸n, sino que tambi茅n aporta beneficios adicionales, como la posibilidad de que el estudiante verifique diferentes soluciones para un mismo problema y la provisi贸n de retroalimentaciones 煤tiles. Los cambios en los paradigmas educativos han promovido la integraci贸n de m茅todos de evaluaci贸n que pretenden ir m谩s all谩 de la evaluaci贸n de conocimientos (sumativa), que est茅n m谩s integrados en el proceso de formaci贸n y aprendizaje (formativa). La evaluaci贸n formativa contribuye significativamente en la calidad de aprendizaje que los estudiantes obtienen al dar y recibir retroalimentaci贸n, y en el acceso inmediato que los docentes pueden tener sobre el progreso de la clase. Las instituciones educativas actualmente buscan obtener el conocimiento inmerso de estos textos no estructurado. Por lo tanto, el objetivo general de esta tesis ha sido dise帽ar un modelo de evaluaci贸n entre pares, que coadyuve a los docentes a mejorar sus procesos de ense帽anza-aprendizaje mediante m茅todos de an谩lisis de sentimiento. Se aplic贸 la metodolog铆a de dise帽o investigaci贸n-acci贸n, en primer lugar, se realiz贸 el estado del arte sobre evaluaci贸n entre pares, miner铆a de texto y t茅cnicas de computaci贸n blanda. Subsecuentemente, se dise帽贸 un modelo que combina la evaluaci贸n entre pares con el aprendizaje colaborativo y el m茅todo calibrado en varias fases: a) se form贸 grupos de estudiantes que participan en realizar el trabajo de manera colaborativa, con la finalidad de tener grupos similares, pero tener diferencias individuales en el proceso de evaluaci贸n entre pares para beneficiarse de la colaboraci贸n entre estudiantes; b) se dise帽贸 una r煤brica para la recolecci贸n de datos, donde los evaluadores evaluaron aspectos espec铆ficos del trabajo, proporcionando por cada criterio una puntuaci贸n num茅rica y retroalimentaci贸n textual; c) los evaluados evaluaron la calidad de evaluaci贸n de la tarea (evaluaci贸n inversa) para obtener el rating de confianza del evaluador; d) los grupos corrigieron el trabajo bas谩ndose en las retroalimentaciones dadas por los evaluadores en la primera ronda (evaluaci贸n en dos rondas); e) la puntuaci贸n de evaluaci贸n de tarea se calibr贸 en funci贸n del rendimiento e 铆ndice (rating) de confianza del evaluador. Durante el desarrollo del modelo se obtuvo dos conjuntos de datos en espa帽ol, uno de evaluaci贸n de tarea y otro de evaluaci贸n de calidad de la evaluaci贸n. Se aplic贸 el enfoque de aprendizaje autom谩tico supervisado para obtener una puntuaci贸n de sentimiento correspondiente a una retroalimentaci贸n textual espec铆fica. Se analiz贸 distintas t茅cnicas de miner铆a de texto y procesamiento de lenguaje natural sobre la tarea de clasificaci贸n de sentimiento como Bag of Words, combinaciones de (N-Grams + Term Frequency-Inverse Document Frequency + Stop- Words), y Word2Vec/Glove pre-entrenados para formar los distintos vocabularios. Se evalu贸 algoritmos de aprendizaje autom谩tico cl谩sico (Na茂ve Bayes, Multinomial Naive Bayes, Support Vector Machine, Logistic Regression, Random Forest, Decision Trees), de aprendizaje autom谩tico moderno (Vote Ensemble), y de aprendizaje profundo (Long Short-Term Memory (LSTM), Bidirectional Long Short-Term Memory (Bi-LSTM)). Se obtuvo dos modelos predictivos con mejor rendimiento. Un modelo con Bi-LSTM utilizando representaci贸n de Glove, para predecir la puntuaci贸n de sentimiento de la retroalimentaci贸n textual de evaluaci贸n de tarea; y un modelo con LSTM utilizando representaci贸n de Glove, para predecir la puntuaci贸n de sentimiento de la retroalimentaci贸n textual de evaluaci贸n de calidad de la evaluaci贸n. Seguidamente, se obtuvo un modelo de c谩lculo que contribuy贸 a mejorar la confiabilidad del proceso de evaluaci贸n entre pares. La puntuaci贸n de cada criterio de evaluaci贸n de tarea y evaluaci贸n de calidad de evaluaci贸n se gener贸 con la t茅cnica computacional de l贸gica difusa correlacionando puntuaci贸n num茅rica y sentimiento, determinando que los m茅todos de defuzzificaci贸n (m谩ximo m谩s chico, media de m谩ximo y m谩ximo m谩s grande) fueron los m谩s apropiados para este estudio. La puntuaci贸n individual de cada evaluador se obtuvo con c谩lculos de media de todos los criterios. La puntuaci贸n del colectivo de evaluaci贸n de tarea y rating de confianza del evaluador se obtuvo con c谩lculos de media/mediana del conjunto de puntuaciones individuales, determinando que la mediana tiene el mejor ajuste para generar una puntuaci贸n del colectivo confiable. Se prob贸 la validez del modelo propuesto en 3 escenarios de educaci贸n superior: virtual asincr贸nico, virtual sincr贸nico y presencial. Se correlacion贸 mediante Pearson la puntaci贸n que recibe el estudiante del colectivo con la puntuaci贸n que proporciona el docente, obteniendo similaridad fuerte en el 8% de las actividades en virtual asincr贸nico (r=0.718-0.790), en el 25% de las actividades en virtual sincr贸nico (r=0.741 a 0.971) y en el 40% de las actividades en presencial (r=0.780 a 0.951), determinando que el modelo se puede aplicar en todos los escenarios de educaci贸n evaluados, y con mayor efectividad en el presencial. Finalmente, se obtuvo un modelo de calibraci贸n que contribuy贸 a mejorar la fiabilidad en el proceso de evaluaci贸n entre pares, ya que, mediante el ajuste de la puntuaci贸n individual de cada tarea en funci贸n del rendimiento y 铆ndice (rating) de confianza del evaluador, se logr贸 que la relaci贸n entre la puntaci贸n del colectivo y puntuaci贸n que proporciona el docente tendiera a subir el 46% de las actividades en escenario virtual asincr贸nico, 69% en virtual sincr贸nico y 60% en presencial. Adem谩s, se evalu贸 si existe mejora del rendimiento estudiantil en la segunda ronda aplicando el modelo en el proceso de evaluaci贸n entre pares, mediante la prueba t de Student, se determin贸 que el 100% de las actividades evaluadas obtuvieron la puntuaci贸n media en la segunda ronda mayor que la primera ronda con un valor de significancia menor a 0.05, el incremento en la segunda ronda del rendimiento del estudiante en virtual asincr贸nico fue de 3%- 12%, en virtual sincr贸nico de 7%-22%, y en presencial de 15%-34%. En tal sentido, el modelo de evaluaci贸n entre pares basado en an谩lisis de sentimiento podr铆a implementarse como una herramienta pedag贸gica para apoyar al docente en enriquecer el proceso de ense帽anza aprendizaje, ya que los estudiantes dieron y recibieron retroalimentaciones detalladas sobre lo correcto o incorrecto de un trabajo espec铆fico, y pudieron refutar sobre las retroalimentaciones dadas; lo que a su vez indujo que mejoraran el trabajo y el rendimiento en la segunda rondaThe assessment of open response work is a task that must be carried out by an expert; however, they represent a significant correction workload for the teacher. In this context, peer assessment has been considered as an alternative approach to address the problem. This type of assessment not only reduces the correction workload but also brings additional benefits, such as the possibility for the student to verify different solutions for the same problem and the provision of useful feedback. Changes in educational paradigms have promoted the integration of assessment methods that aim to go beyond (summative) knowledge assessment, which is more integrated into the training and learning process (formative). Formative assessment contributes significantly to the quality of learning students gain from giving and receiving feedback, and the immediate Access teachers can have to class progress. Educational institutions currently seek to gain immersed knowledge from these unstructured texts. Therefore, the general objective of this thesis has been to design a peer assessment model that helped teachers improve their teaching-learning processes through sentiment analysis methods. The research-action design methodology was applied, firstly, the state of the art on peer assessment, text mining, and computational techniques was carried out. Subsequently, a model was designed that combines peer assessment with collaborative learning and the calibrated method in several phases: a) groups of students were formed to participate in carrying out the work collaboratively, to have similar groups, but have individual differences in the peer assessment process to benefit from collaboration among students; b) a rubric was designed for data collection, where the evaluators evaluated specific aspects of the work, providing a numerical score and textual feedback for each criterion; c) the evaluators evaluated the quality of the task assessment (inverse assessment) to obtain the evaluator's confidence rating; d) the groups corrected the work based on the feedback given by the evaluators in the first round (evaluation in two rounds); e) the task assessment score was calibrated based on the performance and confidence rating of the evaluator. During the development of the model, two sets of data were obtained in Spanish, one for task assessment and the other for assessment of the quality of the assessment. The supervised machine learning approach was applied to obtain a sentiment score corresponding to specific textual feedback. Different text mining and natural language processing techniques were analyzed on the sentiment classification task, such as Bag of Words, combinations of (N-Grams+Term Frequency-Inverse Document Frequency+Stop-Words), and Word2Vec/Glove pre-trained to form the different vocabularies. Algorithms were evaluated of classic machine learning (Na茂ve Bayes, Multinomial Na茂ve Bayes, Support Vector Machine, Logistic Regression, Random Forest, Decision Trees), modern machine learning (Vote Ensemble), and deep learning (Long Short-Term Memory (LSTM), Bidirectional Long Short-Term Memory (Bi-LSTM)). Two predictive models with better performance were obtained. A model with Bi-LSTM using Glove's representation, to predict the sentiment score of task assessment textual feedback; and a model with LSTM using Glove's representation, to predict the sentiment score of the assessment quality assessment textual feedback. Thereafter, a calculation model was obtained that contributed to improving the reliability of the peer assessment process. The score for each task assessment criterion and quality assessment was generated with the fuzzy logic computational technique correlating numerical score and sentiment, determining that the (Smallest of Maximum, Middle of Maximum, and Largest of Maximum) defuzzification methods were the most appropriate for this study. The individual score of each evaluator was obtained with mean calculations of all the criteria. The task assessment collective score and the evaluator confidence rating were obtained with mean/median calculations of the set of individual scores, determining that the median has the best fit to generate a reliable collective score. The validity of the proposed model was tested in 3 higher education scenarios: virtual asynchronous, virtual synchronous, and face-to-face. Using Pearson, the score received by the student from the group was correlated with the score provided by the teacher, obtaining strong similarity in 8% of the activities in virtual asynchronous (r=0.718-0.790), 25% of the activities in virtual synchronous (r=0.741 to 0.971) and 40% of the activities in face-to-face (r=0.780 to 0.951), determining that the model can be applied in all the education scenarios evaluated, and with greater effectiveness in face-to-face. Finally, a calibration model was obtained that contributed to improving the reliability of the peer assessment process, since, by adjusting the individual score of each task based on the performance and confidence rating of the evaluator, it was achieved that the relationship between the score of the group and the score provided by the teacher would tend to increase in 46% of the activities in asynchronous virtual settings, 69% in synchronous virtual settings and 60% in faceto- face settings. In addition, it was evaluated if there is an improvement in student performance in the second round by applying the model in the peer assessment process, using the student's t-test, it was determined that 100% of the activities evaluated obtained the average score in the second round greater than the first round with a significance value of less than 0.05, the increase in the second round of student performance in asynchronous virtual was 3%-12%, in synchronous virtual 7%-22%, and in face-to-face 15 %-3. 4%. In this sense, the peer assessment model based on sentiment analysis could be implemented as a pedagogical tool to support the teacher in enriching the teaching-learning process, since the students gave and received detailed feedback on the correct or incorrect of a specific work, and they were able to refute the feedback given; which in turn induced improved work and performance in the second round
    corecore