Predicción automática de la dificultad de preguntas abiertas de respuesta corta con propósitos educativos

Abstract

En la construcción de preguntas de evaluación, el evaluador se enfrenta al problema de elegir las preguntas más apropiadas para diferenciar a los estudiantes de acuerdo con su nivel de habilidad o conocimiento en el tema. Esta elección supone, de un lado, decidir sobre el tipo de pregunta que mejor se ajuste al objetivo buscado, y de otro, seleccionar preguntas con distintos niveles de dificultad que permitan diferenciar los niveles de conocimiento. En relación con el tipo de pregunta, se ha visto la necesidad de introducir las preguntas abiertas en las pruebas, en tanto que la pregunta cerrada, si bien se ha utilizado mucho, no permite medir satisfactoriamente dicho nivel por cuanto la capacidad cognitiva involucrada fundamentalmente en la búsqueda de la respuesta es el reconocimiento de uno de los rae como el elemento asociado a la pregunta. Con la pregunta abierta, en cambio, se evalúan capacidades cognitivas diferentes como la evocación. Para la selección de preguntas con distintos niveles de complejidad, el mayor problema al que se enfrenta el evaluador es precisamente conocer el grado de dificultad asociado a cada una de ellas, para lo cual regularmente, se realizan pilotajes para determinar el grado de dificultad de la pregunta de acuerdo con la calidad de la respuesta dada a cada pregunta por los estudiantes que participan. Todo ello, desde luego, implica altos costos económicos y riesgos de confidencialidad. Resulta necesario, entonces, encontrar un método de predicción automático de la dificultad de las preguntas abiertas y determinar su grado de fiabilidad. Este precisamente fue el objetivo de esta tesis. Para la construcción del modelo predictivo de la dificultad de las preguntas, se utilizó la base de datos de preguntas abiertas y respuestas de estudiantes calificadas SciEntsBank. Se extrajeron tanto manual como automáticamente 51 factores de los 196 ítems del corpus (textos de la pregunta, la respuesta de referencia y la demanda cognitiva). A partir de la combinación racional de los factores, se obtuvieron 10.200 características para cada ítem, y posteriormente se seleccionaron los mejores factores mediante el KBest, un método automático de selección de los mejores factores. A partir de ello, se predijo la dificultad de cada ítem mediante el uso de dos modelos de regresión. Luego de explorar automáticamente entre decenas de miles de modelos usando regresión lineal y máquinas de vectores de soporte, se encontró que el mejor modelo para predecir la dificultad, que oscila entre cero y uno, empleó solamente una de las 10.200 características, log(t6)/log(t{3): la división del logaritmo del número de palabras claves que solo están en la respuesta de referencia, entre el logaritmo del total de palabras claves en el ítem (pregunta y respuesta). Este constituye el aporte fundamental de esta tesis. El grado de error de este modelo estuvo alrededor de 0.16. Fue sorprendente el hallazgo de evidencia empírica de que las populares taxonomías de Bloom y Anderson no contribuyeron a modelar la dificultad del ítem de evaluación de pregunta abierta.Abstract. In the construction of evaluation questions, the evaluator faces the problem of choosing the questions most appropriate to differentiate students according to their level of skill or knowledge in the subject. This election means, on one side, decide on the type of question that best fits the objective sought, and another side, select questions with different levels of difficulty to differentiate levels of knowledge. In relation with the type of question, it has seen the need to put open questions in the tests, in so far as the closed question, although it has been used a lot, it does not allow satisfactorily measure the level aforementioned, because the cognitive ability involved fundamentally in the search of the answer is the recognition of one of the distractors as the element associated with the question. With the open question, however, different cognitive abilities like evocation are evaluated. To select questions with different levels of complexity, the biggest problem facing the evaluator is precisely to know the degree of difficulty associated with each, for which trial tests are regularly done to determine the degree of difficulty of the question according to the quality of the answer to each question by students participating. All this, of course, involves high economic costs and risks of confidentiality.\\ It is necessary, then, to find a method of automatic predicting the difficulty of open questions and determine its degree of reliability. This was precisely the objective of this thesis. To build the predictive model of the difficulty of the questions, the database of open questions and graded student responses SciEntsBank was used. It was extracted both manually and automatically 51 factors out of the 196 items of the corpus (texts of the question, the answer, and cognitive demand). From the rational combination of factors, 10.200 features were obtained for each item, and then the best factors were selected by KBest, an automatic method of selection of the best factors. From this, the difficulty of each item was predicted by using two regression models. After automatically scan between tens of thousands of models using linear regression and support vector machine, it was found that the best model to predict the item difficulty, ranging between zero and one, used only one of the 10.200 features, log(t6)/log(t{3): the division of the logarithm of the number of keywords occurring only in the reference answer, by the logarithm of the total number of keywords in the item (question and answer). This is the fundamental contribution of this thesis. The degree of error of this model was around 0.16. It was surprising the finding of empirical evidence that the popular Bloom's and Anderson's taxonomies did not contribute for modeling the difficulty of an open question.Maestrí

    Similar works