1 research outputs found

    Parameter-free agglomerative hierarchical clustering to model learners' activity in online discussion forums

    Get PDF
    L'an脿lisi de l'activitat dels estudiants en els f貌rums de discussi贸 online implica un problema de modelitzaci贸 altament depenent del context, el qual pot ser plantejat des d'aproximacions tant te貌riques com emp铆riques. Quan aquest problema 茅s abordat des de l'脿mbit de la mineria de dades, l'enfocament m茅s comunament adoptat 茅s el de la classificaci贸 no supervisada (o clustering), donant lloc, d'aquesta manera, a un escenari de clustering en el qual el nombre real de cl煤sters 茅s a priori desconegut. Per tant, aquesta aproximaci贸 revela una q眉esti贸 subjacent, la qual no 茅s sin贸 un dels problemes m茅s coneguts del paradigma del clustering: l'estimaci贸 del nombre de cl煤sters, habitualment seleccionat per l'usuari concorde a algun tipus de criteri subjectiu que pot comportar f脿cilment l'aparici贸 de biaixos indesitjats en els models obtinguts. Amb l'objectiu d'evitar qualsevol intervenci贸 de l'usuari en l'etapa de clustering, dos nous criteris d'uni贸 entre cl煤sters s贸n proposats en la present tesi, els quals, al seu torn, permeten la implementaci贸 d'un nou algorisme de clustering jer脿rquic aglomeratiu lliure de par脿metres. Un complet conjunt d'experiments indica que el nou algorisme de clustering 茅s capa莽 de proporcionar solucions de clustering 貌ptimes enfront d'una gran varietat d'escenaris de clustering, sent capa莽 de bregar amb diferents classes de dades, aix铆 com de millorar el rendiment ofert pels algorismes de clustering m茅s 脿mpliament emprats en la pr脿ctica. Finalment, una estrat猫gia d'an脿lisi de dues etapes basada en el paradigma del clustering subespaial 茅s proposada a fi d'abordar adequadament el problema de la modelitzaci贸 de la participaci贸 dels estudiants en les discussions as铆ncrones. Combinada amb el nou algorisme clustering, l'estrat猫gia proposada demostra ser capa莽 de limitar la intervenci贸 subjectiva de l'usuari a les etapes d'interpretaci贸 del proc茅s d'an脿lisi i de donar lloc a una completa modelitzaci贸 de l'activitat duta a terme pels estudiants en els f貌rums de discussi贸 online.El an谩lisis de la actividad de los estudiantes en los foros de discusi贸n online acarrea un problema de modelizaci贸n altamente dependiente del contexto, el cual puede ser planteado desde aproximaciones tanto te贸ricas como emp铆ricas. Cuando este problema es abordado desde el 谩mbito de la miner铆a de datos, el enfoque m谩s com煤nmente adoptado es el de la clasificaci贸n no supervisada (o clustering), dando lugar, de este modo, a un escenario de clustering en el que el n煤mero real de clusters es a priori desconocido. Por tanto, esta aproximaci贸n revela una cuesti贸n subyacente, la cual no es sino uno de los problemas m谩s conocidos del paradigma del clustering: la estimaci贸n del n煤mero de clusters, habitualmente seleccionado por el usuario acorde a alg煤n tipo de criterio subjetivo que puede conllevar f谩cilmente la aparici贸n de sesgos indeseados en los modelos obtenidos. Con el objetivo de evitar cualquier intervenci贸n del usuario en la etapa de clustering, dos nuevos criterios de uni贸n entre clusters son propuestos en la presente tesis, los cuales, a su vez, permiten la implementaci贸n de un nuevo algoritmo de clustering jer谩rquico aglomerativo libre de par谩metros. Un completo conjunto de experimentos indica que el nuevo algoritmo de clustering es capaz de proporcionar soluciones de clustering 贸ptimas frente a una gran variedad de escenarios de clustering, siendo capaz de lidiar con diferentes clases de datos, as铆 como de mejorar el rendimiento ofrecido por los algoritmos de clustering m谩s ampliamente utilizados en la pr谩ctica. Finalmente, una estrategia de an谩lisis de dos etapas basada en el paradigma del clustering subespacial es propuesta a fin de abordar adecuadamente el problema de la modelizaci贸n de la participaci贸n de los estudiantes en las discusiones as铆ncronas. Combinada con el nuevo algoritmo clustering, la estrategia propuesta demuestra ser capaz de limitar la intervenci贸n subjetiva del usuario a las etapas de interpretaci贸n del proceso de an谩lisis y de dar lugar a una completa modelizaci贸n de la actividad llevada a cabo por los estudiantes en los foros de discusi贸n online.The analysis of learners' activity in online discussion forums leads to a highly context-dependent modelling problem, which can be posed from both theoretical and empirical approaches. When this problem is tackled from the data mining field, a clustering-based perspective is usually adopted, thus giving rise to a clustering scenario where the real number of clusters is a priori unknown. Hence, this approach reveals an underlying problem, which is one of the best-known issues of the clustering paradigm: the estimation of the number of clusters, habitually selected by user according to some kind of subjective criterion that may easily lead to the appearance of undesired biases in the obtained models. With the aim of avoiding any user intervention in the cluster analysis stage, two new cluster merging criteria are proposed in the present thesis, which allow to implement a novel parameter-free agglomerative hierarchical algorithm. A complete set of experiments indicate that the new clustering algorithm is able to provide optimal clustering solutions in the face of a great variety of clustering scenarios, both having the ability to deal with different kinds of data and outperforming clustering algorithms most widely used in practice. Finally, a two-stage analysis strategy based on the subspace clustering paradigm is proposed to properly tackle the issue of modelling learners' participation in the asynchronous discussions. In combination with the new clustering algorithm, the proposed strategy proves to be able to limit user's subjective intervention to the interpretation stages of the analysis process and to lead to a complete modelling of the activity performed by learners in online discussion forums
    corecore