Seleksi Fitur Pada Pengelompokan Dokumen Dengan Random Projection - Gram Schmidt Orthogonalization dan Algoritma Harmony Search

Abstract

Proses pengelompokan dokumen sangat tergantung pada keberadaan fitur kata tiap dokumen dan kemiripan antar fitur kata tersebut. Fitur kata pada suatu dokumen terkadang merupakan fitur noise, redundant, maupun fitur kata yang tidak relevan sehingga menyebabkan hasil akhir proses pengelompokan dokumen menjadi bias. Selain itu, pengelompokan dokumen dengan metode klasik kurang bisa menghasilkan kelompok dokumen yang mampu merepresentasikan kemiripan isi pada tiap-tiap kelompok dokumen. Pada penelitian ini diusulkan seleksi fitur pada pengelompokan dokumen dengan Random Projection Gram Schmidt Orthogonalization (RPGSO) dan Algoritma Harmony Search (HS). Dengan metode RPGSO akan didapatkan tingkat kepentingan tiap-tiap fitur kata untuk semua dokumen. Pada algoritma HS, dilakukan proses pengelompokan dokumen berdasarkan urutan fitur-fitur kata dari RPGSO dengan fitness function berupa Average Distance of Documents to the cluster Centroid (ADDC). Untuk mendapatkan kelompok dokumen dengan kriteria evaluasi yang paling baik, proses pengelompokan dokumen dengan algoritma HS ini diiterasi untuk jumlah fitur yang berbeda sesuai urutan yang dihasilkan dari proses RP-GSO. Uji coba dilaksanakan terhadap tiga buah dataset dokumen berita dengan evaluasi menggunakan kriteria F-Measure. Berdasarkan uji coba tersebut, metode usulan mampu menghasilkan kelompok dokumen dengan rata-rata F-Measure lebih tinggi 9.50% dibandingkan dengan menggunakan seluruh fitur. Uji coba juga menunjukkan bahwa kelompok dokumen yang dihasilkan dari metode usulan memiliki rata-rata F-Measure lebih tinggi 8.40% dibandingkan K-Means yang menggunakan Cosine Similarity, dan jika dibandingkan dengan K-Means yang menggunakan Euclidean Distance, metode usulan mampu menghasilkan kelompok dokumen dengan rata-rata F-Measure lebih tinggi sampai 120.05%. ====================================================================================== Document clustering procceses are depends on the quality of its term features and the similarity between those features. Sometimes the features of the document is a noise, redundant, or irrelevant and its cause the result of document clustering is bias. Furthermore, classical clustering method was unable to generate clusters of documents that is represent the similarity of its contents. In this study, we propose feature selection in document clustering using Random Projection Gram Schmidt Orthogonalization (RPGSO) and Harmony Search (HS) algorithm. With using RPGSO methods we will obtain the rank of term features of all documents. Then, we cluster the document based on the rank of features using HS algorithm with fitness function is Average Distance of Documents to the cluster Centroid (ADDC). To produce the clusters of documents which the best evaluation criteria, the clustering algorithm will be iterated for different number of features based on RPGSO rank. The methode has been tested to three datasets of news documents with F-Measure as evaluation criteria,. Based on the testing result, the proposed method generates clusters of documents with average of F-Measure criteria that 9.50% higher than use all features of documents in datasets.The testing result also shown that the proposed method generate clusters of documents with average of F-Measure criteria that 8.40% higher than K-Means method with Cosine Similarity and 120.05% higher than K-Means method with Euclidean Distance

    Similar works