research

Peningkatan Kinerja Clustering Dokumen Teks Menggunakan Pembobotan Sampel

Abstract

Algoritma clustering berbasis pembobotan sampel (sample weighting) saat ini banyak diteliti. Ada beberapa model pembobotan yang pada prinsipnya bertujuan untuk merubah nilai vektor sampel dan formula similaritas vektor sampel dengan pusat clusternya. Dalam dokumen teks pembobotan dapat berupa konektifitas antar dokumen, misalnya dalam dokumen akademik yang ada koneksi referensi. Namun dalam dokumen berita koneksi referensi mungkin jarang ditemukan. Dalam makalah ini teknik pembobotan baru diajukan, yaitu menggunakan kata-kata yang muncul dalam kata kunci (keyword) dan judul (title ) dari suatu dokumen teks. Eksperimen dilakukan terhadap abstrak dokumen akademik sebanyak 500 dokumen dan dokumen berita. Sebanyak 3000 dokumen Algoritma yang diuji kinerjanya adalah algoritma K-Means clustering dan algoritma Fuzzy C-Means clustering. Parameter kinerja algoritma digunakan nilai F-measure dari hasil clustering sebelum dilakukan pembobotan sampel dan setelah dilakukan pembobotan sampel. Hasil eksperimen menunjukkan bahwa pembobotan sampel dapat meningkatkan kinerja clustering sebesar 12,8% untuk pembobotan dengan keyword dan title dan meningkatkan kinerja clustering 9.8% untuk pembobotan dengan title saja

    Similar works

    Full text

    thumbnail-image

    Available Versions

    Last time updated on 16/11/2017