research

Studi Perbandingan Algoritma - Algoritma Stemming Untuk Dokumen Teks Bahasa Indonesia

Abstract

Stemming merupakan proses untuk memetakan berbagai variasi morfologikal dari kata menjadi bentuk dasar yang sama. Untuk stemming dalam bahasa Indonesia, terdapat dua jenis metode stemming yang sudah ada, yaitu algoritma stemming yang berbasis kamus (dictionary based) dan algoritma stemming yang berbasis non-kamus (purely rule based). Algoritma stemming yang tidak menggunakan kamus memiliki kesalahan yang relatif tinggi, tapi disuatu sisi algoritma tersebut memiliki kelebihan pada waktu proses yang lebih singkat dibandingkan algoritma stemming yang menggunakan kamus. Pada penelitian ini digunakan dua algoritma stemming berbasis kamus dan dua algoritma stemming menggunakan aturan imbuhan. Algoritma berbasis kamus yang digunakan adalah algoritma Nazief dan Adriani dan algoritma Arifin dan Setiono. Untuk algoritma stemming berbasis aturan imbuhan yang digunakan adalah algoritma Vega dan algoritma Tala. Pengujian dilakukan menggunakan 100 dokumen teks Bahasa Indonesia yang sudah ditentukan sebelumnya. Hasil pengujian yang dilakukan menunjukkan bahwa waktu proses stemming yang paling cepat terdapat pada algoritma Vega, akurasi yang paling tinggi terdapat pada algoritma Nazief dan Adriani, overstemming yang paling sedikit terdapat pada algoritma Nazief dan Adriani karena nilainya lebih rendah, understemming yang paling sedikit terdapat pada algoritma Nazief dan Adriani karena nilainya lebih rendah. Dari pengujian yang dilakukan menunjukkan bahwa algoritma yang paling baik terdapat pada algoritma Nazief dan Adriani

    Similar works

    Full text

    thumbnail-image

    Available Versions

    Last time updated on 09/07/2019