research

Stopword Dinamis Dengan Pendekatan Statistik

Abstract

Stopword merupakan sebagian kecil kata yang sering muncil pada setiap dokumen korpus. Kata-kata tersebut tidak memberikan makna berarti pada dokumen, sehingga kemunculan kata-kata tersebut dalam indek membuat hasil temu kembali menjadi tidak akurat. Daftar stopword atau biasa disebut dengan stoplist menjadi bagian terpenting dalam proses filtering menghilangkan stopword dari indek temu kembali informasi. Stoplist bisa di dapatkan dari kamus bahasa atau dari beberapa referensi penelitian temu kembali yang menghasilkan daftar stopword [1]. Stopword sangat tergantung dengan bahasa yang digunakan di korpus, sehingga bahasa yang disediakan oleh stoplist harus sama dengan bahasa yang digunakan di korpus. Korpus yang terdiri dari bermacam-macam bahasa tidak bisa mengandalkan stoplist statis seperti pada penelitian tala, Terlebih apabila korpus tersebut berkembang menjadi lebih dari satu bahasa dan atau domain [2]. Demikian pula pada korpus-korpus pada domain yang lebih spesifik beberapa kata yang bukan stopword pada korpus kebanyakan bisa jadi menjadi stopword pada suatu domain korpus. Sebagai contoh kata "resep" akan menjadi stopword pada korpus dengan domain resep masakan

    Similar works