4 research outputs found
Ekstraksi Trending Issue Dengan Pendekatan Distribusi Kata Pada Pembobotan Term Untuk Peringkasan Multi-dokumen Berita
Penggunaan trending issue dari media sosial Twitter sebagai kalimat penting efektif dalam proses peringkasan dokumen dikarenakan trending issue memiliki kedekatan kata kunci terhadap sebuah kejadian berita yang sedang berlangsung. Pembobotan term dengan TFIDF yang hanya berbasis pada dokumen itu tidak cukup untuk menentukan in-deks dari suatu dokumen. Penentuan indeks yang akurat juga bergantung pada nilai informatif suatu term terhadap kelas atau cluster. Term yang sering muncul di banyak kelas atau cluster seharusnya tidak menjadi term yang penting meskipun nilai TFIDF-nya tinggi.
Penelitian ini bertujuan untuk melakukan peringkasan multi dokumen berita menggunakan ekstraksi trending issue dengan pendekatan term distribution on centroid based (TDCB) pada pembobotan fitur dan mengintegrasikannya dengan query expansion sebagai kata kunci dalam peringkasan dokumen. Metode TDCB dilakukan dengan mempertimbangkan adanya kemunculan sub topic dari cluster hasil pengelompokan tweets yang dapat dijadikan nilai informatif tambahan dalam penentuan pembobotan kalimat penting penyusunan ringkasan.
Tahapan yang dilakukan untuk menghasilkan ringkasan multi dokumen berita antara lain ekstraksi trending issue, query expansion, auto labelling, seleksi berita, ekstraksi fitur berita, pembobotan kalimat penting dan penyusunan ringkasan. Hasil percobaan menunjukan metode peringkasan dokumen dengan menambahkan nilai informatif sub topic trending issue NeFTIS-TDCB menunjukan nilai rata-rata max-ROUGE-1 terbesar 0.8615 untuk n=30 dari seluruh varian topik berita
EKSTRAKSI TRENDING ISSUE DENGAN PENDEKATAN DISTRIBUSI KATA PADA PEMBOBOTAN TERM UNTUK PERINGKASAN MULTI-DOKUMEN BERITA
Penggunaan trending issue dari media sosial Twitter sebagai kalimat penting efektif dalam proses peringkasan dokumen dikarenakan trending issue memiliki kedekatan kata kunci terhadap sebuah kejadian berita yang sedang berlangsung. Pembobotan term dengan TFIDF yang hanya berbasis pada dokumen itu tidak cukup untuk menentukan in-deks dari suatu dokumen. Penentuan indeks yang akurat juga bergantung pada nilai informatif suatu term terhadap kelas atau cluster. Term yang sering muncul di banyak kelas atau cluster seharusnya tidak menjadi term yang penting meskipun nilai TFIDF-nya tinggi. Penelitian ini bertujuan untuk melakukan peringkasan multi dokumen berita menggunakan ekstraksi trending issue dengan pendekatan term distribution on centroid based (TDCB) pada pembobotan fitur dan mengintegrasikannya dengan query expansion sebagai kata kunci dalam peringkasan dokumen. Metode TDCB dilakukan dengan mempertimbangkan adanya kemunculan sub topic dari cluster hasil pengelompokan tweets yang dapat dijadikan nilai informatif tambahan dalam penentuan pembobotan kalimat penting penyusunan ringkasan. Tahapan yang dilakukan untuk menghasilkan ringkasan multi dokumen berita antara lain ekstraksi trending issue, query expansion, auto labelling, seleksi berita, ekstraksi fitur berita, pembobotan kalimat penting dan penyusunan ringkasan. Hasil percobaan menunjukan metode peringkasan dokumen dengan menambahkan nilai informatif sub topic trending issue NeFTIS-TDCB menunjukan nilai rata-rata max-ROUGE-1 terbesar 0.8615 untuk n=30 dari seluruh varian topik berita
Implementasi Peringkasan Multidokumen Berita Berbahasa Indonesia Dengan Pemilihan Kata Kunci Twitter Menggunakan Autocorrelation Wavelet Coefficients
Twitter digunakan untuk menyampaikan informasi berupa tweet
yang merepresentasikan suatu kejadian yang mengakibatkan munculnya
issue. Issue yang paling sering dibahas disebut dengan Trending Issue.
Dalam tugas akhir ini, digunakan data twitter yang telah diambil selama
bulan April dan Mei 2016
Metode Autocorrelation Wavelet coefficients berguna untuk
mendapatkan kata kunci yang muncul secara periodik atau berulang
(trivial) yang merepresentasikan kejadian biasa dan akan dieliminasi
sehingga menyisakan kata kunci penting (non-trivial). Kata kunci penting
digunakan untuk peringkasan berita menggunakan metode pembobotan
kalimat berdasarkan trending issue sehingga menghasilkan ringkasan
berita yang koheren.
Setelah dilakukan pengujian ada beberapa faktor utama yang
mempengaruhi hasil ringkasan berita, diantaranya penggunaan keyword
yang spesifik, jangkauan lokasi pengambilan tweet, penentuan confidence
boundary, dan perlu atau tidaknya proses eliminasi kata kunci trival.
Nilai silhouette terbaik ditunjukkan pada hasil ekstraksi trending issue
dengan pembuangan kata kunci trivial sebesar 0,36322. Nilai rouge
terbaik ditunjukkan pada hasil ringkasan tanpa pembuangan kata kunci
sebesar 0,30199.
===========================================================
Twitter is used to deliver the information in the form of
tweets that represents an event that resulted an issue. The most
frequently discussed issue is called Trending Issue. In this Final
Project, the twitter data is collected during April and May 2016.
Autocorrelation wavelet coefficients method is used to get
the keywords that appear periodically. The repeated keywords
(trivial) represent a regular event and will be eliminated thus
leaving important keywords (non-trivial). Important keywords will
be used to summarize news and become the purpose of this Final
Project, using the phrase weighting method based trending issue
to produce a coherent summary of the news.
After testing, a number of key factors that influence the
outcome of a news summary, including the use of a specific
keyword, scope of the location of the tweet, determination of the
confidence boundary, and whether or not the elimination process
trival keywords. Best silhouette value shown in the results of
extraction trending issue with the disposal amounting to 0.36322
trivial keywords. Best rouge value shown in the summary results
without disposal keywords by 0.30199