4 research outputs found

    Ekstraksi Trending Issue Dengan Pendekatan Distribusi Kata Pada Pembobotan Term Untuk Peringkasan Multi-dokumen Berita

    Full text link
    Penggunaan trending issue dari media sosial Twitter sebagai kalimat penting efektif dalam proses peringkasan dokumen dikarenakan trending issue memiliki kedekatan kata kunci terhadap sebuah kejadian berita yang sedang berlangsung. Pembobotan term dengan TFIDF yang hanya berbasis pada dokumen itu tidak cukup untuk menentukan in-deks dari suatu dokumen. Penentuan indeks yang akurat juga bergantung pada nilai informatif suatu term terhadap kelas atau cluster. Term yang sering muncul di banyak kelas atau cluster seharusnya tidak menjadi term yang penting meskipun nilai TFIDF-nya tinggi. Penelitian ini bertujuan untuk melakukan peringkasan multi dokumen berita menggunakan ekstraksi trending issue dengan pendekatan term distribution on centroid based (TDCB) pada pembobotan fitur dan mengintegrasikannya dengan query expansion sebagai kata kunci dalam peringkasan dokumen. Metode TDCB dilakukan dengan mempertimbangkan adanya kemunculan sub topic dari cluster hasil pengelompokan tweets yang dapat dijadikan nilai informatif tambahan dalam penentuan pembobotan kalimat penting penyusunan ringkasan. Tahapan yang dilakukan untuk menghasilkan ringkasan multi dokumen berita antara lain ekstraksi trending issue, query expansion, auto labelling, seleksi berita, ekstraksi fitur berita, pembobotan kalimat penting dan penyusunan ringkasan. Hasil percobaan menunjukan metode peringkasan dokumen dengan menambahkan nilai informatif sub topic trending issue NeFTIS-TDCB menunjukan nilai rata-rata max-ROUGE-1 terbesar 0.8615 untuk n=30 dari seluruh varian topik berita

    EKSTRAKSI TRENDING ISSUE DENGAN PENDEKATAN DISTRIBUSI KATA PADA PEMBOBOTAN TERM UNTUK PERINGKASAN MULTI-DOKUMEN BERITA

    Get PDF
    Penggunaan trending issue dari media sosial Twitter sebagai kalimat penting efektif dalam proses peringkasan dokumen dikarenakan trending issue memiliki kedekatan kata kunci terhadap sebuah kejadian berita yang sedang berlangsung. Pembobotan term dengan TFIDF yang hanya berbasis pada dokumen itu tidak cukup untuk menentukan in-deks dari suatu dokumen. Penentuan indeks yang akurat juga bergantung pada nilai informatif suatu term terhadap kelas atau cluster. Term yang sering muncul di banyak kelas atau cluster seharusnya tidak menjadi term yang penting meskipun nilai TFIDF-nya tinggi. Penelitian ini bertujuan untuk melakukan peringkasan multi dokumen berita menggunakan ekstraksi trending issue dengan pendekatan term distribution on centroid based (TDCB) pada pembobotan fitur dan mengintegrasikannya dengan query expansion sebagai kata kunci dalam peringkasan dokumen. Metode TDCB dilakukan dengan mempertimbangkan adanya kemunculan sub topic dari cluster hasil pengelompokan tweets yang dapat dijadikan nilai informatif tambahan dalam penentuan pembobotan kalimat penting penyusunan ringkasan. Tahapan yang dilakukan untuk menghasilkan ringkasan multi dokumen berita antara lain ekstraksi trending issue, query expansion, auto labelling, seleksi berita, ekstraksi fitur berita, pembobotan kalimat penting dan penyusunan ringkasan. Hasil percobaan menunjukan metode peringkasan dokumen dengan menambahkan nilai informatif sub topic trending issue NeFTIS-TDCB menunjukan nilai rata-rata max-ROUGE-1 terbesar 0.8615 untuk n=30 dari seluruh varian topik berita

    Implementasi Peringkasan Multidokumen Berita Berbahasa Indonesia Dengan Pemilihan Kata Kunci Twitter Menggunakan Autocorrelation Wavelet Coefficients

    Get PDF
    Twitter digunakan untuk menyampaikan informasi berupa tweet yang merepresentasikan suatu kejadian yang mengakibatkan munculnya issue. Issue yang paling sering dibahas disebut dengan Trending Issue. Dalam tugas akhir ini, digunakan data twitter yang telah diambil selama bulan April dan Mei 2016 Metode Autocorrelation Wavelet coefficients berguna untuk mendapatkan kata kunci yang muncul secara periodik atau berulang (trivial) yang merepresentasikan kejadian biasa dan akan dieliminasi sehingga menyisakan kata kunci penting (non-trivial). Kata kunci penting digunakan untuk peringkasan berita menggunakan metode pembobotan kalimat berdasarkan trending issue sehingga menghasilkan ringkasan berita yang koheren. Setelah dilakukan pengujian ada beberapa faktor utama yang mempengaruhi hasil ringkasan berita, diantaranya penggunaan keyword yang spesifik, jangkauan lokasi pengambilan tweet, penentuan confidence boundary, dan perlu atau tidaknya proses eliminasi kata kunci trival. Nilai silhouette terbaik ditunjukkan pada hasil ekstraksi trending issue dengan pembuangan kata kunci trivial sebesar 0,36322. Nilai rouge terbaik ditunjukkan pada hasil ringkasan tanpa pembuangan kata kunci sebesar 0,30199. =========================================================== Twitter is used to deliver the information in the form of tweets that represents an event that resulted an issue. The most frequently discussed issue is called Trending Issue. In this Final Project, the twitter data is collected during April and May 2016. Autocorrelation wavelet coefficients method is used to get the keywords that appear periodically. The repeated keywords (trivial) represent a regular event and will be eliminated thus leaving important keywords (non-trivial). Important keywords will be used to summarize news and become the purpose of this Final Project, using the phrase weighting method based trending issue to produce a coherent summary of the news. After testing, a number of key factors that influence the outcome of a news summary, including the use of a specific keyword, scope of the location of the tweet, determination of the confidence boundary, and whether or not the elimination process trival keywords. Best silhouette value shown in the results of extraction trending issue with the disposal amounting to 0.36322 trivial keywords. Best rouge value shown in the summary results without disposal keywords by 0.30199

    SNS-based issue detection and related news summarization scheme

    No full text
    corecore