Search CORE

102 research outputs found

Inferring Strategies for Sentence Ordering in Multidocument News Summarization

Author: Barzilay R.
Elhadad N.
Publication venue: 'AI Access Foundation'
Publication date: 09/06/2011
Field of study

The problem of organizing information for multidocument summarization so that the generated summary is coherent has received relatively little attention. While sentence ordering for single document summarization can be determined from the ordering of sentences in the input article, this is not the case for multidocument summarization where summary sentences may be drawn from different input articles. In this paper, we propose a methodology for studying the properties of ordering information in the news genre and describe experiments done on a corpus of multiple acceptable orderings we developed for the task. Based on these experiments, we implemented a strategy for ordering information that combines constraints from chronological order of events and topical relatedness. Evaluation of our augmented algorithm shows a significant improvement of the ordering over two baseline strategies

arXiv.org e-Print Archive

Multi-document Summarization Based on Sentence Clustering Improved Using Topic Words

Author: Arifin A. Z. (Agus)
Kurniawardhani A. (Arrie)
Lukmana I. (Indra)
Purwitasari D. (Diana)
Swanjaya D. (Daniel)
Publication venue: Sepuluh Nopember Institute of Technology
Publication date: 01/07/2014
Field of study

Informasi dalam bentuk teks berita telah menjadi salah satu komoditas yang paling penting dalam era informasi ini. Ada banyak berita yang dihasilkan sehari-hari, tetapi berita-berita ini sering memberikan konten kontekstual yang sama dengan narasi berbeda. Oleh karena itu, diperlukan metode untuk mengumpulkan informasi ini ke dalam ringkasan sederhana. Di antara sejumlah subtugas yang terlibat dalam peringkasan multi-dokumen termasuk ekstraksi kalimat, deteksi topik, ekstraksi kalimat representatif, dan kalimat rep-resentatif. Dalam tulisan ini, kami mengusulkan metode baru untuk merepresentasikan kalimat ber-dasarkan kata kunci dari topic teks menggunakan Latent Dirichlet Allocation (LDA). Metode ini terdiri dari tiga langkah dasar. Pertama, kami mengelompokkan kalimat di set dokumen menggunakan kesamaan histogram pengelompokan (SHC). Selanjutnya, peringkat cluster menggunakan klaster penting. Terakhir, kalimat perwakilan yang dipilih oleh topik diidentifikasi pada LDA. Metode yang diusulkan diuji pada dataset DUC2004. Hasil penelitian menunjukkan rata-rata 0,3419 dan 0,0766 untuk ROUGE-1 dan ROUGE-2, masing-masing. Selain itu, dari pembaca prespective, metode kami diusulkan menyajikan pengaturan yang koheren dan baik dalam memesan kalimat representatif, sehingga dapat mempermudah pemahaman bacaan dan mengurangi waktu yang dibutuhkan untuk membaca ringkasan

Sentence Fusion for Multidocument News Summarization

Author: Barzilay Regina
Elhadad Noemie
McKeown Kathleen
Publication venue: 'Columbia University Libraries/Information Services'
Publication date: 01/01/2002
Field of study

MULTI-DOCUMENT SUMMARIZATION BASED ON SENTENCE CLUSTERING IMPROVED USING TOPIC WORDS

Author: Arifin Agus Zainal
Kurniawardhani Arrie
Lukmana Indra
Purwitasari Diana
Swanjaya Daniel
Publication venue: 'Lembaga Penelitian dan Pengabdian kepada Masyarakat ITS'
Publication date: 01/07/2014
Field of study

Directory of Open Access Journals

Keyword Merging Based Multi Document Enhanced Summarization

Author: Ms. Ajita Patil, Prof .Mane P.M.
Publication venue: 'Auricle Technologies, Pvt., Ltd.'
Publication date: 31/07/2015
Field of study

Automatic text summarization is a wide research area. There are several ways in which one can characterize different approaches to text summarization: extractive and abstractive from single document or multi document. Summary is text that is produced from one or more text. Document summarization is a procedure that building coated version of document that gives respected data to the client, and multi-document summarization is to produce a summary conveying the larger part of data substance from a set of documents about an implicit or explicit primary point.This paper describes a system for the summarization of multiple documents. The system produces multi-document summaries using data merging techniques. For combining multiple document on same thing the system uses Bisecting k-means algorithm which works better than basic K-means algorithm.Our System uses Enhanced Summarization algorithm to summarize multiple document.The Enhanced algorithm is applied separately on each cluster. According to results this system gives better results as compared to NEWSUM algorithm. DOI: 10.17762/ijritcc2321-8169.150711

International Journal on Recent and Innovation Trends in Computing and Communication

An Unsupervised Approach to Biography Production using Wikipedia

Author: Biadsy Fadi
Filatova Elena
Hirschberg Julia Bell
Publication venue: 'Columbia University Libraries/Information Services'
Publication date: 01/01/2008
Field of study

We describe an unsupervised approach to multi-document sentence-extraction based summarization for the task of producing biographies. We utilize Wikipedia to automatically construct a corpus of biographical sentences and TDT4 to construct a corpus of non-biographical sentences. We build a biographical-sentence classiﬁer from these corpora and an SVM regression model for sentence ordering from the Wikipedia corpus. We evaluate our work on the DUC2004 evaluation data and with human judges. Overall, our system signiﬁcantly outperforms all systems that participated in DUC2004, according to the ROUGE-L metric, and is preferred by human subjects

CiteSeerX