    Rancang Bangun Sistem Peringkasan Teks Multi-Dokumen

    Seiring dengan bertumbuhnya jumlah dokumen digital yang sangat pesat, membuat pengguna membutuhakan suatu sistem yang dapat melakukan peringkasan teks. Pada penelitian ini diusulkan sebuah rancangan peringksan teks multi-dokumen berbasis pendekatan clustering dan pemilihan kalimat. Metode yang digunakan proses clustering kalimat adalah Latent Semantic Indexing (LSI) dan Similarity Based Histogram Clustering (SHC). Metode LSI dilakukan untuk menghitung tingkat kemiripan antarpasangan kalimat dan metode SHC digunakan untuk mengelompokkan kalimat-kalimat ke dalam cluster. Sedangkan metode yang digunakan dalam pemilihan kalimat adalah Sentences Information Density (SID). Metode tersebut merupakan metode pemilihan berbasis positional text graph. Kombinasi metode tersebut mampu menghasilkan sebuah peringkasan teks multi-dokumen yang mengandung coverage, diversity dan koherensi yang tinggi

    Opinion Mining Summarization and Automation Process: A Survey

    In this modern age, the internet is a powerful source of information. Roughly, one-third of the world population spends a significant amount of their time and money on surfing the internet. In every field of life, people are gaining vast information from it such as learning, amusement, communication, shopping, etc. For this purpose, users tend to exploit websites and provide their remarks or views on any product, service, event, etc. based on their experience that might be useful for other users. In this manner, a huge amount of feedback in the form of textual data is composed of those webs, and this data can be explored, evaluated and controlled for the decision-making process. Opinion Mining (OM) is a type of Natural Language Processing (NLP) and extraction of the theme or idea from the user's opinions in the form of positive, negative and neutral comments. Therefore, researchers try to present information in the form of a summary that would be useful for different users. Hence, the research community has generated automatic summaries from the 1950s until now, and these automation processes are divided into two categories, which is abstractive and extractive methods. This paper presents an overview of the useful methods in OM and explains the idea about OM regarding summarization and its automation process

    [Id]Peringkasan yang baik dapat diperoleh dengan coverage, diversity dan coherence yang optimal. Namun, terkadang sub-sub topik yang terkandug dalam dokumen tidak terekstrak dengan baik, sehingga keterwakilan setiap sub-sub topik tersebut tidak ada dalam hasil peringkasan dokumen. Pada paper ini diusulkan metode baru pembobotan kata berdasarkan klaster pada optimisasi coverage, diversity dan coherence untuk peringkasan multi-dokumen. Metode optimasi yang digunakan ialah self-adaptive differential evolution (SaDE) dengan penambahan pembobotan kata berdasarkan hasil dari pembentukan cluster dengan metode Similarity Based Histogram Clustering (SHC). Metode SHC digunakan untuk mengklaster kalimat sehingga setiap sub-topik pada dokumen bisa terwakili dalam hasil peringkasan. Metode SaDE digunakan untuk mencari solusi hasil ringkasan yang memiliki tingkat coverage, diversity, dan coherence paling tinggi. Uji coba dilakukan pada 15 topik dataset Text Analysis Conference (TAC) 2008. Hasil uji coba menunjukkan bahwa metode yang diusulkan dapat menghasilkan ringkasan skor ROUGE-1 sebesar 0.6704, ROUGE-2 sebesar 0.2051, ROUGE-L sebesar 0.6271 dan ROUGE-SU sebesar 0.3951.Kata kunci : peringkasan multi dokumen, similarity based histogram clustering, coverage, diversity, coherence[En]Good summary can be obtained with optimizing coverage, diversity, and coherence. Nevertheless, sometime sub-topics wich is contained in the document is not extracted well, so that the representation of each sub-topic is appear in docment summarizarion result. In this paper, we propose new of term weighting based on? cluster in optimizing coverage, diversity, and coherence for multi-document summarization. Optimization method which is used is self-adaptive differential evolution (SaDE) with additional term weighting based on clustering result with Similarity Based Histogram Clustering (SHC). SHC is used to cluster sentence so that every sub-topic in the document can be represented in summarization result. SaDE is used to search summarization result solution which has high coverage, diversity, and coherence level. Experiment is done on 15 topics in Text Analysis Conference (TAC) 2008 dataset. Experimental results show that this proposed method can produce summarization score? ROUGE-1 0.6704, ROUGE-2 0.2051, ROUGE-L 0.6271 and ROUGE-SU 0.3951.Keywords: multy-document summarization, similarity based histogram clustering, coverage, diversity, coherence

    Calculating the Upper Bounds for Multi-Document Summarization using Genetic Algorithms

    Over the last years, several Multi-Document Summarization (MDS) methods have been presented in Document Understanding Conference (DUC), workshops. Since DUC01, several methods have been presented in approximately 268 publications of the stateof-the-art, that have allowed the continuous improvement of MDS, however in most works the upper bounds were unknowns. Recently, some works have been focused to calculate the best sentence combinations of a set of documents and in previous works we have been calculated the significance for single-document summarization task in DUC01 and DUC02 datasets. However, for MDS task has not performed an analysis of significance to rank the best multi-document summarization methods. In this paper, we describe a Genetic Algorithm-based method for calculating the best sentence combinations of DUC01 and DUC02 datasets in MDS through a Meta-document representation. Moreover, we have calculated three heuristics mentioned in several works of state-of-the-art to rank the most recent MDS methods, through the calculus of upper bounds and lower bounds

    SDbQfSum: Query-focused summarization framework basedon diversity and text semantic analysis

    Query-focused multi-document summarization (Qf-MDS) is a sub-task of automatic text summarization that aims to extract a substitute summary from a document cluster of the same topic and based on a user query. Unlike other summarization tasks, Qf-MDS has specific research challenges including the differences and similarities across related document sets, the high degree of redundancy inherent in the summaries created from multiple related sources, relevance to the given query, topic diversity in the produced summary and the small source-to-summary compression ratio. In this work, we propose a semantic diversity feature based query-focused extractive summarizer (SDbQfSum) built on powerful text semantic representation techniques underpinned with Wikipedia commonsense knowledge in order to address the query-relevance, centrality, redundancy and diversity challenges. Specifically, a semantically parsed document text is combined with knowledge-based vectorial representation to extract effective sentence importance and query-relevance features. The proposed monolingual summarizer is evaluated on a standard English dataset for automatic query-focused summarization tasks, that is, the DUC2006 dataset. The obtained results show that our summarizer outperforms most state-of-the-art related approaches on one or more ROUGE measures achieving 0.418, 0.092 and 0.152 in ROUGE-1, ROUGE-2,and ROUGE-SU4 respectively. It also attains competitive performance with the slightly outperforming system(s), for example, the difference between our system's result and best system in ROUGE-1 is just 0.006. We also found through the conducted experiments that our proposed custom cluster merging algorithm significantly reduces information redundancy while maintaining topic diversity across documents

    A review of the extractive text summarization

    Research in the area of automatic text summarization has intensifed in recent years due to the large amount of information available in electronic documents. This article present the most relevant methods for automatic text extractive summarization that have been developed both for a single document and multiple documents, with special emphasis on methods based on algebraic reduction, clustering and evolutionary models, of which there is great amount of research in recent years, since they are language-independent and unsupervised methods.Las investigaciones en el área de generación automática de resúmenes de textos se han intensifcado en los últimos años debido a la gran cantidad de información disponible en documentos electrónicos. Este artículo presenta los métodos más relevantes de generación automática de resúmenes extractivos que se han desarrollado tanto para un solo documento como para múltiples documentos, haciendo especial énfasis en los métodos basados en reducción algebraica, en agrupamiento y en modelos evolutivos, de los cuales existe gran cantidad de investigaciones en los últimos años, dado que son métodos independientes del lenguaje y no supervisados. &nbsp

    Розробка засобів автоматичного реферування текстів

    Загальний обсяг роботи с.107, рис. 19, таблиць 22, додатки 1, джерел 42. Актуальність теми магістерської дисертації полягає у тому, що не так багато систем автоматичного реферування текстів є в вільному доступі, хоча ця тема досить актуальна, для тих, кому потрібно класифікувати чи кластеризувати великі об'єми тексту, або для тих кому треба швидко отримати коротку вижимку з якогось документу для подальшого використання. Таким чином було прийняте рішення про створення своєї власної системи автоматичного анотування, використовуючи лише загальнодоступні мови програмування та інструменти. Метою та задачі дослідження. Метою цієї роботи є перевірка ефективності основних підходів до автоматичного реферування тексту, а також дослідження різних методів для різних підходів реферування тексту і створення макету програми для реферування текстів. Поставлена мета вимагає вирішення наступних наукових задач : 1) Аналіз відомих математичних методів, які можна буде використати для реферування текстів; 2) Аналіз методів обробки природного мовлення; 3) Розробка моделі автоматичного реферування текстів, що дозволить оцінити тональність тексту, кластеризувати чи класифікувати його, знайти в ньому різні іменні сутномті, а такоє знайти приховані тематики. Об’єкт досліджень: процес реферування тексту. Предмет досліджень: система на мові програмування пайтон для автоматичного реферуфання текстів. Наукова новизна. Так як ця ніша не досить популярна і немає багато веб застосунків, то будь який новий продукт зможе привнести щось нове у нашу систему, основна перевага розробленої системи це швидкість, так як пайтон дозволяє створювати програми, що працюють з великою швидкістю, а такоє якість, так як були використані не голі дані, а навченні моделі. Потенційні застосування та практична цінність результатів магістерської роботи: Розроблений механізм автоматичного реферування текстів, на основі якого можна покращити вже існуючі механізми цього типу; Розроблений застосунок можна і надалі модернізувати додаючі нові можливості до вже існуючих; Цю систему також можна використовувати і в освітній системі, вона дозволить студентам отримувати короткий аналіз, що може спростити їм споживання інформації. Публікація: 1. Методи розпізнавання текстів та пошуку ключових слів для автоматичного реферування текстів / Кузнєцов О.А, Кисельов Г.Д. // Системні науки та інформатика: збірник доповідей І науково-практичної конференції «Системні науки та інформатика», 22–29 листопада 2022 року, Київ. – К., НН ІПСА КПІ ім. Ігоря Сікорського, 2022. – с. 331-335.The total amount of work is pages 107, figures 19, tables 22, appendices 1, sources 42 . The relevance of the topic of the master's thesis lies in the fact that there are not so many systems of automatic abstracting of texts in free access, although this topic is quite relevant, for those who need to classify or cluster large volumes of text, or for those who need to quickly get a short summary from some document for further use. Thus, the decision was made to create my own automatic annotation system using only publicly available programming languages and tools. The aim and objectives of the research. The purpose of this work is to check the effectiveness of the main approaches to automatic text abstracting, as well as research different methods for different text abstracting approaches and create a layout of a text abstracting program. The set goal requires solving the following scientific problems: 1) Analysis of known mathematical methods that can be used for abstracting texts; 2) Analysis of natural speech processing methods; 3) Development of a model of automatic abstracting of texts, which will allow to evaluate the tonality of the text, cluster or classify it, find different nominal essences in it, and also find hidden themes. Object of research: the process of abstracting the text. The subject of research: a system in the Python programming language for automatic reframing of texts. Scientific novelty. Since this niche is not popular enough and there are not many web applications, any new product can bring something new to our system, the main advantage of the developed system is speed, since python allows you to create programs that work at a high speed, and such quality, since not bare data was used, but training models. Potential applications and practical value of the results of the master's work: A mechanism for automatic referencing of texts has been developed, on the basis of which it is possible to improve already existing mechanisms of this type; The developed application can be further modernized by adding new features to the existing ones; This system can also be used in the educational system, it will allow students to get a short analysis, which can make it easier for them to consume information. Publication: 1. Methods of recognizing texts and finding keywords for automatic abstracting of texts / O. Kuznietsov, G. Kiselyov // System sciences and informatics: collection of reports of the 1st scientific and practical conference "System sciences and informatics", November 22–29, 2022, Kyiv. – K., ES IASA KPI named after Igor Sikorskyi, 2022. - p. 331-335