7 research outputs found
Sparse Partially Collapsed MCMC for Parallel Inference in Topic Models
Topic models, and more specifically the class of Latent Dirichlet Allocation
(LDA), are widely used for probabilistic modeling of text. MCMC sampling from
the posterior distribution is typically performed using a collapsed Gibbs
sampler. We propose a parallel sparse partially collapsed Gibbs sampler and
compare its speed and efficiency to state-of-the-art samplers for topic models
on five well-known text corpora of differing sizes and properties. In
particular, we propose and compare two different strategies for sampling the
parameter block with latent topic indicators. The experiments show that the
increase in statistical inefficiency from only partial collapsing is smaller
than commonly assumed, and can be more than compensated by the speedup from
parallelization and sparsity on larger corpora. We also prove that the
partially collapsed samplers scale well with the size of the corpus. The
proposed algorithm is fast, efficient, exact, and can be used in more modeling
situations than the ordinary collapsed sampler.Comment: Accepted for publication in Journal of Computational and Graphical
Statistic
Bittm: A core biterms-based topic model for targeted analysis
While most of the existing topic models perform a full analysis on a set of documents to discover all topics, it is noticed recently that in many situations users are interested in fine-grained topics related to some specific aspects only. As a result, targeted analysis (or focused analysis) has been proposed to address this problem. Given a corpus of documents from a broad area, targeted analysis discovers only topics related with user-interested aspects that are expressed by a set of user-provided query keywords. Existing approaches for targeted analysis suffer from problems such as topic loss and topic suppression because of their inherent assumptions and strategies. Moreover, existing approaches are not designed to address computation efficiency, while targeted analysis is supposed to provide responses to user queries as soon as possible. In this paper, we propose a core BiTerms-based Topic Model (BiTTM). By modelling topics from core biterms that are potentially relevant to the target query, on one hand, BiTTM captures the context information across documents to alleviate the problem of topic loss or suppression; on the other hand, our proposed model enables the efficient modelling of topics related to specific aspects. Our experiments on nine real-world datasets demonstrate BiTTM outperforms existing approaches in terms of both effectiveness and efficiency
Математичне та програмне забезпечення реферування тексту
Магістерська дисертація: 96 с., 10 рис., 11 табл., 5 додатків, 38 джерел.
Актуальність роботи заключається в тому, що кількість застосунків, що вирішують задачу автоматичного реферування текстів, написаних українською чи російською невелика, та результати їх роботи не можна назвати дуже ефективними з точки зору математичних показників лексичної близькості текстів. Але задача реферування текстів є досить важливою зважаючи на кількість потоків текстових даних, які стають більшими кожен день і для багатьох професій – від законотворців, журналістів та, навіть, до військових критично ці потоки ефективно обробляти використовуючи менше часу. Аналогічно, реферування є важливим і для машинної обробки текстів – це значно пришвидшує обмін даними та має дуже багато потенційних аплікацій.
Мета дослідження є синтез нового математичного та програмного рішення для автоматичного реферування текстів, написаних українською та російською мовами.
Для реалізації поставленої мети були сформульовані наступні завдання:
- Аналіз існуючого теоретичного апарату реферування текстів
- Огляд існуючого програмного забезпечення
- Розробка нового застосунку та моделі для реферування текстів українською та російською мовами
- Виконати аналіз отриманих результатів
Об’єкт дослідження: є математичні моделі автоматичного реферування тексту.
Предметом дослідження є розробка застосунків, що будуть використовувати існуючі методи або нові методи автоматичного реферування текстів, написаних українською та російською мовами.
Методи досліджень є методи екстрактивного реферування текстів, що базуються на векторному представленні тексту
Наукова новизна: Найбільш суттєвими науковими результатами магістерської дисертації є розробка власного алгоритму реферування текстів та його імплементація для вирішення задачі реферування текстів, написаних українською та російською мовами. Практичне значення отриманих результатів визначається тим, що запропонований алгоритм та розроблений програмний застосунок у результаті експерименту показує кращі результати за існуючі підходи.
Зв’язок роботи з науковими програмами, планами, темами: Робота виконувалась на кафедрі автоматизованих систем обробки інформації та управління Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних». Державний реєстраційний номер 0117U000924.
Публікації: Наукові положення дисертації опубліковані в тезах наукової конференції студентів, магістрантів та аспірантів «Інформатика та обчислювальна техніка» – ІОТ-2019Master dissertation: 96 pp., 10 figures, 11 tables, 5 applications, 38 sources.
Topicality is concluded with that the number of applications that solve the problem of automatic abstract generation for the texts written in Ukrainian or Russian is extremely small, and the results of their work can not be called very effective in terms of mathematical indicators of the lexical proximity of texts. But the task of text summarization is quite important, especially given the number of textual data streams that are growing every day and for many professions - from lawmakers, journalists, and even the military – it’s critical to process these streams faster. Similarly, abstracting is important for word processing - it greatly speeds up data exchange and has many potential applications.
The aim of the research is synthesis of a new mathematical and software solution for automatic abstracting of texts written in Ukrainian and Russian. To achieve this goal which were formulated following tasks:
- Existing theoretical methods of text summarization analysis
- Review of existing text summarization software
- Development of a new application and mathematical model for Russian and Ukrainian texts summarization
- Perform the analysis of the obtained results
The object of research is the mathematical models for automatic text summarization
The subject of research is the development of applications that will use existing methods or new methods of automatic text summarization of texts written in Ukrainian and Russian.
Research methods are the extraction methods of the text summarization based on the vector representation of the text
Scientific novelty of the obtained results. The most significant scientific results of the master's thesis are the development of its own algorithm for abstracting texts and its implementation to solve the problem of abstracting texts written in Ukrainian and Russian.
Practical consequences of the results are determined by the fact that the proposed algorithm and the developed software application as a result of the experiment show better results than the existing approaches.
Relationship of work with scientific programs, plans, themes: The work was performed at the Department of Automated Information Processing and Management Systems of the National Technical University of Ukraine «Kyiv Polytechnic Institute. Igor Sikorsky ”within the topic“ Methods and technologies of high-performance computing and processing of large data sets ”. State Registration Number 0117U000924.
Publications: The research results were published in the thesіs of the scientific conference of students, undergraduates and graduate students "Computer Science and Computer Engineering" - IOT-2019[27]
Тематичне моделювання за допомогою підходу BigArtm на прикладі згадувань про SpaceX
Дипломна робота: 66 с., 9 рис., 5 табл., 3 дод., 15 джерел.
Актуальність теми: задача відслідковування трендів в новинних потоках є провідною для піару, маркетингу, соціальних досліджень. Ймовірнісне тематичне моделювання є провідною стратегією для аннотації новинних потоків, підхід BigArtm завдяки раціональному ЕМ-алгоритму та паралелизації дає можливість відслідковувати тренди у режимі онлайн.
Метою даної роботи є побудувати ПЗ, яке б дозволяло отримувати найпопулярніші тренди серед згадувань про SpaceX та легко інтерпретувати їх.
Об’єктом дослідження є пости з соцмереж.
Методи дослідження: стандартні методи тематичного моделювання,
ймовірнісне тематичне моделювання.
Програмна реалізація виконана за допомогою мови програмування
Python.
Отримані результати: модель для виявлення трендів в новинних
потоках.Topic: ‘Topic modeling via BigArtm approach on SpaceX mentions example’ Thesis: 66 p., 9 fig., 5 tabl., 3 append., 15 sources.
Actuality: The task of tracking trends in news streams is leading for PR,
marketing, social research. Probabilistic topic modeling is a leading strategy for
annotation of news streams, the BigArtm approach thanks to the rational EM-
algorithm and parallelization makes it possible to detect trends online.
The object of the study is a posts from social networks.
Research methods: standard methods of topic modeling, probabilistic topic
modeling.
The software was implemented using the Python programming language.
Obtained results: a model for detecting trends in news streams