4 research outputs found

    Predicting Good Configurations for GitHub and Stack Overflow Topic Models

    Full text link
    Software repositories contain large amounts of textual data, ranging from source code comments and issue descriptions to questions, answers, and comments on Stack Overflow. To make sense of this textual data, topic modelling is frequently used as a text-mining tool for the discovery of hidden semantic structures in text bodies. Latent Dirichlet allocation (LDA) is a commonly used topic model that aims to explain the structure of a corpus by grouping texts. LDA requires multiple parameters to work well, and there are only rough and sometimes conflicting guidelines available on how these parameters should be set. In this paper, we contribute (i) a broad study of parameters to arrive at good local optima for GitHub and Stack Overflow text corpora, (ii) an a-posteriori characterisation of text corpora related to eight programming languages, and (iii) an analysis of corpus feature importance via per-corpus LDA configuration. We find that (1) popular rules of thumb for topic modelling parameter configuration are not applicable to the corpora used in our experiments, (2) corpora sampled from GitHub and Stack Overflow have different characteristics and require different configurations to achieve good model fit, and (3) we can predict good configurations for unseen corpora reliably. These findings support researchers and practitioners in efficiently determining suitable configurations for topic modelling when analysing textual data contained in software repositories.Comment: to appear as full paper at MSR 2019, the 16th International Conference on Mining Software Repositorie

    Improving local search in a minimum vertex cover solver for classes of networks

    No full text
    For the minimum vertex cover problem, a wide range of solvers has been proposed over the years. Most classical exact approaches are encountering run time issues on massive graphs that are considered nowadays. A straightforward alternative approach is then to use heuristics, which make assumptions about the structure of the studied graphs. These assumptions are typically hard-coded and are hoped to work well for a wide range of networks—which is in conflict with the nature of broad benchmark sets. With this article, we contribute in two ways. First, we identify a component in an existing solver that influences its performance depending on the class of graphs, and we then customize instances of this solver for different classes of graphs. Second, we create the first algorithm portfolio for the minimum vertex cover to further improve the performance of a single integrated approach to the minimum vertex cover problem.Markus Wagner, Tobias Friedrich and Marius Lindaue

    Розробка статистичного оператора локального пошуку для евристичних та метаевристичних алгоритмів

    Get PDF
    В інформаційно-аналітичному розділі були розглянуті основні поняття теорії оптимізації, описана проблематика комбінаторної оптимізації, були розглянуті практичні методи вирішення задач даного класу. Також проведений аналіз використання метаевристик пов’язаних з локальним пошуком. У спеціальному розділі була запропонована нова метаевристика, пов’язана з застосуванням оператора локального пошуку при вирішені комбінаторних задач за допомогою стохастичних пошукових евристик, реалізовано алгоритм штучної імунної системи з різними варіантами операторів, підготовлено набір тестових функцій, виконано аналіз отриманих результатів тестування.Метою даної кваліфікаційної роботи є пошук та дослідження можливого впливу статистичних оцінок на вирішення комбінаторних задач у евристичних та метаевристичних алгоритмах.Практична цінність отриманих результатів полягає у тому, що запропонований новий підхід до використання локального пошуку, базованого на статистичних оцінках популяційного різноманіття, при вирішені задач комбінаторної оптимізації з використанням стохастичних пошукових евристикАпробація результатів дослідження проводилася на всеукраїнському конкурсі студентських наукових робіт зі штучного інтелекту 2023
    corecore