    Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia

    Вдосконалення методу кластеризації публікацій на основі n-грам аналізу та нечіткий метод вибору наукових партнерів

    For the problem of formation of project teams, in particular, scientific research project groups, there was proposed the comprehensive method, which consists of the two-stage method for clustering the graph of citation of scientists» publications and the method of fuzzy inference for coordination of experts» opinions on the selection of potential partners and their inclusion in the project group.The essence of the two-stage method for clustering publications of scientists is clustering the citation graph based on the proximity of abstracts of publications. The distance between publications is calculated based on the determined metrics and approaches of the n-gram analysis. The described method allows identifying the areas research of scientists, which is a necessary component of the rational choice of a partner for the formation of a project team and is the input information for experts who form this group. The next step is the application of the method of fuzzy inference, which is constructed to coordinate opinions of experts on the creation of project teams. This method consists of three stages. At the first stage, fuzzification is performed through the introduction of function of scientist»s belonging to the area of scientific research. The second phase of fuzzy inference is the statement of experts» requirements to candidates for a place in a project group. At the final stage, defuzzification with the use of the method of the weight center takes place. To verify the fuzzy method for identification of research project groups, the organizations-executors for a fundamental scientific research were determined.Described methods can be used for the problem of formation of scientific research groups and identification the similarities between the fragments of text information based on the n-gram analysis, which is used in the problem of identification of incomplete duplicates between fragments of text information.Для задачи формирования проектных групп, в частности научно-исследовательских проектных групп, предлагается комплексный метод, который состоит из двухэтапного метода кластеризации графу цитирования публикаций ученых и метода нечеткого логического вывода для согласования мнений экспертов по выбору потенциальных партнеров и включения их в проектную группу.Суть двухэтапного метода кластеризации публикаций ученых заключается в кластеризации графу цитирование и объединения кластеров на основе близости аннотаций публикаций. Расстояние между публикациями рассчитывается при помощи определенной метрики и подходов n-грамм анализа. Описанный метод позволяет идентифицировать направления исследований ученых, необходимой составляющей рационального выбора партнера для построения проектной группы и является входной информацией для экспертов, которые эту группу формируют. Следующим этапом является применение метода нечеткого логического вывода, который строится для согласования мнений экспертов по созданию проектных групп. Данный метод состоит из трех этапов. На первом этапе фаззификация осуществляется через введение функции принадлежности ученого к направлению научных исследований. Второй этап нечеткого логического вывода заключается формировании экспертами требований к кандидатам на место в проектной группе. На заключительном этапе происходит дефаззификация с помощью метода центра тяжести. Для верификации нечеткого метода идентификации исследовательских проектных групп было определено организации-исполнители для фундаментального научного исследования.Описанные методы могут быть использованы для задачи формирования научно-исследовательских групп и выявления сходств между фрагментами текстовой информации на основе n-грамм анализа, имеет применение в задаче идентификации неполных дубликатов между фрагментами текстовой информацииДля задачі формування проектних груп, зокрема науково-дослідницьких проектних груп, пропонується комплексний метод, який складається з двохетапного методу кластеризації графу цитування публікацій науковців та методу нечіткого логічного виводу для узгодження думок експертів щодо вибору потенційних партнерів і включення їх до проектної групи.Суть двохетапного методу кластеризації публікацій науковців полягає у кластеризації графу цитування та об'єднання кластерів на основі близькості анотацій публікацій. Відстань між публікаціями розраховується на основі визначеної метрики та підходів n-грам аналізу. Описаний метод дозволяє ідентифікувати напрями досліджень науковців, що є необхідною складовою раціонального вибору партнера для побудови проектної групи і є вхідною інформацією для експертів, які цю групу формують. Наступним етапом є застосування методу нечіткого логічного виводу, який будується для узгодження думок експертів щодо створення проектних груп. Даний метод складається із трьох етапів. На першому етапі фазифікація здійснюється через введення функції належності науковця до напрямку наукових досліджень. Другий етап нечіткого логічного виводу полягає формуванні експертами вимог до кандидатів на місце в проектній групі. На заключному етапі відбувається дефазифікація за допомогою методу центра ваги. Для верифікації нечіткого методу ідентифікації дослідницьких проектних груп було визначено організації-виконавці для фундаментального наукового дослідження.Описані методи можуть бути використані для задачі формування науково-дослідницьких груп та виявлення подібностей між фрагментами текстової інформації на основі n-грам аналізу, що має застосування у задачі ідентифікації неповних дублікатів між фрагментами текстової інформаці

    Controlling for Lexical Closeness in Survey Research: A Demonstration on the Technology Acceptance Model

    Word co-occurrences in text carry lexical information that can be harvested by data-mining tools such as latent semantic analysis (LSA). In this research perspective paper, we demonstrate the potency of using such embedded information by demonstrating that the technology acceptance model (TAM) can be reconstructed significantly by analyzing unrelated newspaper articles. We suggest that part of the reason for the phenomenal statistical validity of TAM across contexts may be related to the lexical closeness among the keywords in its measurement items. We do so not to critique TAM but to praise the quality of its methodology. Next, putting that LSA reconstruction of TAM into perspective, we show that empirical data can provide a significantly better fitting model than LSA data can. Combined, the results raise the possibility that a significant portion of variance in survey based research results from word cooccurrences in the language itself regardless of the theory or context of the study. Addressing this possibility, we suggest a method to statistically control for lexical closeness

    Composing Measures for Computing Text Similarity

    We present a comprehensive study of computing similarity between texts. We start from the observation that while the concept of similarity is well grounded in psychology, text similarity is much less well-defined in the natural language processing community. We thus define the notion of text similarity and distinguish it from related tasks such as textual entailment and near-duplicate detection. We then identify multiple text dimensions, i.e. characteristics inherent to texts that can be used to judge text similarity, for which we provide empirical evidence. We discuss state-of-the-art text similarity measures previously proposed in the literature, before continuing with a thorough discussion of common evaluation metrics and datasets. Based on the analysis, we devise an architecture which combines text similarity measures in a unified classification framework. We apply our system in two evaluation settings, for which it consistently outperforms prior work and competing systems: (a) an intrinsic evaluation in the context of the Semantic Textual Similarity Task as part of the Semantic Evaluation (SemEval) exercises, and (b) an extrinsic evaluation for the detection of text reuse. As a basis for future work, we introduce DKPro Similarity, an open source software package which streamlines the development of text similarity measures and complete experimental setups

    A Guide to Text Analysis with Latent Semantic Analysis in R with Annotated Code: Studying Online Reviews and the Stack Exchange Community

    In this guide, we introduce researchers in the behavioral sciences in general and MIS in particular to text analysis as done with latent semantic analysis (LSA). The guide contains hands-on annotated code samples in R that walk the reader through a typical process of acquiring relevant texts, creating a semantic space out of them, and then projecting words, phrase, or documents onto that semantic space to calculate their lexical similarities. R is an open source, popular programming language with extensive statistical libraries. We introduce LSA as a concept, discuss the process of preparing the data, and note its potential and limitations. We demonstrate this process through a sequence of annotated code examples: we start with a study of online reviews that extracts lexical insight about trust. That R code applies singular value decomposition (SVD). The guide next demonstrates a realistically large data analysis of Stack Exchange, a popular Q&A site for programmers. That R code applies an alternative sparse SVD method. All the code and data are available on github.com

    Tracking the Temporal-Evolution of Supernova Bubbles in Numerical Simulations

    The study of low-dimensional, noisy manifolds embedded in a higher dimensional space has been extremely useful in many applications, from the chemical analysis of multi-phase flows to simulations of galactic mergers. Building a probabilistic model of the manifolds has helped in describing their essential properties and how they vary in space. However, when the manifold is evolving through time, a joint spatio-temporal modelling is needed, in order to fully comprehend its nature. We propose a first-order Markovian process that propagates the spatial probabilistic model of a manifold at fixed time, to its adjacent temporal stages. The proposed methodology is demonstrated using a particle simulation of an interacting dwarf galaxy to describe the evolution of a cavity generated by a Supernov