    Лингвостатистическое исследование частотных слов в Словах Кирилла Туровского (по рукописи РНБ, F.п.I.39)

    The authors have studied quantitative and statistical qualities of the most frequent words in sermons of Kirill of Turov, contained in the Tolstoy Collection from the 13th century (NLR, F.п.I.39).In the course of three experiments, firstly, formal distinctions were found between the list and the corresponding copies from 8 contrasting sub-corpora, them being: 11th–14th century copies of the May Menaea, other months’ Minaea, Sticheraria, Gospels, The Book of Psalms, chronicles, the Apostolos, and the Parenesis of Ephrem the Syrian; the last two appear to be the most similar to the list. Secondly, using Log-Likelihood, TF*ICTF' and Weirdness statistical tools, statistically meaningful words were found out, and a partial overlap in the forms under study appeared between the texts of Kirill and several of the sub-corpora. Thirdly, by comparing ranks of each of the forms, the closeness of the Tolstoy Collection texts and sub-corpora of different genres was estimated, and it was shown that original sermons of Kirill of Turov and translations of the teaching sermons of Ephrem the Syrian and of the Apostolos are closest to each other in terms of statistical significance of 15 most frequent forms.For the first time, the configurations of the most significant lexemes in the sub-corpora were found out. Also for the first time, their list was found to be similar in the sub-corpora of Kirill of Turov’s sermons and of the Apostolos, as well as (partially) of the Parenesis, The Book of Psalms and the chronicles. High-rank units in the sermons of Kirill of Turov (нъ, о, бо, съ) were described in terms of linguistics, of genre and style, and of discursive pragmatics.The work was made using the transcriptions from the historical corpus “Manuscript” (manuscripts.ru). DOI: 10.31168/2305-6754.2020.9.1.2Рассмотрены количественные и статистические свойства наиболее частотных слов проповедей Кирилла Туровского Толстовского сборника XIII в. (РНБ, F.п.I.39). В ходе трех экспериментов (1) были установлены формальные отличия перечня от соответствующих списков 8 контрастных подкорпусов (списков XI‒XIV вв. майских миней, миней на другие месяцы года, стихирарей, Евангелий, Псалтыри, летописей, Апостола, Паренесиса Ефрема Сирина) и выявлена бóльшая близость с двумя последними; (2) с помощью статистических мер Log-Likelihood, TF*ICTF' и Weirdness найдены статистически значимые слова и выявлено частичное совпадение исследуемых форм текстов Кирилла Туровского и нескольких контрастных подкорпусов; (3) с помощью сопоставления рангов каждой из форм осуществлена оценка степени близости текстов Толстовского сборника и разножанровых подкорпусов и показано, что наиболее близкими друг другу с точки зрения статистической значимости 15 наиболее частотных форм являются оригинальные тексты проповедей Кирилла Туровского, переводные тексты наставлений Ефрема Сирина и списков Апостола. Впервые выявлены конфигурации наиболее значимых лексем в подкорпусах и установлено сходство в их составе в подкорпусах проповедей Кирилла Туровского и Апостола, а также частично Паренесиса, Псалтыри и летописей. Дана лингвистическая, жанрово-стилистическая и дискурсивно-прагматическая характеристика высокоранговых единиц в проповедях Кирилла Туровского (нъ, о, бо, съ).Работа выполнена на материале транскрипций исторического корпуса «Манускрипт» (manuscripts.ru). DOI: 10.31168/2305-6754.2020.9.1.

    Discovering core terms for effective short text clustering

    This thesis aims to address the current limitations in short texts clustering and provides a systematic framework that includes three novel methods to effectively measure similarity of two short texts, efficiently group short texts, and dynamically cluster short text streams