Аналіз розробленого квантитативного методу автоматичного визначення автора україномовного текстового контенту науково-технічного спрямування

Abstract

A formal approach was proposed to implement text content attribution. The study was conducted with Ukrainian scientific and technical texts. The results of application of the designed algorithms of automatic attribution of the text content based on the NLP and stylemetry methods were analyzed. Prospects and features of application of stylemetry information technologies for attribution of the text content were considered. Quantitative content analysis of scientific and technical text content takes advantage of content monitoring and text content analysis based on NLP, Web-Mining and stylemetry methods to identify the multitude of authors whose talking style is similar to that of the analyzed text fragment. This narrows the range of search for further use in the stylemetry methods to determine the degree of belonging of the analyzed text to a particular author.Decomposition of the attribution method was carried out based on analysis of such talking coefficients as lexical diversity, degree (measure) of syntactic complexity, talking coherence, indexes of exclusivity and concentration of the text. At the same time, author's style parameters such as the number of words in a certain text, the total number of words of this text, the number of sentences, the number of prepositions, the number of conjunctions, the number of words with occurrence frequency 1, the number of words with occurrence frequency 10 or more were analyzed. Further experimental study requires testing of the proposed method in identifying keywords of texts of other categories: scientific humanitarian, artistic, journalistic, etc.Предложен формальный подход реализации определения автора текста. Исследование проводилось в украиноязычных научных текстах технического профиля. Проанализированы результаты применения разработанных алгоритмов автоматического определения автора текстового контента на основе методов NLP и стилементрии. Рассмотрены перспективы и особенности применения информационных технологий стилеметрии для определения автора текстового контента. Квантитативных контент-анализ текстового контента научно-технического направления использует преимущества контент-мониторинга и контент-анализа текста на основе методов NLP, Web-Mining и стилеметрии для определения множества авторов, слыл вещание которых сходны с исследуемым фрагментом текста. Это сужает круг поиска при дальнейшем использовании в методах стилеметрии для определения степени принадлежности анализируемого текста конкретном автору.Проведена декомпозиция метода определения автора на основе анализа таких коэффициентов речи как лексическая разнообразие, степень (мера) синтаксической сложности, связность речи, индексы исключительности и концентрации текста. Параллельно проанализированы такие параметры авторского стиля как количество слов в определенном тексте, общее количество слов этого текста, количество предложений, количество предлогов, количество союзов, количество слов с частотой 1, количество слов с частотой 10 и больше. Дальнейшего экспериментального исследования требует апробация предложенного метода для определения ключевых слов из других категорий текстов – научных гуманитарного профиля, художественных, публицистических и др.Запропоновано формальний підхід реалізації визначення автора україномовного тексту. Дослідження проводилось в україномовних наукових текстах технічного профілю. Проаналізовані результати застосування розроблених алгоритмів автоматичного визначення автора текстового контенту на основі методів NLP та стилеметрії. Розглянуто перспективи та особливості застосування інформаційних технологій стилеметрії для визначення автора текстового контенту. Квантитативний контент-аналіз текстового контенту науково-технічного спрямування використовує переваги контент-моніторингу та контент-аналізу тексту на основі методів NLP, Web-Mining та стилеметрії для визначення множини авторів, стилі мовлення яких подібні з досліджуваним уривком тексту. Це звужує коло пошуку при подальшому використанні в методах стилеметрії для визначення ступеня приналежності аналізованого тексту конкретному авторові.Проведено декомпозицію методу визначення автора на основі аналізу таких коефіцієнтів мовлення як лексична різноманітність, ступінь (міра) синтаксичної складності, зв’язність мовлення, індекси винятковості та концентрації тексту. Паралельно проаналізовані такі параметри авторського стилю як кількість слів у певному тексті, загальна кількість слів цього тексту, кількість речень, кількість прийменників, кількість сполучників, кількість слів із частотою 1, та кількість слів із частотою 10 та більше. Подальшого експериментального дослідження потребує апробація запропонованого методу для визначення ключових слів з інших категорій текстів – наукових гуманітарного профілю, художніх, публіцистичних тощ

    Similar works