11 research outputs found
Розроблення лінгвометричного методу автоматичного визначення автора текстового контенту на основі статистичного аналізу коефіцієнтів мовної різноманітності
We have developed the linguometric method for algorithmic support of content monitoring processes to solve the problem of the automatic identification of the author of the Ukrainian text content based on the technology of statistical analysis of the language diversity coefficients. The decomposition of the method for identification of the author based on the analysis of such speech factors as lexical diversity, degree (measure) of syntactic complexity, speech coherence, indexes of exclusivity and concentration of a text was performed. Such parameters of the author’s style as the number of words in the specified text, the total number of words in this text, the number of sentences, the number of prepositions, the number of conjunctions, the number of words with the frequency of 1, the number of words with the frequency of 10 and more were analyzed. The features of the developed methods are the adaptation of the morphological and syntactic analysis of lexical units to the peculiarities of the structures of Ukrainian words/texts. That is, when analyzing linguistic units of the word type, their belonging to a part of speech and declension within this part of speech was taken into account. For this, the flections of these words for their classification, separation of the base for the formation of the corresponding alphabetic-frequency dictionaries were analyzed. Filling these dictionaries was subsequently taken into consideration at the following stages of the identification of the authorship of a text, such as the calculation of parameters and coefficients of the author's speech. Syntactic words (stop or anchor) words are most essential for an individual style of an author, as they are not related to the subject and content of the publication. We compared the results in a set of 200 one-author papers in the technical area of more than 100 different authors over the period of 2001–2017 to determine if and how the coefficients of diversity of a text of these authors change within different periods of time. It was found that for the selected experimental base of more than 200 papers, the best results according to the density criterion are reached by the method for analysis of an article without the initial compulsory information, such as abstracts and keywords in different languages, as well as the list of literature.Разработано лингвометричний метод алгоритмического обеспечения процессов контент–мониторинга для решения задачи автоматического определения автора русскоязычного текстового контента на основе технологии статистического анализа коэффициентов языкового разнообразия. Проведения декомпозиции метода определения автора на основе анализа таких коэффициентов речи как лексическая разнообразие, степень (мера) синтаксической сложности, связность речи, индексы исключительности и концентрации текста. Проанализированы также параметры авторского стиля как количество слов в определенном тексте, общее количество слов этого текста, количество предложений, количество предлогов, количество союзов, количество слов с частотой 1, количество слов с частотой 10 и больше. Особенностями разработанного является адаптация морфологического и синтаксического анализа лексических единиц к особенностям конструкций украиноязычных слов / текстов. То есть при анализе лингвистических единиц типа слов, учитывалась их принадлежность к части речи и склонение в пределах этой части речи. Для этого проводился анализ флексий этих слов для их классификации, выделение основы для формирования соответствующих алфавитно–частотных словарей. Наполнение этих словарей в дальнейшем учитывались на следующих шагах определения авторства текста как расчет параметров и коэффициентов авторской речи. Для индивидуального стиля писателя показательны именно служебные (стоп или опорные) слова, поскольку они никак не связаны с темой и содержанием публикации. Проведено сравнение результатов на множестве 200 самостоятельных работ технического направления около 100 различных авторов период 2001–2017 гг. Для определения меняются и как коэффициенты разнообразия текста этих авторов в разные промежутки времени. Выявлено, что для выбранной экспериментальной базы из более 200 работ лучших результатов по критерию плотности достигает метод анализа статьи без начальной обязательной информации как аннотации и ключевые слова на разных языках, а также список литературыРозробленно лінгвометричний метод алгоритмічного забезпечення процесів контент-моніторінгу для розв’язання задачі автоматичного визначення автора україномовного текстового контенту на основі технології статистичного аналізу коефіцієнтів мовної різноманітності. Проведено декомпозицію методу визначення автора на основі аналізу таких коефіцієнтів мовлення як лексична різноманітність, ступінь (міра) синтаксичної складності, зв’язність мовлення, індекси винятковості та концентрації тексту. Проаналізовані також параметри авторського стилю як кількість слів у певному тексті, загальна кількість слів цього тексту, кількість речень, кількість прийменників, кількість сполучників, кількість слів із частотою 1, та кількість слів із частотою 10 та більше.Особливостями розробленого є адаптація морфологічного та синтаксичного аналізу лексичних одиниць до особливостей конструкцій україномовних слів/текстів. Тобто при аналізі лінгвістичних одиниць типу слів, враховувалась належність до частини мови та відмінювання в межах цієї частини мови. Для цього провадився аналіз флексій цих слів для класифікації, виділення основи для формування відповідних алфавітно-частотних словників. Наповнення цих словників в подальшому враховувалися на наступних кроках визначення авторства тексту як розрахунок параметрів та коефіцієнтів авторського мовлення. Для індивідуального стилю письменника показовими є саме службові (стопові або опорні) слова, оскільки вони ніяк не пов’язані з темою і змістом публікації.Проведено порівняння результатів на множині 200 одноосібних робіт технічного спрямування біля 100 різних авторів за період 2001–2017 рр. для визначення чи змінюються і як коефіцієнти різноманітності тексту цих авторів в різні проміжки часу. Виявлено, що для обраної експериментальної бази з понад 200 робіт найкращих результатів за критерієм щільності досягає метод аналізу статті без початкової обов’язкової інформації як анотації та ключові слова різними мовами, а також списку літератур
Розроблення лінгвометричного методу автоматичного визначення автора текстового контенту на основі статистичного аналізу коефіцієнтів мовної різноманітності
We have developed the linguometric method for algorithmic support of content monitoring processes to solve the problem of the automatic identification of the author of the Ukrainian text content based on the technology of statistical analysis of the language diversity coefficients. The decomposition of the method for identification of the author based on the analysis of such speech factors as lexical diversity, degree (measure) of syntactic complexity, speech coherence, indexes of exclusivity and concentration of a text was performed. Such parameters of the author’s style as the number of words in the specified text, the total number of words in this text, the number of sentences, the number of prepositions, the number of conjunctions, the number of words with the frequency of 1, the number of words with the frequency of 10 and more were analyzed. The features of the developed methods are the adaptation of the morphological and syntactic analysis of lexical units to the peculiarities of the structures of Ukrainian words/texts. That is, when analyzing linguistic units of the word type, their belonging to a part of speech and declension within this part of speech was taken into account. For this, the flections of these words for their classification, separation of the base for the formation of the corresponding alphabetic-frequency dictionaries were analyzed. Filling these dictionaries was subsequently taken into consideration at the following stages of the identification of the authorship of a text, such as the calculation of parameters and coefficients of the author's speech. Syntactic words (stop or anchor) words are most essential for an individual style of an author, as they are not related to the subject and content of the publication. We compared the results in a set of 200 one-author papers in the technical area of more than 100 different authors over the period of 2001–2017 to determine if and how the coefficients of diversity of a text of these authors change within different periods of time. It was found that for the selected experimental base of more than 200 papers, the best results according to the density criterion are reached by the method for analysis of an article without the initial compulsory information, such as abstracts and keywords in different languages, as well as the list of literature.Разработано лингвометричний метод алгоритмического обеспечения процессов контент–мониторинга для решения задачи автоматического определения автора русскоязычного текстового контента на основе технологии статистического анализа коэффициентов языкового разнообразия. Проведения декомпозиции метода определения автора на основе анализа таких коэффициентов речи как лексическая разнообразие, степень (мера) синтаксической сложности, связность речи, индексы исключительности и концентрации текста. Проанализированы также параметры авторского стиля как количество слов в определенном тексте, общее количество слов этого текста, количество предложений, количество предлогов, количество союзов, количество слов с частотой 1, количество слов с частотой 10 и больше. Особенностями разработанного является адаптация морфологического и синтаксического анализа лексических единиц к особенностям конструкций украиноязычных слов / текстов. То есть при анализе лингвистических единиц типа слов, учитывалась их принадлежность к части речи и склонение в пределах этой части речи. Для этого проводился анализ флексий этих слов для их классификации, выделение основы для формирования соответствующих алфавитно–частотных словарей. Наполнение этих словарей в дальнейшем учитывались на следующих шагах определения авторства текста как расчет параметров и коэффициентов авторской речи. Для индивидуального стиля писателя показательны именно служебные (стоп или опорные) слова, поскольку они никак не связаны с темой и содержанием публикации. Проведено сравнение результатов на множестве 200 самостоятельных работ технического направления около 100 различных авторов период 2001–2017 гг. Для определения меняются и как коэффициенты разнообразия текста этих авторов в разные промежутки времени. Выявлено, что для выбранной экспериментальной базы из более 200 работ лучших результатов по критерию плотности достигает метод анализа статьи без начальной обязательной информации как аннотации и ключевые слова на разных языках, а также список литературыРозробленно лінгвометричний метод алгоритмічного забезпечення процесів контент-моніторінгу для розв’язання задачі автоматичного визначення автора україномовного текстового контенту на основі технології статистичного аналізу коефіцієнтів мовної різноманітності. Проведено декомпозицію методу визначення автора на основі аналізу таких коефіцієнтів мовлення як лексична різноманітність, ступінь (міра) синтаксичної складності, зв’язність мовлення, індекси винятковості та концентрації тексту. Проаналізовані також параметри авторського стилю як кількість слів у певному тексті, загальна кількість слів цього тексту, кількість речень, кількість прийменників, кількість сполучників, кількість слів із частотою 1, та кількість слів із частотою 10 та більше.Особливостями розробленого є адаптація морфологічного та синтаксичного аналізу лексичних одиниць до особливостей конструкцій україномовних слів/текстів. Тобто при аналізі лінгвістичних одиниць типу слів, враховувалась належність до частини мови та відмінювання в межах цієї частини мови. Для цього провадився аналіз флексій цих слів для класифікації, виділення основи для формування відповідних алфавітно-частотних словників. Наповнення цих словників в подальшому враховувалися на наступних кроках визначення авторства тексту як розрахунок параметрів та коефіцієнтів авторського мовлення. Для індивідуального стилю письменника показовими є саме службові (стопові або опорні) слова, оскільки вони ніяк не пов’язані з темою і змістом публікації.Проведено порівняння результатів на множині 200 одноосібних робіт технічного спрямування біля 100 різних авторів за період 2001–2017 рр. для визначення чи змінюються і як коефіцієнти різноманітності тексту цих авторів в різні проміжки часу. Виявлено, що для обраної експериментальної бази з понад 200 робіт найкращих результатів за критерієм щільності досягає метод аналізу статті без початкової обов’язкової інформації як анотації та ключові слова різними мовами, а також списку літератур
Аналіз розробленого квантитативного методу автоматичного визначення автора україномовного текстового контенту науково-технічного спрямування
A formal approach was proposed to implement text content attribution. The study was conducted with Ukrainian scientific and technical texts. The results of application of the designed algorithms of automatic attribution of the text content based on the NLP and stylemetry methods were analyzed. Prospects and features of application of stylemetry information technologies for attribution of the text content were considered. Quantitative content analysis of scientific and technical text content takes advantage of content monitoring and text content analysis based on NLP, Web-Mining and stylemetry methods to identify the multitude of authors whose talking style is similar to that of the analyzed text fragment. This narrows the range of search for further use in the stylemetry methods to determine the degree of belonging of the analyzed text to a particular author.Decomposition of the attribution method was carried out based on analysis of such talking coefficients as lexical diversity, degree (measure) of syntactic complexity, talking coherence, indexes of exclusivity and concentration of the text. At the same time, author's style parameters such as the number of words in a certain text, the total number of words of this text, the number of sentences, the number of prepositions, the number of conjunctions, the number of words with occurrence frequency 1, the number of words with occurrence frequency 10 or more were analyzed. Further experimental study requires testing of the proposed method in identifying keywords of texts of other categories: scientific humanitarian, artistic, journalistic, etc.Предложен формальный подход реализации определения автора текста. Исследование проводилось в украиноязычных научных текстах технического профиля. Проанализированы результаты применения разработанных алгоритмов автоматического определения автора текстового контента на основе методов NLP и стилементрии. Рассмотрены перспективы и особенности применения информационных технологий стилеметрии для определения автора текстового контента. Квантитативных контент-анализ текстового контента научно-технического направления использует преимущества контент-мониторинга и контент-анализа текста на основе методов NLP, Web-Mining и стилеметрии для определения множества авторов, слыл вещание которых сходны с исследуемым фрагментом текста. Это сужает круг поиска при дальнейшем использовании в методах стилеметрии для определения степени принадлежности анализируемого текста конкретном автору.Проведена декомпозиция метода определения автора на основе анализа таких коэффициентов речи как лексическая разнообразие, степень (мера) синтаксической сложности, связность речи, индексы исключительности и концентрации текста. Параллельно проанализированы такие параметры авторского стиля как количество слов в определенном тексте, общее количество слов этого текста, количество предложений, количество предлогов, количество союзов, количество слов с частотой 1, количество слов с частотой 10 и больше. Дальнейшего экспериментального исследования требует апробация предложенного метода для определения ключевых слов из других категорий текстов – научных гуманитарного профиля, художественных, публицистических и др.Запропоновано формальний підхід реалізації визначення автора україномовного тексту. Дослідження проводилось в україномовних наукових текстах технічного профілю. Проаналізовані результати застосування розроблених алгоритмів автоматичного визначення автора текстового контенту на основі методів NLP та стилеметрії. Розглянуто перспективи та особливості застосування інформаційних технологій стилеметрії для визначення автора текстового контенту. Квантитативний контент-аналіз текстового контенту науково-технічного спрямування використовує переваги контент-моніторингу та контент-аналізу тексту на основі методів NLP, Web-Mining та стилеметрії для визначення множини авторів, стилі мовлення яких подібні з досліджуваним уривком тексту. Це звужує коло пошуку при подальшому використанні в методах стилеметрії для визначення ступеня приналежності аналізованого тексту конкретному авторові.Проведено декомпозицію методу визначення автора на основі аналізу таких коефіцієнтів мовлення як лексична різноманітність, ступінь (міра) синтаксичної складності, зв’язність мовлення, індекси винятковості та концентрації тексту. Паралельно проаналізовані такі параметри авторського стилю як кількість слів у певному тексті, загальна кількість слів цього тексту, кількість речень, кількість прийменників, кількість сполучників, кількість слів із частотою 1, та кількість слів із частотою 10 та більше. Подальшого експериментального дослідження потребує апробація запропонованого методу для визначення ключових слів з інших категорій текстів – наукових гуманітарного профілю, художніх, публіцистичних тощ
Аналіз розробленого квантитативного методу автоматичного визначення автора україномовного текстового контенту науково-технічного спрямування
A formal approach was proposed to implement text content attribution. The study was conducted with Ukrainian scientific and technical texts. The results of application of the designed algorithms of automatic attribution of the text content based on the NLP and stylemetry methods were analyzed. Prospects and features of application of stylemetry information technologies for attribution of the text content were considered. Quantitative content analysis of scientific and technical text content takes advantage of content monitoring and text content analysis based on NLP, Web-Mining and stylemetry methods to identify the multitude of authors whose talking style is similar to that of the analyzed text fragment. This narrows the range of search for further use in the stylemetry methods to determine the degree of belonging of the analyzed text to a particular author.Decomposition of the attribution method was carried out based on analysis of such talking coefficients as lexical diversity, degree (measure) of syntactic complexity, talking coherence, indexes of exclusivity and concentration of the text. At the same time, author's style parameters such as the number of words in a certain text, the total number of words of this text, the number of sentences, the number of prepositions, the number of conjunctions, the number of words with occurrence frequency 1, the number of words with occurrence frequency 10 or more were analyzed. Further experimental study requires testing of the proposed method in identifying keywords of texts of other categories: scientific humanitarian, artistic, journalistic, etc.Предложен формальный подход реализации определения автора текста. Исследование проводилось в украиноязычных научных текстах технического профиля. Проанализированы результаты применения разработанных алгоритмов автоматического определения автора текстового контента на основе методов NLP и стилементрии. Рассмотрены перспективы и особенности применения информационных технологий стилеметрии для определения автора текстового контента. Квантитативных контент-анализ текстового контента научно-технического направления использует преимущества контент-мониторинга и контент-анализа текста на основе методов NLP, Web-Mining и стилеметрии для определения множества авторов, слыл вещание которых сходны с исследуемым фрагментом текста. Это сужает круг поиска при дальнейшем использовании в методах стилеметрии для определения степени принадлежности анализируемого текста конкретном автору.Проведена декомпозиция метода определения автора на основе анализа таких коэффициентов речи как лексическая разнообразие, степень (мера) синтаксической сложности, связность речи, индексы исключительности и концентрации текста. Параллельно проанализированы такие параметры авторского стиля как количество слов в определенном тексте, общее количество слов этого текста, количество предложений, количество предлогов, количество союзов, количество слов с частотой 1, количество слов с частотой 10 и больше. Дальнейшего экспериментального исследования требует апробация предложенного метода для определения ключевых слов из других категорий текстов – научных гуманитарного профиля, художественных, публицистических и др.Запропоновано формальний підхід реалізації визначення автора україномовного тексту. Дослідження проводилось в україномовних наукових текстах технічного профілю. Проаналізовані результати застосування розроблених алгоритмів автоматичного визначення автора текстового контенту на основі методів NLP та стилеметрії. Розглянуто перспективи та особливості застосування інформаційних технологій стилеметрії для визначення автора текстового контенту. Квантитативний контент-аналіз текстового контенту науково-технічного спрямування використовує переваги контент-моніторингу та контент-аналізу тексту на основі методів NLP, Web-Mining та стилеметрії для визначення множини авторів, стилі мовлення яких подібні з досліджуваним уривком тексту. Це звужує коло пошуку при подальшому використанні в методах стилеметрії для визначення ступеня приналежності аналізованого тексту конкретному авторові.Проведено декомпозицію методу визначення автора на основі аналізу таких коефіцієнтів мовлення як лексична різноманітність, ступінь (міра) синтаксичної складності, зв’язність мовлення, індекси винятковості та концентрації тексту. Паралельно проаналізовані такі параметри авторського стилю як кількість слів у певному тексті, загальна кількість слів цього тексту, кількість речень, кількість прийменників, кількість сполучників, кількість слів із частотою 1, та кількість слів із частотою 10 та більше. Подальшого експериментального дослідження потребує апробація запропонованого методу для визначення ключових слів з інших категорій текстів – наукових гуманітарного профілю, художніх, публіцистичних тощ
Modes and Measures of Business Support During Wartime: The Case of the Carpathian Region of Ukraine
This article reveals the geographical distribution, structures, and problematic aspects of business migration to the oblasts of the Carpathian region of Ukraine and abroad. In the context of the Russian–Ukrainian war, the article assesses the risks and threats that internal and international business migration pose to the Ukrainian economic system, economies of the Carpathian region, the internal consumer market, and business entities. Measures to mitigate the threats of business migration to the Carpathian region are offered. The implementation of certain measures will eliminate the identified threats to relocated businesses and minimise the risks to the social and economic development of the Carpathian region and Ukraine as a whole
Розроблення архітектури інтелектуальної системи поширення комерційного контенту в інтернет-прострі на основі SEO-технологій, нейронних мереж та Machine Learning
We have considered a task on designing an intelligent system of commercial distribution of informational products using a personalized approach to visitors based on the categories and tags of content that interests visitors. A general standard architecture of appropriate system has been developed using methods and personalization tools in the Internet environment with a core of automated recommendation of tags (categories) in the form of a neural network with controlled training. A personalized approach to the web site user results in a higher rate of sales. The system that was developed on the basis of modern SEO technologies considering the metrics for assessing the operation of an information and search module in the system makes it possible to select relevant content according to the user's personalized interests. The system has classes and subclasses that include real commercial informational products, interrelated by the built logical links, whose application promotes the intelligent supply of content based on the personalization of needs and interests of the user. In addition, based on modern methods of Machine Learning, the designed system learns to refine the results from searching the content in demand according to the personalized user's preferences. Personalization algorithms make it possible to associate each user with a list of products that are most likely to be of interest, and can predict what customers may want to see even if they are not aware of it yet. The aim of the intelligent system of e-commerce is to represent unique content based on the personalization approach and the use of tags. In addition to a standard text introduction of categories and tags based on images and product descriptions, the designed automation process defines tags and product categories. Recognition of context using deep neural networks now provides a technology for automated addition of tags to the description of goods at e-commerce web sites. The methods can be used to categorize facial expressions and recognize emotionsРассмотрена проблема проектирования интеллектуальной системы коммерческого распространения информационных продуктов с применением персонализированного подхода к посетителям на основе категорий и тегов интересного посетителям контента. Разработана общая типовая архитектура соответствующей системы с использованием методов и средств персонализации в Интернет-среде с ядром автоматического рекомендации тегов (категорий) в виде нейросети с контролируемым обучением. Персонализированный подход к пользователю сайта приводит к более высокого коэффициента продаж. Разработана система на основе современных методов SEO-технологий с учетом метрик оценки работы информационно-поискового модуля системы позволяет подбирать релевантный контент согласно интересов персонализированного пользователя. Система обладает классами и подклассами, к которым относятся реальные коммерческие информационные продукты, между которыми построены логические связи с помощью которых происходит интеллектуальная подача контента на основе персонализации потребностей и интересов пользователя. Также на основе современных методов Machine Learning разработана система учится уточнять результаты поиска востребованного контента согласно персонализации предпочтений пользователя. Алгоритмы персонализации позволяют связать каждого пользователя со списком продуктов, которые вероятнее всего его заинтересуют, а также могут прогнозировать то, что клиенты могут хотеть видеть, даже если еще не знают об этом. Целью интеллектуальной системы электронной коммерции является подача уникального контента на основе подхода персонализации и использование тегов. Кроме обычного текстового ввода категорий и тегов на основе изображений и описания продукта, разработанный процесс автоматизации определения тегов и категорий товара. Распознавания контекста с помощью глубоких нейронных сетей теперь обеспечивает технологию автоматического добавления тегов в описания товара сайтов электронной коммерции. Методы можно использовать для классификации мимики и распознавания эмоцийРозглянута проблема проектування інтелектуальної системи комерційного поширення інформаційних продуктів із застосуванням персоналізованого підходу до відвідувачів на основі категорій та тегів цікавого відвідувачам контенту. Розроблена загальна типова архітектура відповідної системи з використанням методів та засобів персоналізації в Інтернет-середовищі із ядром автоматичного рекомендування тегів (категорій) у вигляді нейромережі з контрольованим навчанням. Персоналізований підхід до користувача сайту призводить до більш високого коефіцієнта продаж. Розроблена система на основі сучасних методів SEO-технологій з врахування метрик оцінювання роботи інформаційно-пошукового модуля системи дозволяє підбирати релевантний контент згідно інтересів персоналізованого користувача. Система володіє класами та підкласами, до яких належать реальні комерційні інформаційні продукти, між якими побудовані логічні зв`язки, за допомогою яких відбувається інтелектуальна подача контенту на основі персоналізації потреб та зацікавлень користувача. Також на основі сучасних методів Machine Learning розроблена система навчається уточнювати результати пошуку затребуваного контенту згідно персоналізації вподобань користувача. Алгоритми персоналізації дозволяють пов’язати кожного користувача з списком продуктів, які найімовірніше його зацікавлять, а також можуть прогнозувати те, що клієнти можуть хотіти бачити, навіть якщо ще не знають про це. Метою інтелектуальної системи е-комерції є подача унікального контенту на основі підходу персоналізації та використання тегів. Окрім звичайного текстового введення категорій та тегів на основі зображень та опису продукту, розроблений процес автоматизації визначення тегів та категорій товару. Розпізнавання контексту за допомогою глибоких нейронних мереж тепер забезпечує технологію автоматичного додавання тегів в описи товару сайтів е-комерції. Методи можна використовувати для класифікації міміки і розпізнання емоці
Розроблення архітектури інтелектуальної системи поширення комерційного контенту в інтернет-прострі на основі SEO-технологій, нейронних мереж та Machine Learning
We have considered a task on designing an intelligent system of commercial distribution of informational products using a personalized approach to visitors based on the categories and tags of content that interests visitors. A general standard architecture of appropriate system has been developed using methods and personalization tools in the Internet environment with a core of automated recommendation of tags (categories) in the form of a neural network with controlled training. A personalized approach to the web site user results in a higher rate of sales. The system that was developed on the basis of modern SEO technologies considering the metrics for assessing the operation of an information and search module in the system makes it possible to select relevant content according to the user's personalized interests. The system has classes and subclasses that include real commercial informational products, interrelated by the built logical links, whose application promotes the intelligent supply of content based on the personalization of needs and interests of the user. In addition, based on modern methods of Machine Learning, the designed system learns to refine the results from searching the content in demand according to the personalized user's preferences. Personalization algorithms make it possible to associate each user with a list of products that are most likely to be of interest, and can predict what customers may want to see even if they are not aware of it yet. The aim of the intelligent system of e-commerce is to represent unique content based on the personalization approach and the use of tags. In addition to a standard text introduction of categories and tags based on images and product descriptions, the designed automation process defines tags and product categories. Recognition of context using deep neural networks now provides a technology for automated addition of tags to the description of goods at e-commerce web sites. The methods can be used to categorize facial expressions and recognize emotionsРассмотрена проблема проектирования интеллектуальной системы коммерческого распространения информационных продуктов с применением персонализированного подхода к посетителям на основе категорий и тегов интересного посетителям контента. Разработана общая типовая архитектура соответствующей системы с использованием методов и средств персонализации в Интернет-среде с ядром автоматического рекомендации тегов (категорий) в виде нейросети с контролируемым обучением. Персонализированный подход к пользователю сайта приводит к более высокого коэффициента продаж. Разработана система на основе современных методов SEO-технологий с учетом метрик оценки работы информационно-поискового модуля системы позволяет подбирать релевантный контент согласно интересов персонализированного пользователя. Система обладает классами и подклассами, к которым относятся реальные коммерческие информационные продукты, между которыми построены логические связи с помощью которых происходит интеллектуальная подача контента на основе персонализации потребностей и интересов пользователя. Также на основе современных методов Machine Learning разработана система учится уточнять результаты поиска востребованного контента согласно персонализации предпочтений пользователя. Алгоритмы персонализации позволяют связать каждого пользователя со списком продуктов, которые вероятнее всего его заинтересуют, а также могут прогнозировать то, что клиенты могут хотеть видеть, даже если еще не знают об этом. Целью интеллектуальной системы электронной коммерции является подача уникального контента на основе подхода персонализации и использование тегов. Кроме обычного текстового ввода категорий и тегов на основе изображений и описания продукта, разработанный процесс автоматизации определения тегов и категорий товара. Распознавания контекста с помощью глубоких нейронных сетей теперь обеспечивает технологию автоматического добавления тегов в описания товара сайтов электронной коммерции. Методы можно использовать для классификации мимики и распознавания эмоцийРозглянута проблема проектування інтелектуальної системи комерційного поширення інформаційних продуктів із застосуванням персоналізованого підходу до відвідувачів на основі категорій та тегів цікавого відвідувачам контенту. Розроблена загальна типова архітектура відповідної системи з використанням методів та засобів персоналізації в Інтернет-середовищі із ядром автоматичного рекомендування тегів (категорій) у вигляді нейромережі з контрольованим навчанням. Персоналізований підхід до користувача сайту призводить до більш високого коефіцієнта продаж. Розроблена система на основі сучасних методів SEO-технологій з врахування метрик оцінювання роботи інформаційно-пошукового модуля системи дозволяє підбирати релевантний контент згідно інтересів персоналізованого користувача. Система володіє класами та підкласами, до яких належать реальні комерційні інформаційні продукти, між якими побудовані логічні зв`язки, за допомогою яких відбувається інтелектуальна подача контенту на основі персоналізації потреб та зацікавлень користувача. Також на основі сучасних методів Machine Learning розроблена система навчається уточнювати результати пошуку затребуваного контенту згідно персоналізації вподобань користувача. Алгоритми персоналізації дозволяють пов’язати кожного користувача з списком продуктів, які найімовірніше його зацікавлять, а також можуть прогнозувати те, що клієнти можуть хотіти бачити, навіть якщо ще не знають про це. Метою інтелектуальної системи е-комерції є подача унікального контенту на основі підходу персоналізації та використання тегів. Окрім звичайного текстового введення категорій та тегів на основі зображень та опису продукту, розроблений процес автоматизації визначення тегів та категорій товару. Розпізнавання контексту за допомогою глибоких нейронних мереж тепер забезпечує технологію автоматичного додавання тегів в описи товару сайтів е-комерції. Методи можна використовувати для класифікації міміки і розпізнання емоці
Development of the Linguometric Method for Automatic Identification of the Author of Text Content Based on Statistical Analysis of Language Diversity Coefficients
We have developed the linguometric method for algorithmic support of content monitoring processes to solve the problem of the automatic identification of the author of the Ukrainian text content based on the technology of statistical analysis of the language diversity coefficients. The decomposition of the method for identification of the author based on the analysis of such speech factors as lexical diversity, degree (measure) of syntactic complexity, speech coherence, indexes of exclusivity and concentration of a text was performed. Such parameters of the author's style as the number of words in the specified text, the total number of words in this text, the number of sentences, the number of prepositions, the number of conjunctions, the number of words with the frequency of 1, the number of words with the frequency of 10 and more were analyzed. The features of the developed methods are the adaptation of the morphological and syntactic analysis of lexical units to the peculiarities of the structures of Ukrainian words/texts. That is, when analyzing linguistic units of the word type, their belonging to a part of speech and declension within this part of speech was taken into account. For this, the flections of these words for their classification, separation of the base for the formation of the corresponding alphabetic-frequency dictionaries were analyzed. Filling these dictionaries was subsequently taken into consideration at the following stages of the identification of the authorship of a text, such as the calculation of parameters and coefficients of the author's speech. Syntactic words (stop or anchor) words are most essential for an individual style of an author, as they are not related to the subject and content of the publication. We compared the results in a set of 200 one-author papers in the technical area of more than 100 different authors over the period of 2001–2017 to determine if and how the coefficients of diversity of a text of these authors change within different periods of time. It was found that for the selected experimental base of more than 200 papers, the best results according to the density criterion are reached by the method for analysis of an article without the initial compulsory information, such as abstracts and keywords in different languages, as well as the list of literature
Design of the Architecture of an Intelligent System for Distributing Commercial Content in the Internet Space Based on SEO-technologies, Neural Networks, and Machine Learning
We have considered a task on designing an intelligent system of commercial distribution of informational products using a personalized approach to visitors based on the categories and tags of content that interests visitors. A general standard architecture of appropriate system has been developed using methods and personalization tools in the Internet environment with a core of automated recommendation of tags (categories) in the form of a neural network with controlled training. A personalized approach to the web site user results in a higher rate of sales. The system that was developed on the basis of modern SEO technologies considering the metrics for assessing the operation of an information and search module in the system makes it possible to select relevant content according to the user's personalized interests. The system has classes and subclasses that include real commercial informational products, interrelated by the built logical links, whose application promotes the intelligent supply of content based on the personalization of needs and interests of the user. In addition, based on modern methods of Machine Learning, the designed system learns to refine the results from searching the content in demand according to the personalized user's preferences. Personalization algorithms make it possible to associate each user with a list of products that are most likely to be of interest, and can predict what customers may want to see even if they are not aware of it yet. The aim of the intelligent system of e-commerce is to represent unique content based on the personalization approach and the use of tags. In addition to a standard text introduction of categories and tags based on images and product descriptions, the designed automation process defines tags and product categories. Recognition of context using deep neural networks now provides a technology for automated addition of tags to the description of goods at e-commerce web sites. The methods can be used to categorize facial expressions and recognize emotion
Analysis of the Developed Quantitative Method for Automatic Attribution of Scientific and Technical Text Content Written in Ukrainian
A formal approach was proposed to implement text content attribution. The study was conducted with Ukrainian scientific and technical texts. The results of application of the designed algorithms of automatic attribution of the text content based on the NLP and stylemetry methods were analyzed. Prospects and features of application of stylemetry information technologies for attribution of the text content were considered. Quantitative content analysis of scientific and technical text content takes advantage of content monitoring and text content analysis based on NLP, Web-Mining and stylemetry methods to identify the multitude of authors whose talking style is similar to that of the analyzed text fragment. This narrows the range of search for further use in the stylemetry methods to determine the degree of belonging of the analyzed text to a particular author.Decomposition of the attribution method was carried out based on analysis of such talking coefficients as lexical diversity, degree (measure) of syntactic complexity, talking coherence, indexes of exclusivity and concentration of the text. At the same time, author's style parameters such as the number of words in a certain text, the total number of words of this text, the number of sentences, the number of prepositions, the number of conjunctions, the number of words with occurrence frequency 1, the number of words with occurrence frequency 10 or more were analyzed. Further experimental study requires testing of the proposed method in identifying keywords of texts of other categories: scientific humanitarian, artistic, journalistic, etc