83 research outputs found

    Розроблення квантитативного методу автоматичного визначення авторства текстового контенту на основі статистичного аналізу розподілу N-грам

    Get PDF
    The peculiarities of the application of linguo-statistics technologies for the identification of the style of the author of text content of scientific and technical profile are considered. Quantitative linguistic analysis of a text uses the benefits of content monitoring based on the NLP methods to identify and analyze the set of stop words, keywords, set phrases and to study N-gram. The latter are used in the linguometry methods to determine in per cent if the given text belongs to a particular author. The quantitative method for automatic text content authorship attribution was developed based on statistical analysis of the 3-gram distribution. The approach to the implementation of identification of the author of the text in the Ukrainian language of the scientific and technical profile was proposed. Experimental results of the proposed method to determine the belonging of the analyzed text to a specific author in the presence of the reference text were obtained. Application of the linguo-statistical analysis of the 3-grams to a set of articles will make it possible to form a subset of publications that are similar in linguistic descriptions. Imposing additional conditions in the form of statistical and quantitative analyses (a set of keywords, set expressions, stylometric, linguometric analyses, etc.) on a subset will allow a significant reduction of this subset by specifying the list of the most likely author. For qualitative and effective content analysis when determining the degree of authorship of a particular author, we propose to analyze the reference text and the one under consideration at several stages: linguometric analysis of the coefficients of the diversity of the author's speech, stylometric analysis, analysis of set expressions, linguo-statistical analysis of 3-grams. For automated text processing, not only the frequency of occurrence of a certain category, but also its existence in the studied text in general are important. Quantitative computation makes it possible to draw objective conclusions about the orientation of materials by the number of using the units of analysis in the studied texts. Qualitative analysis does the same, but as a result of the study of whether (and in what context) there is a certain important original category in generalРассмотрены особенности применения технологий лингвостатистикы для идентификации стилистики автора текстового контента научно-технического профиля. Квантитативных лингвистический анализ текста использует преимущества контент-мониторинга на основе методов NLP для определения и анализа множества стоповых слов, ключевых слов, устойчивых словосочетаний и исследования N-грамм. Последние используют в методах лингвометрии для определения принадлежности анализируемого текста конкретном автору в процентах. Разработан квантитативных метод автоматического определения авторства текстового контента на основе статистического анализа распределения 3-грамм. Предложен подход реализации определения автора русскоязычного текста научно-технического профиля. Получены экспериментальные результаты предложенного метода для определения принадлежности анализируемого текста конкретном автору при наличии эталонного авторского текста. Применение лингвостатистичного анализа 3-грамм множеству статей позволит сформировать подмножество подобных по лингвистическим характеристикам публикаций. Наложение на подмножество дополнительных условий в виде проведения статистических и квантитативных анализов (множества ключевых слов, устойчивых словосочетаний, стилеметричних, лигвометричного т.д.) позволит значительно сократить эту подмножество, уточнив список наиболее вероятных авторских работ. Для качественного и эффективного анализа контента при определении степени авторства конкретном автору предлагаем анализировать эталонного текста и исследуемого в несколько этапов: лингвометричний анализ коэффициентов многообразие авторской речи, стилометричний анализ, анализ устойчивых словосочетаний, лингвостатистичний анализ 3-грам. Для автоматизированной обработки текста имеет большое значение не только частота появления той или иной категории, а вообще присутствие в исследуемом тексте. Количественный подсчет позволяет сделать объективные выводы о направленности материалов по количеству употреблений единиц анализа в исследуемых текстах. Качественный анализ делает то же, но с позиции того, встречается ли вообще (и в каком контексте) определенная важная оригинальная категорияРозглянуто особливості застосування технологій лінгвостатистики для ідентифікації стилістики автора текстового контенту науково-технічного профілю. Квантитативний лінгвістичний аналіз тексту використовує переваги контент-моніторінгу на основі методів NLP для визначення та аналізу множини стопових слів, ключових слів, стійких словосполучень та дослідження N-грам. Останні використовують в методах лінгвометрії для визначення приналежності аналізованого тексту конкретному авторові у відсотках. Розроблено квантитативний метод автоматичного визначення авторства текстового контенту на основі статистичного аналізу розподілу 3-грам. Запропоновано підхід реалізації визначення автора україномовного тексту науково-технічного профілю. Отримано експериментальні результати запропонованого методу для визначення приналежності аналізованого тексту конкретному автору за наявності еталонного авторського тексту. Застосування лінгвостатистичного аналізу 3-грам до множини статей дозволить сформувати підмножину подібних за лінгвістичними характеристиками публікацій. Накладання на підмножину додаткових умов у вигляді проведення статистичних та квантитативних аналізів (множини ключових слів, стійких словосполучень, стилеметричного, лігвометричного тощо) дозволить значно скоротити цю підмножину, уточнивши список ймовірніших авторських робіт. Для якісного та ефективного аналізу контенту при визначенні ступеня авторства конкретному автору пропонуємо аналізувати еталонного тексту та досліджуваного в декілька етапів: лінгвометричний аналіз коефіцієнтів різноманіття авторського мовлення, стилометричний аналіз, аналіз стійких словосполучень, лінгвостатистичний аналіз 3-грам. Для автоматизованого опрацювання тексту має велике значення не тільки частота появи тієї чи іншої категорії, а взагалі присутність в досліджуваному тексті. Кількісний підрахунок дозволяє зробити об’єктивні висновки щодо спрямованості матеріалів за кількістю уживань одиниць аналізу в досліджуваних текстах. Якісний аналіз робить те саме, але внаслідок дослідження того, чи зустрічається (і в якому контексті) певна важлива оригінальна категорія взагал

    Розроблення квантитативного методу автоматичного визначення авторства текстового контенту на основі статистичного аналізу розподілу N-грам

    Get PDF
    The peculiarities of the application of linguo-statistics technologies for the identification of the style of the author of text content of scientific and technical profile are considered. Quantitative linguistic analysis of a text uses the benefits of content monitoring based on the NLP methods to identify and analyze the set of stop words, keywords, set phrases and to study N-gram. The latter are used in the linguometry methods to determine in per cent if the given text belongs to a particular author. The quantitative method for automatic text content authorship attribution was developed based on statistical analysis of the 3-gram distribution. The approach to the implementation of identification of the author of the text in the Ukrainian language of the scientific and technical profile was proposed. Experimental results of the proposed method to determine the belonging of the analyzed text to a specific author in the presence of the reference text were obtained. Application of the linguo-statistical analysis of the 3-grams to a set of articles will make it possible to form a subset of publications that are similar in linguistic descriptions. Imposing additional conditions in the form of statistical and quantitative analyses (a set of keywords, set expressions, stylometric, linguometric analyses, etc.) on a subset will allow a significant reduction of this subset by specifying the list of the most likely author. For qualitative and effective content analysis when determining the degree of authorship of a particular author, we propose to analyze the reference text and the one under consideration at several stages: linguometric analysis of the coefficients of the diversity of the author's speech, stylometric analysis, analysis of set expressions, linguo-statistical analysis of 3-grams. For automated text processing, not only the frequency of occurrence of a certain category, but also its existence in the studied text in general are important. Quantitative computation makes it possible to draw objective conclusions about the orientation of materials by the number of using the units of analysis in the studied texts. Qualitative analysis does the same, but as a result of the study of whether (and in what context) there is a certain important original category in generalРассмотрены особенности применения технологий лингвостатистикы для идентификации стилистики автора текстового контента научно-технического профиля. Квантитативных лингвистический анализ текста использует преимущества контент-мониторинга на основе методов NLP для определения и анализа множества стоповых слов, ключевых слов, устойчивых словосочетаний и исследования N-грамм. Последние используют в методах лингвометрии для определения принадлежности анализируемого текста конкретном автору в процентах. Разработан квантитативных метод автоматического определения авторства текстового контента на основе статистического анализа распределения 3-грамм. Предложен подход реализации определения автора русскоязычного текста научно-технического профиля. Получены экспериментальные результаты предложенного метода для определения принадлежности анализируемого текста конкретном автору при наличии эталонного авторского текста. Применение лингвостатистичного анализа 3-грамм множеству статей позволит сформировать подмножество подобных по лингвистическим характеристикам публикаций. Наложение на подмножество дополнительных условий в виде проведения статистических и квантитативных анализов (множества ключевых слов, устойчивых словосочетаний, стилеметричних, лигвометричного т.д.) позволит значительно сократить эту подмножество, уточнив список наиболее вероятных авторских работ. Для качественного и эффективного анализа контента при определении степени авторства конкретном автору предлагаем анализировать эталонного текста и исследуемого в несколько этапов: лингвометричний анализ коэффициентов многообразие авторской речи, стилометричний анализ, анализ устойчивых словосочетаний, лингвостатистичний анализ 3-грам. Для автоматизированной обработки текста имеет большое значение не только частота появления той или иной категории, а вообще присутствие в исследуемом тексте. Количественный подсчет позволяет сделать объективные выводы о направленности материалов по количеству употреблений единиц анализа в исследуемых текстах. Качественный анализ делает то же, но с позиции того, встречается ли вообще (и в каком контексте) определенная важная оригинальная категорияРозглянуто особливості застосування технологій лінгвостатистики для ідентифікації стилістики автора текстового контенту науково-технічного профілю. Квантитативний лінгвістичний аналіз тексту використовує переваги контент-моніторінгу на основі методів NLP для визначення та аналізу множини стопових слів, ключових слів, стійких словосполучень та дослідження N-грам. Останні використовують в методах лінгвометрії для визначення приналежності аналізованого тексту конкретному авторові у відсотках. Розроблено квантитативний метод автоматичного визначення авторства текстового контенту на основі статистичного аналізу розподілу 3-грам. Запропоновано підхід реалізації визначення автора україномовного тексту науково-технічного профілю. Отримано експериментальні результати запропонованого методу для визначення приналежності аналізованого тексту конкретному автору за наявності еталонного авторського тексту. Застосування лінгвостатистичного аналізу 3-грам до множини статей дозволить сформувати підмножину подібних за лінгвістичними характеристиками публікацій. Накладання на підмножину додаткових умов у вигляді проведення статистичних та квантитативних аналізів (множини ключових слів, стійких словосполучень, стилеметричного, лігвометричного тощо) дозволить значно скоротити цю підмножину, уточнивши список ймовірніших авторських робіт. Для якісного та ефективного аналізу контенту при визначенні ступеня авторства конкретному автору пропонуємо аналізувати еталонного тексту та досліджуваного в декілька етапів: лінгвометричний аналіз коефіцієнтів різноманіття авторського мовлення, стилометричний аналіз, аналіз стійких словосполучень, лінгвостатистичний аналіз 3-грам. Для автоматизованого опрацювання тексту має велике значення не тільки частота появи тієї чи іншої категорії, а взагалі присутність в досліджуваному тексті. Кількісний підрахунок дозволяє зробити об’єктивні висновки щодо спрямованості матеріалів за кількістю уживань одиниць аналізу в досліджуваних текстах. Якісний аналіз робить те саме, але внаслідок дослідження того, чи зустрічається (і в якому контексті) певна важлива оригінальна категорія взагал

    Modern trends in digital transformation of marketing & management

    Get PDF
    The monograph examines the current trends in the development of digital technologies in marketing, management and business administration. The prospects for the development of digital technologies in various sectors of the economy of Ukraine and the trends of the influence of digital technologies on global shifts in the systems of marketing management and business administration are determined. The transformations of business models in the conditions of the digital economy are analyzed, the impact of blockchain technologies on the development of promising areas of the marketing management system and business administration is analyzed. Reasonable impact of digital technologies on the transformation of management systems in social, public, legal and administrative spheres and various sectors of the economy. The contours of the formation of the digital economy in the sectors of economic activity and the social sphere have been developed

    Artificial Intelligence in Oncology Drug Discovery and Development

    Get PDF
    There exists a profound conflict at the heart of oncology drug development. The efficiency of the drug development process is falling, leading to higher costs per approved drug, at the same time personalised medicine is limiting the target market of each new medicine. Even as the global economic burden of cancer increases, the current paradigm in drug development is unsustainable. In this book, we discuss the development of techniques in machine learning for improving the efficiency of oncology drug development and delivering cost-effective precision treatment. We consider how to structure data for drug repurposing and target identification, how to improve clinical trials and how patients may view artificial intelligence

    AI ethics and higher education : good practice and guidance for educators, learners, and institutions

    Get PDF
    Artificial intelligence (AI) is exerting unprecedented pressure on the global higher educational landscape in transforming recruitment processes, subverting traditional pedagogy, and creating new research and institutional opportunities. These technologies require contextual and global ethical analysis so that they may be developed and deployed in higher education in just and responsible ways. To-date, these efforts have been largely focused on small parts of the educational environments leaving most of the world out of an essential contribution. This volume acts as a corrective to this and contributes to the building of competencies in ethics education and to broader, global debates about how AI will transform various facets of our lives, not the least of which is higher education

    Розроблення рекомендаційної системи на основі колаборативної фільтрації та Machine Learning з врахуванням особистих потреб користувача

    Get PDF
    The paper reports a study into recommendation algorithms and determination of their advantages and disadvantages. The method for developing recommendations based on collaborative filtering such as Content-Based Filtering (CBF), Collaborative Filtering (CF), and hybrid methods of Machine Learning (ML) has been improved. The paper describes the design principles and functional requirements to a recommendation system in the form of a Web application for choosing the content required by user using movies as an example. The research has focused on solving issues related to cold start and scalability within the method of collaborative filtering. To effectively address these tasks, we have used hybrid training methods. A hybrid recommendation system (HRS) has been practically implemented for providing relevant content recommendations using movies as an example, taking into consideration the user's personal preferences based on the constructed hybrid method. We have improved an algorithm for developing content recommendations based on the collaborative filtering and Machine Learning for the combined filtration of similarity indicators among users or goods. The hybrid algorithm receives initial information in a different form, normalizes it, and generates relevant recommendations based on a combination of CF and CBF methods. Machine Learning is capable of defining those factors that influence the selection of relevant films, which improves development of recommendations specific to the user. To solve these tasks, a new improved method has been proposed, underlying which, in contrast to existing systems of recommendations, are the hybrid methods and Machine Learning. Machine Learning data for the designed HRS were borrowed from MovieLens. We have analyzed methods for developing recommendations to the user; existing recommendation systems have been reviewed. Our experimental results demonstrate that the operational indicators for the proposed HRS, based on the technology of CF+CBF+ML, outperform those for two individual models, CF and CBF, and such their combinations as CF CBF, CF+ML, and CBF+ML. We recommend using HRS to collect data on people's preferences in selecting goods and to providing relevant recommendations.Проведено исследование рекомендательных алгоритмов и выявления преимуществ и недостатков. Усовершенствован метод формирования рекомендаций на основе колаборативной фильтрации как Content-Based Filtering (CBF), Collaborative Filtering (CF) и гибридных методов Machine Learning (ML). Описаны принципы проектирования и функциональные требования к рекомендательной системы в виде веб-приложения для выбора необходимого пользовательского контента на примере фильмов. Основные исследования сосредоточены на решении проблем холодного старта и масштабируемости в методе колаборативной фильтрации. Для эффективного решения этих проблем использованы гибридные методы обучения. Осуществлена практическая реализация гибридной рекомендательной системы (ГРС) предоставления релевантных рекомендаций контента на примере фильмов с учетом личных потребностей пользователя на основе разработанного гибридного метода. Усовершенствованый алгоритм формирования рекомендаций контента на основе колаборативних фильтрации и ML для совместной фильтрации показателей сходства между пользователями или между товарами. Гибридный алгоритм принимает входную информацию в разном виде, нормализует ее, и формирует соответствующие рекомендации на основе комбинации методов CF и CBF. Machine Learning способно определять факторы, влияющие на подбор релевантных фильмов, способствует улучшению предоставления рекомендаций конкретному пользователю. Для решения этих задач предлагается новый усовершенствованный метод обучения, в отличие от существующих систем рекомендаций, в основе которого лежат гибридные методы и Machine Learning. Данные для Machine Learning разработанной ГРС взяты с MovieLens. Проанализированы методы формирования рекомендаций пользователю, проведен осмотр имеющихся рекомендательных систем. Экспериментальные результаты показывают, что показатели работы предложенной ГРС на основе технологии CF+CBF+ML лучше, чем в двух единичных моделей, CF и CBF, и их комбинаций как CF+CBF, CF+ML и CBF+ML. ГРС рекомендуется использовать для сбора данных о предпочтениях людей в выборе товара и предоставления релевантных рекомендацийПроведено дослідження рекомендаційних алгоритмів та виявлення переваг та недоліків. Вдосконалено метод формування рекомендацій на основі колаборативної фільтрації як Content-Based Filtering (CBF), Collaborative Filtering (CF) та гібридних методів Machine Learning (ML). Описано принципи проектування та функціональні вимоги до рекомендаційної системи у вигляді веб-додатка для вибору необхідного для користувача контенту на прикладі фільмів. Основні дослідження зосереджені на вирішенні проблем холодного старту та масштабованості в методі колаборативної фільтрації. Для ефективного вирішення цих проблем, використані гібридні методи навчання. Здійснена практична реалізація гібридної рекомендаційної системи (ГРС) надання релевантних рекомендацій контенту на прикладі фільмів з врахуванням особистих потреб користувача на основі розробленого гібридного методу. Удосконалено алгоритм формування рекомендацій контенту на основі колаборативної фільтрації та Machine Learning для спільної фільтрації показників подібності між користувачами або між товарами. Гібридний алгоритм приймає вхідну інформацію у різному вигляді, нормалізує її та формує відповідні рекомендації на основі комбінації методів CF та CBF. Machine Learning здатне визначати чинники, що впливають на підбір релевантних фільмів, що сприяє поліпшенню надання рекомендацій конкретному користувачу. Для вирішення цих завдань пропонується новий удосконалений метод, на відміну від наявних систем рекомендацій, в основі якого лежать гібридні методи та Machine Learning. Дані для Machine Learning розробленої ГРС взято із MovieLens. Проаналізовано методи формування рекомендацій користувачеві, проведений огляд наявних рекомендаційних систем. Експериментальні результати показують, що показники роботи запропонованої ГРС на основі технології CF+CBF+ML кращі, ніж у двох одиничних моделей, CF та CBF, та їх комбінацій як CF+CBF, CF+ML та CBF+ML. ГРС рекомендується використовувати для збору даних про вподобання людей у виборі товару та надання релевантних рекомендаці

    Digital Interaction and Machine Intelligence

    Get PDF
    This book is open access, which means that you have free and unlimited access. This book presents the Proceedings of the 9th Machine Intelligence and Digital Interaction Conference. Significant progress in the development of artificial intelligence (AI) and its wider use in many interactive products are quickly transforming further areas of our life, which results in the emergence of various new social phenomena. Many countries have been making efforts to understand these phenomena and find answers on how to put the development of artificial intelligence on the right track to support the common good of people and societies. These attempts require interdisciplinary actions, covering not only science disciplines involved in the development of artificial intelligence and human-computer interaction but also close cooperation between researchers and practitioners. For this reason, the main goal of the MIDI conference held on 9-10.12.2021 as a virtual event is to integrate two, until recently, independent fields of research in computer science: broadly understood artificial intelligence and human-technology interaction

    The Palgrave Handbook of Digital Russia Studies

    Get PDF
    This open access handbook presents a multidisciplinary and multifaceted perspective on how the ‘digital’ is simultaneously changing Russia and the research methods scholars use to study Russia. It provides a critical update on how Russian society, politics, economy, and culture are reconfigured in the context of ubiquitous connectivity and accounts for the political and societal responses to digitalization. In addition, it answers practical and methodological questions in handling Russian data and a wide array of digital methods. The volume makes a timely intervention in our understanding of the changing field of Russian Studies and is an essential guide for scholars, advanced undergraduate and graduate students studying Russia today

    The Palgrave Handbook of Digital Russia Studies

    Get PDF
    This open access handbook presents a multidisciplinary and multifaceted perspective on how the ‘digital’ is simultaneously changing Russia and the research methods scholars use to study Russia. It provides a critical update on how Russian society, politics, economy, and culture are reconfigured in the context of ubiquitous connectivity and accounts for the political and societal responses to digitalization. In addition, it answers practical and methodological questions in handling Russian data and a wide array of digital methods. The volume makes a timely intervention in our understanding of the changing field of Russian Studies and is an essential guide for scholars, advanced undergraduate and graduate students studying Russia today
    corecore