369 research outputs found

    Виявлення form-ботiв iз використанням методiв машинного навчання

    Get PDF
    У данiй роботi розглядається метод виявлення ботiв, які виконують автоматичне заповнення i вiдправку веб-форм, що базується на використаннi методiв машинного навчання

    ИССЛЕДОВАНИЕ ТОЧНОСТИ МЕТОДА ГРАДИЕНТНОГО БУСТИНГА СО СЛУЧАЙНЫМИ ПОВОРОТАМИ

    Get PDF
    Gradient boosting method with random rotations is considered, where before training each base learner random rotation is applied to the feature space. The accuracy metric of the given method is estimated for a broad range of generated problems of binary classification. Obtained results are evaluated and recommendations given for application of this method.В статье рассматривается метод градиентного бустинга с осуществлением случайных поворотов признакового пространства на каждом шаге обучения алгоритма. Исследуется качество данного метода на различных модельных задачах бинарной классификации. Полученные результаты анализируются и даются рекомендации по применению указанного метода

    Методи класифікації шкідливих електронних листів на прикладі імпосторів

    Get PDF
    Обсяг роботи 72 сторінки, 19 ілюстрацій, 4 таблиці, 1 додаток, 16 джерел літератури. У роботі проведено аналіз різних методів машинного навчання та результатів роботи моделей у залежності від виду попередньої обробки тексту та вхідних датасетів (зі справжіми електронними листами та з додаванням синтетично згенерованих електронних листів; виявлено найбільш оптимальний метод класифікації Business Email Compromise (BEC) листів. Метою даної роботи є знаходження та реалізація найкращого методу ідентифікації шкідивих електронних листів класу «імпостор». Об'єктом дослідження даної роботи є шкідливі електронні листи. Предметом дослідження даної роботи є методи класифікації шкідливих електронних листів класу «імпостор».Work summary 72 pages, 19 illustrations, 4 tables, 1 appendice, 16 sources of literature. The work analyzes different methods of machine learning depending on the type of preprocessing of text and input datasets (with real emails and with the addition of synthetically generated e-mails; the most optimal method of classification of Business E-mail Compromise (BEC) e-mails is identified. The purpose of this work is to find and implement the best method of identifying malicious impostor e-mails. The object of research of this work is malicious e-mails. The subject of research of this work is methods of classification of malicious impostor e-mails

    Напівкерований граничний бустинг

    Get PDF
    Дипломна робота: 92 сторінки, 33 рисунки, 13 таблиць, 1 додаток, 17 джерел. Об’єкт дослідження – напівкерований граничний бустинг. Під час створення систем підтримки прийняття рішень, нейронних мереж та інших систем машинного навчання, виникає проблема збору та правильної класифікації тренувальних даних. Залежно від типу даних, процес класифікації може бути складним, повільним або вартісним. Наприклад, класифікація медичних знімків вимагає глибокої медичної експертизи і значних ресурсів часу. Існує ризик помилкової класифікації, що вносить шум у тренувальні дані. З метою вирішення цих викликів, були розроблені алгоритми напів- керованого навчання, що потребують меншого обсягу відмічених даних та здатні використовувати невідмічені дані. Одним з таких алгоритмів є напівкерований граничний бустинг, який дозволяє покращувати точність моделі бінарної класифікації через ітеративне навчання, використовуючи відмічені та невідмічені дані. Це дозволяє зекономити на попередній класифікації навчальних даних, не втрачаючи при цьому якості моделі. Мета роботи – розробити покращення існуючих підходів до реалізації алгоритму напівкерованого граничного бустингу. Практичне значення роботи полягає в отриманні високоефективного алгоритму для класифікації даних при невеликій кількості міток.Bachelor thesis: 92 pages, 33 figures, 13 tables, 1 appendix, 17 sources. The object of research is an algorithm of semi-supervised MarginBoost. When creating decision support systems, neural networks, and other machine learning systems, the problem of collecting and correctly classifying training data arises. Depending on the type of data, the classification process can be complex, slow, or costly. For example, classifying medical images requires in-depth medical expertise and significant time resources. There is a risk of misclassification, which introduces noise into the training data. In order to address these challenges, semi-supervised learning algorithms have been developed that require less labeled data and are able to utilize unlabeled data. One of these algorithms is Semi-Supervised MarginBoost, which improves the accuracy of a binary classification model through iterative learning using both labeled and unlabeled data. This allows to save on pre-classification of training data without losing the model performance. The aim of the work is to develop an improvement of existing approaches to the implementation of the semi-supervised margin boosting algorithm. The practical significance of this work is to obtain a highly efficient algorithm for data classification with a small number of labels

    Использование градиентного бустинга над решающими деревьями для прогнозирования временных рядов

    Get PDF
    В данной статье рассматривается применение градиентного бустинга для решения задачи прогнозирования временных рядов. Приводится краткое описание модели машинного обучения, а также сравнение со статистическими моделями, решающими аналогичную задачу

    Технологии комплексного интеллектуального анализа клинических данных

    Get PDF
    The paper presents the system for intelligent analysis of clinical information. Authors describe methods implemented in the system for clinical information retrieval, intelligent diagnostics of chronic diseases, patient’s features importance and for detection of hidden dependencies between features. Results of the experimental evaluation of these methods are also presented.Background: Healthcare facilities generate a large flow of both structured and unstructured data which contain important information about patients. Test results are usually retained as structured data but some data is retained in the form of natural language texts (medical history, the results of physical examination, and the results of other examinations, such as ultrasound, ECG or X-ray studies). Many tasks arising in clinical practice can be automated applying methods for intelligent analysis of accumulated structured array and unstructured data that leads to improvement of the healthcare quality.Aims: the creation of the complex system for intelligent data analysis in the multi-disciplinary pediatric center.Materials and methods: Authors propose methods for information extraction from clinical texts in Russian. The methods are carried out on the basis of deep linguistic analysis. They retrieve terms of diseases, symptoms, areas of the body and drugs. The methods can recognize additional attributes such as «negation» (indicates that the disease is absent), «no patient» (indicates that the disease refers to the patient’s family member, but not to the patient), «severity of illness», «disease course», «body region to which the disease refers». Authors use a set of hand-drawn templates and various techniques based on machine learning to retrieve information using a medical thesaurus. The extracted information is used to solve the problem of automatic diagnosis of chronic diseases. A machine learning method for classification of patients with similar nosology and the method for determining the most informative patients’ features are also proposed.Results: Authors have processed anonymized health records from the pediatric center to estimate the proposed methods. The results show the applicability of the information extracted from the texts for solving practical problems. The records of patients with allergic, glomerular and rheumatic diseases were used for experimental assessment of the method of automatic diagnostic. Authors have also determined the most appropriate machine learning methods for classification of patients for each group of diseases, as well as the most informative disease signs. It has been found that using additional information extracted from clinical texts, together with structured data helps to improve the quality of diagnosis of chronic diseases. Authors have also obtained pattern combinations of signs of diseases.Conclusions: The proposed methods have been implemented in the intelligent data processing system for a multidisciplinary pediatric center. The experimental results show the availability of the system to improve the quality of pediatric healthcare. Обоснование. Медицинские учреждения генерируют большой поток как структурированных, так и неструктурированных данных, содержащих важную информацию о пациентах. В структурированном виде, как правило, хранятся результаты анализов, однако подавляющее количество данных хранится в неструктурированной форме в виде текстов на естественном языке (анамнезы, результаты осмотров, описания результатов обследований, таких как УЗИ, ЭКГ, рентгеновских исследований и др.). Используя методы интеллектуальной обработки накопленных массивов структурированных и неструктурированных данных, можно автоматизировать решение многих задач, возникающих в клинической практике и повысить качество медицинской помощи.Цель исследования: создание комплексной системы интеллектуальной обработки данных в многопрофильном педиатрическом центре.Методы. Извлечение информации из клинических текстов на русском языке осуществляется на основе полного лингвистического анализа. Извлекаются упоминания заболеваний, симптомов, областей тела, лекарственных препаратов. В тексте также распознаются атрибуты заболеваний: «отрицание» (указывает на то, что заболевание отсутствует), «не пациент» (указывает на то, что заболевание относится не к пациенту, а к его родственнику), «тяжесть заболевания», «течение заболевания», «область тела, к которой относится заболевание». Для извлечения информации используются медицинские тезаурусы, набор вручную составленных шаблонов, а также различные методы на основе машинного обучения. Полученные из текстов данные используются для решения задачи автоматической диагностики хронических заболеваний. Предложен метод на основе машинного обучения для классификации пациентов со схожими нозологиями, а также метод для определения наиболее информативных признаков.Результаты. Экспериментальное исследование разработанных методов проводилось на обезличенных историях болезни пациентов педиатрического центра. Проведена оценка качества разработанных методов извлечения информации из клинических текстов на русском языке. Проведена экспериментальная оценка метода автоматической диагностики на данных пациентов с аллергическими заболеваниями и болезными органов дыхания, нефрологическими и ревматическими заболеваниями. Определены наиболее подходящие методы машинного обучения для классификации пациентов для каждой группы заболеваний, а также наиболее информативные признаки. Использование данных, извлеченных из клинических текстов совместно со структурированными данными, позволило повысить качество диагностики хронических заболеваний по сравнению с использованием лишь доступных структурированных данных. Получены также шаблонные комбинации признаков заболеваний.Заключение. Разработанные методы были реализованы в системе интеллектуальной обработки данных в многопрофильном педиатрическом центре. Проведенные исследования свидетельствуют о перспективности использования системы для повышения качества медицинской помощи пациентам детской возрастной категории

    Інтелектуальна система багатокласової класифікації на основі регуляризованого бустінгу

    Get PDF
    Дипломнa робота: 96 сторінки, 12 рисунки, 6 таблиць, 1 додаток, 26 джерела. Метою даної дипломної роботи є розробка та реалізація інтелектуальної системи багатокласової класифікації на основі регуляризованого бустінгу. Робота спрямована на вивчення та вдосконалення методів класифікації для вирішення складних завдань, де необхідно розподілити об'єкти на багато класів. Актуальність теми - багатокласова класифікація є важливим завданням у сфері машинного навчання та аналізу даних. Зростання обсягів даних та складність проблем, що потребують розподілу об'єктів на багато класів, створюють потребу у розробці нових ефективних методів класифікації. Регуляризований бустінг є одним з потужних інструментів, який дозволяє досягти високої точності та здатності до узагальнення. Об'єкт дослідження: Об'єктом дослідження є інтелектуальна система багатокласової класифікації. Предмет дослідження: Предметом дослідження є регуляризований бустінг та його застосування в контексті багатокласової класифікації. В роботі розроблено програмний продукт на мові програмування Python.Bachelor's thesis: 96 pages, 12 figures, 6 tables, 1 appendix, 26 references. The aim of this bachelor's thesis is to develop and implement an intelligent system for multiclass classification based on regularized boosting. The work is focused on studying and improving classification methods for solving complex tasks that involve assigning objects to multiple classes. The relevance of the topic lies in the fact that multiclass classification is an important task in the field of machine learning and data analysis. The increasing volume of data and the complexity of problems requiring the allocation of objects to multiple classes create a need for the development of new effective classification methods. Regularized boosting is one powerful tool that enables achieving high accuracy and generalization capability. The object of the research is the intelligent system for multiclass classification. The subject of the research is the regularized boosting and its application in the context of multiclass classification. The software product has been developed in the Python programming language

    Статистическая классификация эритроцитов при наследственном сфероцитозе на основе спектральных признаков АСМ-изображений поверхностей клеток

    Get PDF
    The method of classification of erythrocytes (red blood cells) based on spectral features of the cell surface images (of physical-mechanical properties maps) obtained with an atomic-force microscope (AFM) is proposed. Each scan line of the original AFM image is considered as a random sequence realization and the discrete Fourier transform is applied to compute its spectral features. The spectral estimates are smoothed on the map and the informative characteristics are computed as the medians of the spectrogram values for each frequency. The classification or two classes of erythrocytes (spherocytes and discocytes) taken from patients with hereditary spherocytosis was carried out by the obtained informative characteristics using the decision trees and boosted decision trees methods. The frequency interval was found with the best classification accuracy – over 82 % for the boosted decision trees method.Предложен метод классификации эритроцитов по спектральным признакам изображений (микромасштабных карт физико-механических свойств), полученных сканированием поверхностей клеток на атомно-силовом микроскопе (АСМ). Для расчета признаков каждая линия сканирования исходного АСМ-изображения рассматривалась как реализация случайной последовательности и для нее применялось дискретное преобразование Фурье. После сглаживания по полученной карте спектральных оценок строились информативные характеристики – медианы значений спектрограмм для каждой частоты. Проведена статистическая классификация эритроцитов двух типов (сфероцитов и дискоцитов) пациентов с наследственным сфероцитозом по полученным информативным характеристикам с помощью методов «деревья решений» и «бустинг на деревьях решений». Найден частотный интервал с наилучшей точностью классификации: более 82% для метода «бустинг на деревьях решений»
    corecore