    Напівкерований граничний бустинг

    Дипломна робота: 92 сторінки, 33 рисунки, 13 таблиць, 1 додаток, 17 джерел. Об’єкт дослідження – напівкерований граничний бустинг. Під час створення систем підтримки прийняття рішень, нейронних мереж та інших систем машинного навчання, виникає проблема збору та правильної класифікації тренувальних даних. Залежно від типу даних, процес класифікації може бути складним, повільним або вартісним. Наприклад, класифікація медичних знімків вимагає глибокої медичної експертизи і значних ресурсів часу. Існує ризик помилкової класифікації, що вносить шум у тренувальні дані. З метою вирішення цих викликів, були розроблені алгоритми напів- керованого навчання, що потребують меншого обсягу відмічених даних та здатні використовувати невідмічені дані. Одним з таких алгоритмів є напівкерований граничний бустинг, який дозволяє покращувати точність моделі бінарної класифікації через ітеративне навчання, використовуючи відмічені та невідмічені дані. Це дозволяє зекономити на попередній класифікації навчальних даних, не втрачаючи при цьому якості моделі. Мета роботи – розробити покращення існуючих підходів до реалізації алгоритму напівкерованого граничного бустингу. Практичне значення роботи полягає в отриманні високоефективного алгоритму для класифікації даних при невеликій кількості міток.Bachelor thesis: 92 pages, 33 figures, 13 tables, 1 appendix, 17 sources. The object of research is an algorithm of semi-supervised MarginBoost. When creating decision support systems, neural networks, and other machine learning systems, the problem of collecting and correctly classifying training data arises. Depending on the type of data, the classification process can be complex, slow, or costly. For example, classifying medical images requires in-depth medical expertise and significant time resources. There is a risk of misclassification, which introduces noise into the training data. In order to address these challenges, semi-supervised learning algorithms have been developed that require less labeled data and are able to utilize unlabeled data. One of these algorithms is Semi-Supervised MarginBoost, which improves the accuracy of a binary classification model through iterative learning using both labeled and unlabeled data. This allows to save on pre-classification of training data without losing the model performance. The aim of the work is to develop an improvement of existing approaches to the implementation of the semi-supervised margin boosting algorithm. The practical significance of this work is to obtain a highly efficient algorithm for data classification with a small number of labels

    Інтелектуальна система багатокласової класифікації на основі регуляризованого бустінгу

    Дипломнa робота: 96 сторінки, 12 рисунки, 6 таблиць, 1 додаток, 26 джерела. Метою даної дипломної роботи є розробка та реалізація інтелектуальної системи багатокласової класифікації на основі регуляризованого бустінгу. Робота спрямована на вивчення та вдосконалення методів класифікації для вирішення складних завдань, де необхідно розподілити об'єкти на багато класів. Актуальність теми - багатокласова класифікація є важливим завданням у сфері машинного навчання та аналізу даних. Зростання обсягів даних та складність проблем, що потребують розподілу об'єктів на багато класів, створюють потребу у розробці нових ефективних методів класифікації. Регуляризований бустінг є одним з потужних інструментів, який дозволяє досягти високої точності та здатності до узагальнення. Об'єкт дослідження: Об'єктом дослідження є інтелектуальна система багатокласової класифікації. Предмет дослідження: Предметом дослідження є регуляризований бустінг та його застосування в контексті багатокласової класифікації. В роботі розроблено програмний продукт на мові програмування Python.Bachelor's thesis: 96 pages, 12 figures, 6 tables, 1 appendix, 26 references. The aim of this bachelor's thesis is to develop and implement an intelligent system for multiclass classification based on regularized boosting. The work is focused on studying and improving classification methods for solving complex tasks that involve assigning objects to multiple classes. The relevance of the topic lies in the fact that multiclass classification is an important task in the field of machine learning and data analysis. The increasing volume of data and the complexity of problems requiring the allocation of objects to multiple classes create a need for the development of new effective classification methods. Regularized boosting is one powerful tool that enables achieving high accuracy and generalization capability. The object of the research is the intelligent system for multiclass classification. The subject of the research is the regularized boosting and its application in the context of multiclass classification. The software product has been developed in the Python programming language

    Information Theoretic Regularization for Semi-Supervised Boosting

    We present novel semi-supervised boosting algorithms that incrementally build linear combinations of weak classifiers through generic functional gradient descent using both labeled and unlabeled training data. Our approach is based on extending information regularization framework to boosting, bearing loss functions that combine log loss on labeled data with the information-theoretic measures to encode unlabeled data. Even though the information-theoretic regularization terms make the optimization non-convex, we propose simple sequential gradient descent optimization algorithms, and obtain impressively improved results on synthetic, benchmark and real world tasks over supervised boosting algorithms which use the labeled data alone and a state-of-the-art semi-supervised boosting algorithm