3 research outputs found
Напівкерований граничний бустинг
Дипломна робота: 92 сторінки, 33 рисунки, 13 таблиць, 1 додаток, 17
джерел.
Об’єкт дослідження – напівкерований граничний бустинг.
Під час створення систем підтримки прийняття рішень, нейронних мереж
та інших систем машинного навчання, виникає проблема збору та правильної
класифікації тренувальних даних. Залежно від типу даних, процес класифікації
може бути складним, повільним або вартісним. Наприклад, класифікація
медичних знімків вимагає глибокої медичної експертизи і значних ресурсів часу.
Існує ризик помилкової класифікації, що вносить шум у тренувальні дані.
З метою вирішення цих викликів, були розроблені алгоритми напів-
керованого навчання, що потребують меншого обсягу відмічених даних та здатні
використовувати невідмічені дані. Одним з таких алгоритмів є напівкерований
граничний бустинг, який дозволяє покращувати точність моделі бінарної
класифікації через ітеративне навчання, використовуючи відмічені та
невідмічені дані. Це дозволяє зекономити на попередній класифікації
навчальних даних, не втрачаючи при цьому якості моделі.
Мета роботи – розробити покращення існуючих підходів до реалізації
алгоритму напівкерованого граничного бустингу.
Практичне значення роботи полягає в отриманні високоефективного
алгоритму для класифікації даних при невеликій кількості міток.Bachelor thesis: 92 pages, 33 figures, 13 tables, 1 appendix, 17 sources.
The object of research is an algorithm of semi-supervised MarginBoost.
When creating decision support systems, neural networks, and other machine
learning systems, the problem of collecting and correctly classifying training data
arises. Depending on the type of data, the classification process can be complex, slow,
or costly. For example, classifying medical images requires in-depth medical expertise
and significant time resources. There is a risk of misclassification, which introduces
noise into the training data.
In order to address these challenges, semi-supervised learning algorithms have
been developed that require less labeled data and are able to utilize unlabeled data. One
of these algorithms is Semi-Supervised MarginBoost, which improves the accuracy of
a binary classification model through iterative learning using both labeled and
unlabeled data. This allows to save on pre-classification of training data without losing
the model performance.
The aim of the work is to develop an improvement of existing approaches to the
implementation of the semi-supervised margin boosting algorithm.
The practical significance of this work is to obtain a highly efficient algorithm
for data classification with a small number of labels
Інтелектуальна система багатокласової класифікації на основі регуляризованого бустінгу
Дипломнa робота: 96 сторінки, 12 рисунки, 6 таблиць, 1 додаток, 26
джерела.
Метою даної дипломної роботи є розробка та реалізація інтелектуальної
системи багатокласової класифікації на основі регуляризованого бустінгу.
Робота спрямована на вивчення та вдосконалення методів класифікації для
вирішення складних завдань, де необхідно розподілити об'єкти на багато класів.
Актуальність теми - багатокласова класифікація є важливим завданням у
сфері машинного навчання та аналізу даних. Зростання обсягів даних та
складність проблем, що потребують розподілу об'єктів на багато класів,
створюють потребу у розробці нових ефективних методів класифікації.
Регуляризований бустінг є одним з потужних інструментів, який дозволяє
досягти високої точності та здатності до узагальнення.
Об'єкт дослідження: Об'єктом дослідження є інтелектуальна система
багатокласової класифікації.
Предмет дослідження: Предметом дослідження є регуляризований
бустінг та його застосування в контексті багатокласової класифікації.
В роботі розроблено програмний продукт на мові програмування Python.Bachelor's thesis: 96 pages, 12 figures, 6 tables, 1 appendix, 26 references.
The aim of this bachelor's thesis is to develop and implement an intelligent
system for multiclass classification based on regularized boosting. The work is focused
on studying and improving classification methods for solving complex tasks that
involve assigning objects to multiple classes.
The relevance of the topic lies in the fact that multiclass classification is an
important task in the field of machine learning and data analysis. The increasing
volume of data and the complexity of problems requiring the allocation of objects to
multiple classes create a need for the development of new effective classification
methods. Regularized boosting is one powerful tool that enables achieving high
accuracy and generalization capability.
The object of the research is the intelligent system for multiclass classification.
The subject of the research is the regularized boosting and its application in the context
of multiclass classification.
The software product has been developed in the Python programming language
Information Theoretic Regularization for Semi-Supervised Boosting
We present novel semi-supervised boosting algorithms that incrementally build linear combinations of weak classifiers through generic functional gradient descent using both labeled and unlabeled training data. Our approach is based on extending information regularization framework to boosting, bearing loss functions that combine log loss on labeled data with the information-theoretic measures to encode unlabeled data. Even though the information-theoretic regularization terms make the optimization non-convex, we propose simple sequential gradient descent optimization algorithms, and obtain impressively improved results on synthetic, benchmark and real world tasks over supervised boosting algorithms which use the labeled data alone and a state-of-the-art semi-supervised boosting algorithm