Search CORE

4 research outputs found

Применение многоуровневых моделей в задачах классификации и регрессионного анализа

Author: Лебедев Илья Сергеевич
Publication venue: СПб ФИЦ РАН
Publication date: 22/05/2023
Field of study

There is a constant need to create methods for improving the quality indicators of information processing. In most practical cases, the ranges of target variables and predictors are formed under the influence of external and internal factors. Phenomena such as concept drift cause the model to lose its completeness and accuracy over time. The purpose of the work is to improve the processing data samples quality based on multi-level models for classification and regression problems. A two-level data processing architecture is proposed. At the lower level, the analysis of incoming information flows and sequences takes place, and the classification or regression tasks are solved. At the upper level, the samples are divided into segments, the current data properties in the subsamples are determined, and the most suitable lower-level models are assigned according to the achieved qualitative indicators. A formal description of the two-level architecture is given. In order to improve the quality indicators for classification and regression solving problems, a data sample preliminary processing is carried out, the model’s qualitative indicators are calculated, and classifiers with the best results are determined. The proposed solution makes it possible to implement constantly learning data processing systems. It is aimed at reducing the time spent on retraining models in case of data properties transformation. Experimental studies were carried out on several datasets. Numerical experiments have shown that the proposed solution makes it possible to improve the quality processing indicators. The model can be considered as an improvement of ensemble methods for processing information flows. Training a single classifier, rather than a group of complex classification models, makes it possible to reduce computational costs.Применение моделей машинного обучения обуславливает необходимость создания методов, направленных на повышение качественных показателей обработки информации. В большинстве практических случаев диапазоны значений целевых переменных и предикторов формируются под воздействием внешних и внутренних факторов. Такие явления, как дрейф концепций, приводят к тому, что модель со временем понижает показатели полноты и точности результатов. Целью работы является повышение качества анализа выборок и информационных последовательностей на основе многоуровневых моделей для задач классификации и регрессии. Предлагается двухуровневая архитектура обработки данных. На нижнем уровне происходит анализ поступающих на вход информационных потоков и последовательностей, осуществляется решение задач классификации или регрессии. На верхнем уровне выполняется разделения выборок на сегменты, определяются текущие свойства данных в подвыборках и назначаются наиболее подходящие по достигаемым качественным показателям модели нижнего уровня. Приведено формальное описание двухуровневой архитектуры. В целях повышения показателей качества решения задач классификации и регрессии производится предварительная обработка выборки данных, вычисляются качественные показатели моделей, определяются классификаторы, имеющие лучшие результаты. Предложенное решение позволяет реализовывать постоянно обучающиеся системы обработки данных. Оно направлено на снижение затрат на переобучение моделей в случае трансформации свойств данных. Проведены экспериментальные исследования на ряде наборов данных. Численные эксперименты показали, что предложенное решение позволяет повысить качественные показатели обработки. Модель может быть рассмотрена как совершенствование ансамблевых методов обработки информационных потоков и выборок данных. Обучение отдельного классификатора, а не группы сложных классификационных моделей дает возможность уменьшить вычислительные затраты

Информатика и автоматизация