thesis

Generación de conjuntos de máquinas de soporte vectorial mediante técnicas de remuestreo e inyección de ruido en las etiquetas de clase

Abstract

Este trabajo tiene como objetivo mejorar los sistemas de aprendizaje automático basados en la generación de conjuntos de predictores. Como algoritmo base se utilizarán las máquinas de soporte vectorial. Dentro de problemas del aprendizaje supervisado el trabajo aborda los problemas de clasificación binaria. Para desarrollar el objetivo enunciado, se ha extendido la funcionalidad de la librería EnsembleSVM. En esta librería la diversidad en el conjunto se genera utilizando técnicas de remuestreo, como bagging y subbagging. La extensión realizada consiste en incorporar un mecanismo adicional para generar diversidad entre los predictores del conjunto denominado class-switching. Esta técnica está basada en inducir predictores a partir de un conjunto de datos en los que se ha inyectado ruido en las etiquetas clase de manera aleatoria. Una vez implementada esta funcionalidad adicional se lleva a cabo una investigación empírica de la eficacia, en términos de tasas de acierto y eficiencia, en términos de tiempo de entrenamiento, de los conjuntos generados. En el entrenamiento se aplican diferentes porcentajes de remuestreo y diferentes porcentajes de inyección de ruido en las etiquetas clase. En las pruebas realizadas, veremos que predecir con un conjunto de SVMs generalmente no mejora la tasa de error de la predicción de una única SVM. Este resultado confirma las observaciones realizadas en trabajos previos. En cambio, aplicando técnicas de submuestreo se pueden generar conjuntos con un tiempo de entrenamiento reducido, cuya capacidad de generalización es comparable a la de una única SVM entrenada con todos los ejemplos.This work aims to improve the automatic learning systems based on the generation of sets of predictors. As base algorithm, support vector machines will be used. Within supervised learning problems, this essay approaches binary classification problems. To achieve this objective, the functionality of the EnsembleSVM library has been extended. In this library, the diversity in the set is generated using resampling techniques, such as bagging and subbagging. The developed extension consists of incorporating an additional mechanism, in order to generate diversity among the predictors of the so-called “class-switching set”. This technique is based on inducing predictors from a data set, with noise injected randomly into the class labels. Once this additional functionality has been implemented, an empirical investigation of the efficiency is carried out. This is done regarding success rates and efficiency in one hand, and training time on the other. During training, different percentages of resampling and different percentages of noise injection in the classes are applied. During the test phase, a prediction within a set of SVMs will be proven not to improve the prediction error rate of a single SVM. This result confirms the observations done in previous works. In contrast, sets with a reduced training time can be generated applying subsampling techniques. The generalization capacity is comparable to a single trained SVM with all the examples

    Similar works

    Full text

    thumbnail-image

    Available Versions