1 research outputs found
Clasificación a partir de conjuntos de datos no equilibrados. Un marco para mejorar la aplicación de las estrategias de remuestreo
[ES] En los últimos años, el problema de la clasificación de datos no equilibrados se ha convertido en
uno de los temas de investigación más candentes en el área del aprendizaje supervisado, donde
encontrar una solución adecuada sigue siendo un desafío. La baja fiabilidad de los resultados de
la clasificación a partir de datos desequilibrados se produce debido al sesgo del modelo
predictivo hacia la clase mayoritaria, mientras que la clase minoritaria es casi ignorada o asumida
como ruido por estar representada por muy pocas instancias. EL problema consiste en que los
conjuntos de datos utilizados por los clasificadores suelen tener una distribución diferente de
las instancias de cada clase. Esta situación, llamada clasificación desequilibrada de los conjuntos
de datos, produce un bajo rendimiento predictivo para los ejemplos de la clase minoritaria. Por
consiguiente, el modelo de predicción no suele ser válido, aunque la exactitud global del modelo
pueda ser aceptable, ya que se obtiene principalmente de la correcta clasificación de los
ejemplos de clase mayoritaria. Para resolver este problema se suelen utilizar algunas estrategias
como el sobremuestreo y el submuestreo, que son procedimientos reconocidos cuyo objetivo
es equilibrar el número de ejemplos de cada clase. Sin embargo, la eficiencia de esas estrategias
se ve afectada por algunos factores como el solapamiento entre las clases, el tamaño del
conjunto de datos, los ejemplos en el límite entre clases, el índice de desequilibrio, las
características intrínsecas de los datos y el ruido en los datos, entre otros.
Esta investigación se divide en dos partes, la primera de las cuales comprende un estudio
preliminar sobre el comportamiento de diferentes algoritmos de clasificación en contextos de
datos no equilibrados, con diferentes índices de desequilibrio, antes y después de ser tratados
con diferentes estrategias de remuestreo. El objetivo principal de estos experimentos iniciales
es proporcionar una referencia que ayude a seleccionar el algoritmo con el mejor
comportamiento para llevar a cabo el estudio posterior, que constituye la segunda y más
importante parte de esta investigación. En esta parte se examinan diferentes factores
relacionados con las características del conjunto de datos para determinar tanto el método de
remuestreo más adecuado en función de las características del conjunto de datos, como las
ventajas y los inconvenientes de las técnicas de remuestreo básicas y avanzadas. Los factores
que se analizan en el estudio son el índice de desequilibrio, el solapamiento entre clases, los
ejemplos en el límite entre clases, el tamaño reducido de la muestra, el número de instancias y
el número de atributos. Se han utilizado diversas medidas de evaluación para contrastar los
resultados de los diferentes modelos inducidos a partir de conjuntos de datos desequilibrados
antes y después de procesarlos mediante estrategias de remuestreo básicas y avanzadas. Se han
utilizado algunas métricas generales, como la precisión, y algunas medidas específicas para la
clasificación de datos desequilibrados, como OP (Optimized Precisión) e IBA (Index of Balanced
Accuracy). En esta parte se realizaron experimentos con conjuntos de datos de una amplia gama
de características, los cuales fueron preprocesados con siete técnicas de remuestreo. El
algoritmo de clasificación seleccionado para este estudio fue Random Forest, debido a que los
experimentos anteriores demostraron su mejor comportamiento en contextos de datos
desequilibrados en comparación con los otros algoritmos de aprendizaje supervisado