1 research outputs found

    Clasificación a partir de conjuntos de datos no equilibrados. Un marco para mejorar la aplicación de las estrategias de remuestreo

    Get PDF
    [ES] En los últimos años, el problema de la clasificación de datos no equilibrados se ha convertido en uno de los temas de investigación más candentes en el área del aprendizaje supervisado, donde encontrar una solución adecuada sigue siendo un desafío. La baja fiabilidad de los resultados de la clasificación a partir de datos desequilibrados se produce debido al sesgo del modelo predictivo hacia la clase mayoritaria, mientras que la clase minoritaria es casi ignorada o asumida como ruido por estar representada por muy pocas instancias. EL problema consiste en que los conjuntos de datos utilizados por los clasificadores suelen tener una distribución diferente de las instancias de cada clase. Esta situación, llamada clasificación desequilibrada de los conjuntos de datos, produce un bajo rendimiento predictivo para los ejemplos de la clase minoritaria. Por consiguiente, el modelo de predicción no suele ser válido, aunque la exactitud global del modelo pueda ser aceptable, ya que se obtiene principalmente de la correcta clasificación de los ejemplos de clase mayoritaria. Para resolver este problema se suelen utilizar algunas estrategias como el sobremuestreo y el submuestreo, que son procedimientos reconocidos cuyo objetivo es equilibrar el número de ejemplos de cada clase. Sin embargo, la eficiencia de esas estrategias se ve afectada por algunos factores como el solapamiento entre las clases, el tamaño del conjunto de datos, los ejemplos en el límite entre clases, el índice de desequilibrio, las características intrínsecas de los datos y el ruido en los datos, entre otros. Esta investigación se divide en dos partes, la primera de las cuales comprende un estudio preliminar sobre el comportamiento de diferentes algoritmos de clasificación en contextos de datos no equilibrados, con diferentes índices de desequilibrio, antes y después de ser tratados con diferentes estrategias de remuestreo. El objetivo principal de estos experimentos iniciales es proporcionar una referencia que ayude a seleccionar el algoritmo con el mejor comportamiento para llevar a cabo el estudio posterior, que constituye la segunda y más importante parte de esta investigación. En esta parte se examinan diferentes factores relacionados con las características del conjunto de datos para determinar tanto el método de remuestreo más adecuado en función de las características del conjunto de datos, como las ventajas y los inconvenientes de las técnicas de remuestreo básicas y avanzadas. Los factores que se analizan en el estudio son el índice de desequilibrio, el solapamiento entre clases, los ejemplos en el límite entre clases, el tamaño reducido de la muestra, el número de instancias y el número de atributos. Se han utilizado diversas medidas de evaluación para contrastar los resultados de los diferentes modelos inducidos a partir de conjuntos de datos desequilibrados antes y después de procesarlos mediante estrategias de remuestreo básicas y avanzadas. Se han utilizado algunas métricas generales, como la precisión, y algunas medidas específicas para la clasificación de datos desequilibrados, como OP (Optimized Precisión) e IBA (Index of Balanced Accuracy). En esta parte se realizaron experimentos con conjuntos de datos de una amplia gama de características, los cuales fueron preprocesados con siete técnicas de remuestreo. El algoritmo de clasificación seleccionado para este estudio fue Random Forest, debido a que los experimentos anteriores demostraron su mejor comportamiento en contextos de datos desequilibrados en comparación con los otros algoritmos de aprendizaje supervisado
    corecore