Model reframing by feature context change

Abstract

[EN] Many solutions to cost-sensitive classification (and regression) rely on some or all of the following assumptions: we have complete knowledge about the cost context at training time, we can easily re-train whenever the cost context changes, and we have technique-specific methods (such as cost-sensitive decision trees) that can take advantage of that information. In this work we address the problem of selecting models and minimising joint cost (integrating both misclassification cost and test costs) without any of the above assumptions. We introduce methods and plots (such as the so-called JROC plots) that can work with any off-the-shelf predictive technique, including ensembles, such that we re-frame the model to use the appropriate subset of attributes (the feature configuration) during deployment time. In other words, models are trained with the available attributes (once and for all) and then deployed by setting missing values on the attributes that are deemed inefective for reducing the joint cost. As the number of feature configuration combinations grows exponentially with the number of features we introduce quadratic methods that are able to approximate the optimal configuration and model choices, as shown by the experimental results. ([ES] Muchas de las soluciones para la clasificación y regresión sensible al coste se basan en alguna de las siguientes hipótesis: que tenemos un conocimiento completo sobre el contexto de coste en tiempo de entrenamiento, que podemos volver a entrenar con facilidad cada vez que cambia el contexto de costes, y que tenemos los métodos para una técnica especifica (tales como árboles de decisiones sensibles a los costes) que pueden aprovechar esa información. En este trabajo se aborda el problema de la selección de modelos y la minimización de los costes conjuntos (integrando tanto el coste de clasificación errónea como los costes de pruebas de atributos) sin ninguno de los supuestos anteriores. Introducimos métodos y gráficos (como los gráficos JROC) que pueden funcionar con cualquier técnica predictiva común, incluyendo ensembles, de tal manera que nos adapta el modelo para el subconjunto apropiado de atributos (la configuración de los atributos) durante el tiempo de despliegue. En otras palabras, los modelos son entrenados con los atributos disponibles (una vez y para siempre) y luego desplegados mediante el establecimiento de valores faltantes en los atributos que se consideran ineficaces para reducir el conjunto. Como el número de combinaciones de los atributos crece exponencialmente con el número de atributos se introducirán métodos cuadráticos que son capaces de aproximar la opción de configuración óptima y el modelo óptimo, como se muestra con los resultados experimentales.Maguedong Djoumessi, CP. (2013). Model reframing by feature context change. http://hdl.handle.net/10251/44662Archivo delegad

    Similar works