research

Inference for the Generalization Error

Abstract

We perform a theoretical investigation of the variance of the cross-validation estimate of the generalization error that takes into account the variability due to the choice of training sets and test examples. This allows us to propose two new estimators of this variance. We show, via simulations, that these new statistics perform well relative to the statistics considered in Dietterich (1998). In particular, tests of hypothesis based on these don't tend to be too liberal like other tests currently available, and have good power. Nous considérons l'estimation par validation croisée de l'erreur de généralisation. Nous effectuons une étude théorique de la variance de ect estimateur en tenant compte de la variabilité due au choix des ensembles d'entraînement et des exemples de test. Cela nous permet de proposer deux nouveaux estimateurs de cette variance. Nous montrons, via des simulations, que ces nouvelles statistiques performent bien par rapport aux statistiques considérées dans Dietterich (1998). En particulier, ces nouvelles statistiques se démarquent des autres présentement utilisées par le fait qu'elles mènent à des tests d'hypothèses qui sont puissants sans avoir tendance à être trop libéraux.Generalization error, cross-validation, variance estimation, hypothesis tests, size, power, Erreur de généralisation, validation croisée, estimation de la variance, test d'hypothèses, niveau, puissance

    Similar works