Évaluation hors-ligne d'un modèle prédictif : application aux algorithmes de recommandation et à la minimisation de l'erreur relative moyenne

Abstract

The offline evaluation permits to estimate the quality of a predictive model using historical data before deploying the model in production. To be efficient, the data used to compute the offline evaluation must be representative of real data.In this thesis we describe the case when the historical data is biased. Through experiments done at Viadeo (french professional social network) we suggest a new offline evaluation procedure to estimate the quality of a recommendation algorithm when the data is biased. Then we introduce the concept of Explanatory Shift, which is a particular case of bias, and we suggest a new approach to build an efficient model under Explanatory Shift.In the second part of this thesis we discuss the importance of the loss function used to select a model using the empirical risk minimization method (ERM), and we study in detail the particular case of the Mean Absolute Percentage Error (MAPE). First we analyze necessary conditions to ensure that the risk is well defined. Then we show that the model obtained by ERM is consistant under some assumptions.L'évaluation hors-ligne permet d'estimer la qualité d'un modèle prédictif à partir de données historiques. En pratique, cette approche estime la qualité d'un modèle avant sa mise en production, sans interagir avec les clients ou utilisateurs. Pour qu'une évaluation hors-ligne soit pertinente, il est nécessaire que les données utilisées soient sans biais, c'est-à-dire représentatives des comportements observés une fois le modèle en production.Dans cette thèse, nous traitons le cas où les données à disposition sont biaisées. A partir d'expériences réalisées au sein de Viadeo nous proposons une nouvelle procédure d'évaluation hors-ligne d'un algorithme de recommandation. Cette nouvelle approche réduit l'influence du biais sur les résultats de l'évaluation hors-ligne. Nous introduisons ensuite le contexte d' Explanatory Shift, qui correspond à une situation dans laquelle le biais réside dans la distribution de la variable cible. Des expériences menées sur les données du site de e-commerce Cdiscount et la base de données Newsgroup montrent alors que, sous certaines hypothèses, il est possible d'inférer la distribution de la variable cible afin de corriger la non-représentativité de l'échantillon d'apprentissage à disposition.De façon plus théorique, nous nous intéressons ensuite au rôle de la fonction de perte utilisée pour la sélection d'un modèle à partir de la méthode de minimisation du risque empirique. Plus précisément, nous détaillons le cas particulier de la minimisation de l'erreur relative moyenne et nous introduisons le concept de régression MAPE (Mean Absolute Percentage Error). Les travaux réalisés dans ce cadre portent alors sur la consistance de l'estimateur de minimisation du risque empirique pour la régression MAPE, et sur la régression MAPE régularisée en pratique. Les expériences menées sur des données simulées ou extraites du réseau social professionnel Viadeo montrent les avantages de la régression MAPE et permettent d'illustrer des propriétés théoriques de l'estimateur obtenu

    Similar works

    Full text

    thumbnail-image

    Available Versions

    Last time updated on 13/04/2017