2 research outputs found

    Stacked Calibration of Off-Policy Policy Evaluation for Video Game Matchmaking

    No full text
    Abstract—We consider an industrial strength application of recommendation systems for video-game matchmaking in which off-policy policy evaluation is important but where standard approaches can hardly be applied. The objective of the policy is to sequentially form teams of players from those waiting to be matched, in such a way as to produce well-balanced matches. Unfortunately, the available training data comes from a policy that is not known perfectly and that is not stochastic, making it impossible to use methods based on importance weights. Furthermore, we observe that when the estimated reward function and the policy are obtained by training from the same off-policy dataset, the policy evaluation using the estimated reward function is biased. We present a simple calibration procedure that is similar to stacked regression and that removes most of the bias, in the experiments we performed. Data collected during beta tests of Ghost Recon Online, a first person shooter from Ubisoft, were used for the experiments. I

    Algorithmes d’apprentissage profonds supervisés et non-supervisés: applications et résultats théoriques

    Full text link
    La liste des domaines touchés par l’apprentissage machine s’allonge rapidement. Au fur et à mesure que la quantité de données disponibles augmente, le développement d’algorithmes d’apprentissage de plus en plus puissants est crucial. Ce mémoire est constitué de trois parties: d’abord un survol des concepts de bases de l’apprentissage automatique et les détails nécessaires pour l’entraînement de réseaux de neurones, modèles qui se livrent bien à des architectures profondes. Ensuite, le premier article présente une application de l’apprentissage machine aux jeux vidéos, puis une méthode de mesure performance pour ceux-ci en tant que politique de décision. Finalement, le deuxième article présente des résultats théoriques concernant l’entraînement d’architectures profondes nonsupervisées. Les jeux vidéos sont un domaine particulièrement fertile pour l’apprentissage automatique: il estf facile d’accumuler d’importantes quantités de données, et les applications ne manquent pas. La formation d’équipes selon un critère donné est une tˆache commune pour les jeux en lignes. Le premier article compare différents algorithmes d’apprentissage à des réseaux de neurones profonds appliqués à la prédiction de la balance d’un match. Ensuite nous présentons une méthode par simulation pour évaluer les modèles ainsi obtenus utilisés dans le cadre d’une politique de décision en ligne. Dans un deuxième temps nous présentons une nouvelleméthode pour entraîner des modèles génératifs. Des résultats théoriques nous indiquent qu’il est possible d’entraîner par rétropropagation des modèles non-supervisés pouvant générer des échantillons qui suivent la distribution des données. Ceci est un résultat pertinent dans le cadre de la récente littérature scientifique investiguant les propriétés des autoencodeurs comme modèles génératifs. Ces résultats sont supportés avec des expériences qualitatives préliminaires ainsi que quelques résultats quantitatifs.The list of areas affected by machine learning is growing rapidly. As the amount of available training data increases, the development of more powerful learning algorithms is crucial. This thesis consists of three parts: first an overview of the basic concepts of machine learning and the details necessary for training neural networks, models that lend themselves well to deep architectures. The second part presents an application of machine learning to online video games, and a performance measurement method when using these models as decision policies. Finally, the third section presents theoretical results for unsupervised training of deep architectures. Video games are a particularly fertile area for machine learning: it is easy to accumulate large amounts of data, and many tasks are possible. Assembling teams of equal skill is a common machine learning application for online games. The first paper compares different learning algorithms against deep neural networks applied to the prediction of match balance in online games. We then present a simulation based method to evaluate the resulting models used as decision policies for online matchmaking. Following this we present a new method to train generative models. Theoretical results indicate that it is possible to train by backpropagation unsupervised models that can generate samples following the data’s true distribution. This is a relevant result in the context of the recent literature investigating the properties of autoencoders as generative models. These results are supported with preliminary quantitative results and some qualitative experiments
    corecore