2 research outputs found

    A Neural Network-Embedded Optimization Approach for Selecting Multiple Entries for March Madness

    Get PDF
    RÉSUMÉ : On peut s’attendre à une croissance en popularité des paris sportifs dans le marché américain suite à la légalisation de ceux-ci dans plusieurs états depuis 2018 [1]. De plus, l’augmentation de la quantité de données sur le sport et le développement de nouvelles métriques de performance sportive ont permis depuis quelques années d’avoir une approche statistique pour les problèmes de prise de décision dans le sport. Alors que la littérature sur les paris sportifs couvrent majoritairement des modèles probabilistes pour prédire le résultat d’un évènement, cette thèse s’intéresse plutôt au développement d’une stratégie optimale pour remporter un paris sportif, plus particulièrement le Tournament challenge tenu annuellement par ESPN. Le Tournament Challenge demande aux participants de choisir le gagnant de chacune des 63 parties du March Madness, soit le championnat de fin de saison de basketball collégial américain. Il existe 263 façons de sélectionner les gagnants du tournois. De plus, plusieurs millions de personnes y participent à chaque année. Généralement, seulement un petit pourcentage des meilleurs scores font un gain monétaire ce qui implique qu’un participant doit obtenir un meilleur score que plusieurs millions de personnes pour remporter un gain. Kaplan et al. (2001) ont été les premiers à introduire une approche exacte qui maximise l’espérance de point produit par une entrée. Notre stratégie est la première à considérer plusieurs entrées dépendantes au Tournament Challenge. Notre stratégie cherche à maximiser l’espérance de points produit par le score maximal des k entrées. Deux problèmes découlent de cette stratégie, soit comment évaluer et comment optimiser la fonction objective. Nous présentons trois approches pour évaluer la fonction objective. Cela inclue une méthode exacte qui est un algorithme basé sur un arbre de décision et deux modèles approximatifs, soit une approche par simulation et une approche par apprentissage machine. À partir de ces différents modèles, nous développons deux heuristiques permettant d’optimiser la fonction objective, soit un algorithme génétique et un réseau de neurones intégré à un modèle en nombre entier. Finalement, nous comparons l’espérance de points produits ainsi que le vrai score obtenu par chacune des méthodes pour chaque tournois depuis 2002. Nos deux modèles surpassent pour chaque instance la solution optimal du modèle exacte avec une entrée.----------ABSTRACT : Sports gambling are expected to grow in popularity in the US as they have been legalized by many states in the last two years [1]. The availability of sports data and the development of new metrics to evaluate the performance of either athletes or teams have allowed the use of statistical approaches to tackle decision-making problems in sports. While most papers in the literature investigate how to predict the outcome of a game, this thesis addresses the development of an optimal strategy to win a sports betting contest. Specifically, we focus on the ESPN Tournament Challenge which is a sport betting contest on the seasonending championship tournaments of americain college basketball, also known as the March Madness. The ESPN Tournament Challenge asks participants to pick the winner of each of the 63 games in the March Madness. Thus, there is a total of 263 different ways of filling the tournament which makes the challenge a complex task. Every year, millions of people aim to predict accurately the March Madness. This contest often adopts a top-heavy payoff structure which implies that a single participant needs to beat millions of participant to receive a positive payoff. Kaplan et al. (2001) first introduce an exact approach to the problem by selecting a singleentry that maximizes the expected score. We propose a novel strategy that considers a multi-entry approach to the Tournament Challenge. Such a strategy maximizes the expected score of the maximum scoring entry. We face two main challenge, namely, (1) how to evaluate the objective function and (2) how to optimize it. We then present three approaches for the evaluation of the objective function. This includes an exact approach in a Tree-based algorithm and two approximate models, a simulation approach and a neural network approach. Based on these three different models to evaluate the objective function, we develop both a genetic algorithm and a neural network-embedded algorithm. Finally, we compare the expected score and the empirical score by each approach on each tournament played since 2002. Computational experiments show that the proposed models clearly outperform the single-entry exact approach on every instance

    Quantitatively Motivated Model Development Framework: Downstream Analysis Effects of Normalization Strategies

    Get PDF
    Through a review of epistemological frameworks in social sciences, history of frameworks in statistics, as well as the current state of research, we establish that there appears to be no consistent, quantitatively motivated model development framework in data science, and the downstream analysis effects of various modeling choices are not uniformly documented. Examples are provided which illustrate that analytic choices, even if justifiable and statistically valid, have a downstream analysis effect on model results. This study proposes a unified model development framework that allows researchers to make statistically motivated modeling choices within the development pipeline. Additionally, a simulation study is used to determine empirical justification of the proposed framework. This study tests the utility of the proposed framework by investigating the effects of normalization on downstream analysis results. Normalization methods are investigated by utilizing a decomposition of the empirical risk functions, measuring effects on model bias, variance, and irreducible error. Measurements of bias and variance are then applied as diagnostic procedures for model pre-processing and development within the unified framework. Findings from simulation results are included in the proposed framework and stress-tested on benchmark datasets as well as several applications
    corecore