4 research outputs found

    Irreversible Games with Incomplete Information: The Asymptotic Value

    Get PDF
    Les jeux irrĂ©versibles sont des jeux stochastiques oĂč une fois un Ă©tat est quittĂ©, il n'est plus jamais revisitĂ©. Cette classe contient les jeux absorbants. Cet article dĂ©montre l'existence et une caractĂ©risation de la valeur asymptotique pour tout jeu irrĂ©versible fini Ă  information incomplĂšte des deux cĂŽtĂ©s. Cela gĂ©nĂ©ralise Mertens et Zamir 1971 pour les jeux rĂ©pĂ©tĂ©s Ă  information incomplĂšte des deux cĂŽtĂ©s et Rosenberg 2000 pour les jeux absorbants Ă  information incomplĂšte d'un cĂŽtĂ©.Jeux stochastiques; jeux rĂ©pĂ©tĂ©s; information incomplĂšte; valeur asymptotique; principe de comparaison; inĂ©galitĂ©s variationelles

    Convergence des EDSRs et homogéneisation des inégalités variationnelles semilinéaires dans un convexe

    Get PDF
    AbstractWe study the limit of the solution of a Semi-linear Variational Inequality (SVI for short) involving a second order differential operator of parabolic type with periodic coefficients and highly oscillating term. Our basic tool is the approach given by Pardoux [16]. In particular, we use the weak convergence of an associated reflected Backward Stochastic Differential Equation (BSDE for short)

    Irreversible Games with Incomplete Information: The Asymptotic Value

    Get PDF
    Irreversible games are stochastic games in which once the play leaves a state it never revisits that state. This class includes absorbing games. This paper proves the existence and a characterization of the asymptotic value for any finite irreversible game with incomplete information on both sides. This result extends Mertens and Zamir 1971 for repeated games with incomplete information on both sides, and Rosenberg 2000 for absorbing games with incomplete information on one side.Les jeux irrĂ©versibles sont des jeux stochastiques oĂč une fois un Ă©tat est quittĂ©, il n'est plus jamais revisitĂ©. Cette classe contient les jeux absorbants. Cet article dĂ©montre l'existence et une caractĂ©risation de la valeur asymptotique pour tout jeu irrĂ©versible fini Ă  information incomplĂšte des deux cĂŽtĂ©s. Cela gĂ©nĂ©ralise Mertens et Zamir 1971 pour les jeux rĂ©pĂ©tĂ©s Ă  information incomplĂšte des deux cĂŽtĂ©s et Rosenberg 2000 pour les jeux absorbants Ă  information incomplĂšte d'un cĂŽtĂ©

    Multi-player games in the era of machine learning

    Full text link
    Parmi tous les jeux de sociĂ©tĂ© jouĂ©s par les humains au cours de l’histoire, le jeu de go Ă©tait considĂ©rĂ© comme l’un des plus difficiles Ă  maĂźtriser par un programme informatique [Van Den Herik et al., 2002]; Jusqu’à ce que ce ne soit plus le cas [Silveret al., 2016]. Cette percĂ©e rĂ©volutionnaire [MĂŒller, 2002, Van Den Herik et al., 2002] fĂ»t le fruit d’une combinaison sophistiquĂ©e de Recherche arborescente Monte-Carlo et de techniques d’apprentissage automatique pour Ă©valuer les positions du jeu, mettant en lumiĂšre le grand potentiel de l’apprentissage automatique pour rĂ©soudre des jeux. L’apprentissage antagoniste, un cas particulier de l’optimisation multiobjective, est un outil de plus en plus utile dans l’apprentissage automatique. Par exemple, les jeux Ă  deux joueurs et Ă  somme nulle sont importants dans le domain des rĂ©seaux gĂ©nĂ©ratifs antagonistes [Goodfellow et al., 2014] ainsi que pour maĂźtriser des jeux comme le Go ou le Poker en s’entraĂźnant contre lui-mĂȘme [Silver et al., 2017, Brown andSandholm, 2017]. Un rĂ©sultat classique de la thĂ©orie des jeux indique que les jeux convexes-concaves ont toujours un Ă©quilibre [Neumann, 1928]. Étonnamment, les praticiens en apprentissage automatique entrainent avec succĂšs une seule paire de rĂ©seaux de neurones dont l’objectif est un problĂšme de minimax non-convexe et non-concave alors que pour une telle fonction de gain, l’existence d’un Ă©quilibre de Nash n’est pas garantie en gĂ©nĂ©ral. Ce travail est une tentative d'Ă©tablir une solide base thĂ©orique pour l’apprentissage dans les jeux. La premiĂšre contribution explore le thĂ©orĂšme minimax pour une classe particuliĂšre de jeux non-convexes et non-concaves qui englobe les rĂ©seaux gĂ©nĂ©ratifs antagonistes. Cette classe correspond Ă  un ensemble de jeux Ă  deux joueurs et a somme nulle jouĂ©s avec des rĂ©seaux de neurones. Les deuxiĂšme et troisiĂšme contributions Ă©tudient l’optimisation des problĂšmes minimax, et plus gĂ©nĂ©ralement, les inĂ©galitĂ©s variationnelles dans le cadre de l’apprentissage automatique. Bien que la mĂ©thode standard de descente de gradient ne parvienne pas Ă  converger vers l’équilibre de Nash de jeux convexes-concaves simples, il existe des moyens d’utiliser des gradients pour obtenir des mĂ©thodes qui convergent. Nous Ă©tudierons plusieurs techniques telles que l’extrapolation, la moyenne et la quantitĂ© de mouvement Ă  paramĂštre nĂ©gatif. La quatriĂšme contribution fournit une Ă©tude empirique du comportement pratique des rĂ©seaux gĂ©nĂ©ratifs antagonistes. Dans les deuxiĂšme et troisiĂšme contributions, nous diagnostiquons que la mĂ©thode du gradient Ă©choue lorsque le champ de vecteur du jeu est fortement rotatif. Cependant, une telle situation peut dĂ©crire un pire des cas qui ne se produit pas dans la pratique. Nous fournissons de nouveaux outils de visualisation afin d’évaluer si nous pouvons dĂ©tecter des rotations dans comportement pratique des rĂ©seaux gĂ©nĂ©ratifs antagonistes.Among all the historical board games played by humans, the game of go was considered one of the most difficult to master by a computer program [Van Den Heriket al., 2002]; Until it was not [Silver et al., 2016]. This odds-breaking break-through [MĂŒller, 2002, Van Den Herik et al., 2002] came from a sophisticated combination of Monte Carlo tree search and machine learning techniques to evaluate positions, shedding light upon the high potential of machine learning to solve games. Adversarial training, a special case of multiobjective optimization, is an increasingly useful tool in machine learning. For example, two-player zero-sum games are important for generative modeling (GANs) [Goodfellow et al., 2014] and mastering games like Go or Poker via self-play [Silver et al., 2017, Brown and Sandholm,2017]. A classic result in Game Theory states that convex-concave games always have an equilibrium [Neumann, 1928]. Surprisingly, machine learning practitioners successfully train a single pair of neural networks whose objective is a nonconvex-nonconcave minimax problem while for such a payoff function, the existence of a Nash equilibrium is not guaranteed in general. This work is an attempt to put learning in games on a firm theoretical foundation. The first contribution explores minimax theorems for a particular class of nonconvex-nonconcave games that encompasses generative adversarial networks. The proposed result is an approximate minimax theorem for two-player zero-sum games played with neural networks, including WGAN, StarCrat II, and Blotto game. Our findings rely on the fact that despite being nonconcave-nonconvex with respect to the neural networks parameters, the payoff of these games are concave-convex with respect to the actual functions (or distributions) parametrized by these neural networks. The second and third contributions study the optimization of minimax problems, and more generally, variational inequalities in the context of machine learning. While the standard gradient descent-ascent method fails to converge to the Nash equilibrium of simple convex-concave games, there exist ways to use gradients to obtain methods that converge. We investigate several techniques such as extrapolation, averaging and negative momentum. We explore these techniques experimentally by proposing a state-of-the-art (at the time of publication) optimizer for GANs called ExtraAdam. We also prove new convergence results for Extrapolation from the past, originally proposed by Popov [1980], as well as for gradient method with negative momentum. The fourth contribution provides an empirical study of the practical landscape of GANs. In the second and third contributions, we diagnose that the gradient method breaks when the game’s vector field is highly rotational. However, such a situation may describe a worst-case that does not occur in practice. We provide new visualization tools in order to exhibit rotations in practical GAN landscapes. In this contribution, we show empirically that the training of GANs exhibits significant rotations around Local Stable Stationary Points (LSSP), and we provide empirical evidence that GAN training converges to a stable stationary point, which is a saddle point for the generator loss, not a minimum, while still achieving excellent performance
    corecore