23 research outputs found

    Deep Q-Learning for Nash Equilibria: Nash-DQN

    Full text link
    Model-free learning for multi-agent stochastic games is an active area of research. Existing reinforcement learning algorithms, however, are often restricted to zero-sum games, and are applicable only in small state-action spaces or other simplified settings. Here, we develop a new data efficient Deep-Q-learning methodology for model-free learning of Nash equilibria for general-sum stochastic games. The algorithm uses a local linear-quadratic expansion of the stochastic game, which leads to analytically solvable optimal actions. The expansion is parametrized by deep neural networks to give it sufficient flexibility to learn the environment without the need to experience all state-action pairs. We study symmetry properties of the algorithm stemming from label-invariant stochastic games and as a proof of concept, apply our algorithm to learning optimal trading strategies in competitive electronic markets.Comment: 16 pages, 4 figure

    Les somnambules d'Hermann Broch : roman de la connaissance irrationnelle et philosophie scientifique

    Get PDF
    L'écrivain doit « "[c]réer la valeur" », puis « reconstruire un édifice de valeurs ». Cet impératif formulé par Broch dans son essai « Le Mal dans les valeurs de l'art » constitue aussi le programme narratif de son roman Les Somnambules, œuvre polyhistorique - pour recourir à l'appellation générique qu'emploie le romancier - qui mime, et peut-être même accomplit, le processus à l'issue duquel les forces de l'Irrationnel sont canalisées pour faire l'objet d'une rationalisation. La nouvelle rationalité que s'efforce de créer Broch au moyen du polyhistoricisme, genre associé par l'auteur au « roman nouveau dans sa polyphonie à la fois rationnelle et irrationnelle », doit selon lui fournir un socle aux nouvelles croyances religieuses appelées à supplanter celles véhiculées par le christianisme, ce système axiologique totalisant qu'il convient, estime-t-il, de remplacer par un nouveau, dont la création est d'ailleurs anticipée dans l'ensemble de sa production littéraire. Roman polyphonique au sens où le discours scientifique s'y présente comme le contrepoint du discours irrationnel, Les Somnambules se propose, plus précisément, de fonder la nouvelle rationalité à partir de la prise en considération des motions psychiques inconscientes qui structurent la pensée. Le rapprochement entre la raison et ce qui excède les frontières imparties à l'entendement n'étonne guère lorsqu'à la lecture de Broch, on constate que toute grande religion permet de convertir de nouveaux fidèles, c'est-à-dire de susciter chez eux une illumination mystique ne pouvant être décrite autrement qu'irrationnellement, même si les membres de cette religion poursuivent, en contrepartie, des objectifs définis, le plus souvent, rationnellement. Ainsi, les dévots luttent, dans le meilleur des cas, contre le paganisme et sont appelés, toujours selon Broch, à faire de même en ce qui concerne les avatars de cette religion - fascisme, totalitarisme - cela en vue de prévenir l'apparition des symptômes se manifestant lors du déclenchement de délires collectifs. L'œuvre romanesque de Broch, envisagée ici à l'aune des Somnambules, est travaillée de fond en comble par les antinomies (rationnel/irrationnel, proche/lointain, souvenir/oubli, familiarité/étrangeté); il en va de même en ce qui a trait aux publications « scientifiques » de Broch, commentées en ces pages dans le cadre d'une analyse portant sur la doctrine axiologique incorporée à l'intrigue romanesque des Somnambules et sur la Théorie de la folie des masses, du même auteur. La stratégie de lecture adoptée dans le présent mémoire consiste à déplacer les frontières, voire à remettre en question leur légitimité, tracées - parfois arbitrairement par les critiques fréquentant l'œuvre de Broch - entre le roman de la connaissance irrationnelle et son indispensable complément, la philosophie scientifique, dont l'apport est susceptible de contribuer, croit le romancier, à éveiller (au sens métaphorique du terme) ses contemporains; notre auteur incite ceux-ci à re-découvrir les fondements de la Réalité, lesquels résident dans l'amitié, le sentiment amoureux et l'expérience de la mort, comme il l'écrit dans La Mort de Virgile. Les trois composantes du Réel sont également appréhendées lors de l'acquisition de la connaissance irrationnelle : le noyau de la science est le pré-savoir acquis intuitivement par le somnambule ou le rêveur. Ce noyau ainsi que ce qui l'enveloppe constituent le cœur de notre propos. Nous nous intéresserons donc, dans les pages à venir, à la dialectique du Rationnel et de l'Irrationnel. Les théories de la connaissance de Platon, Descartes, Kant, Cassirer, Jung, susciteront aussi un engouement chez nous.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : polyhistoricisme, littérature religieuse, roman gnoséologique, philosophie du roman, langage de l'immédiateté, position de valeurs, éthique, esthétique

    Algorithmic Trading with Latent Models and Mean-Field Games

    No full text
    This thesis explores how agents should optimally trade in electronic markets when they account for latent factors and the optimal actions of other traders. It investigates the problem from the perspective of large-scale stochastic games with incomplete information and populations composed of heterogeneous agents, to which it provides closed form and model-agnostic solutions. The thesis contains two main parts. In the first part, we study the single agent optimal control problem when an agent has incomplete market information. Using the dynamic programming principle and filtration projection techniques we obtain closed-form formulae for the optimal trading strategy for a wide class of latent Markov models. We generalize this problem to an economy where the agent simultaneously trades multiple assets and tracks a stochastic benchmark. Using a novel method based on infinite-dimensional convex analysis we solve the agent’s optimization problem by representing it as the solution to a system of forward-backward stochastic differential equations. This allows both the extension to very general models for asset prices and implicitly provides the existence and uniqueness of solutions to the optimal control problem. In addition, we consider the practical implementation of these latent models and provide algorithms for the estimation of model parameters using expectation-maximization algorithm. In the second part, we consider the case of large populations of heterogeneous agents competing amongst one another on an exchange. We model these as stochastic games with partial and asymmetric information driven by latent semi-martingale price processes. By taking the limit as the population size tends to infinity, we obtain a mean-field game for which we can solve the Nash equilibrium in closed form by generalizing the convex analysis methods developed earlier. We further extend these models to incorporate disagreement amongst agents, represented by their beliefs on the probability measure driving asset prices. Although solutions to the extended model cannot be computed explicitly, we provide a least-square Monte-Carlo based algorithm to approximate the Nash equilibrium. In both cases, we show that the optimal solutions we obtain satisfy an ϵ\epsilon-Nash equilibrium property in finite population games.Ph.D

    Optimizing Optimizers: Regret-optimal gradient descent algorithms

    Full text link
    The need for fast and robust optimization algorithms are of critical importance in all areas of machine learning. This paper treats the task of designing optimization algorithms as an optimal control problem. Using regret as a metric for an algorithm's performance, we study the existence, uniqueness and consistency of regret-optimal algorithms. By providing first-order optimality conditions for the control problem, we show that regret-optimal algorithms must satisfy a specific structure in their dynamics which we show is equivalent to performing dual-preconditioned gradient descent on the value function generated by its regret. Using these optimal dynamics, we provide bounds on their rates of convergence to solutions of convex optimization problems. Though closed-form optimal dynamics cannot be obtained in general, we present fast numerical methods for approximating them, generating optimization algorithms which directly optimize their long-term regret. Lastly, these are benchmarked against commonly used optimization algorithms to demonstrate their effectiveness.Comment: 12 pages body, 42 pages total, 2 figure
    corecore