1,512 research outputs found

    From Language to Programs: Bridging Reinforcement Learning and Maximum Marginal Likelihood

    Full text link
    Our goal is to learn a semantic parser that maps natural language utterances into executable programs when only indirect supervision is available: examples are labeled with the correct execution result, but not the program itself. Consequently, we must search the space of programs for those that output the correct result, while not being misled by spurious programs: incorrect programs that coincidentally output the correct result. We connect two common learning paradigms, reinforcement learning (RL) and maximum marginal likelihood (MML), and then present a new learning algorithm that combines the strengths of both. The new algorithm guards against spurious programs by combining the systematic search traditionally employed in MML with the randomized exploration of RL, and by updating parameters such that probability is spread more evenly across consistent programs. We apply our learning algorithm to a new neural semantic parser and show significant gains over existing state-of-the-art results on a recent context-dependent semantic parsing task.Comment: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (2017

    Stabilizing Q-Learning for continuous control

    Full text link
    L'apprentissage profond par renforcement a produit des décideurs qui jouent aux échecs, au Go, au Shogi, à Atari et à Starcraft avec une capacité surhumaine. Cependant, ces algorithmes ont du mal à naviguer et à contrôler des environnements physiques, contrairement aux animaux et aux humains. Manipuler le monde physique nécessite la maîtrise de domaines d'actions continues tels que la position, la vitesse et l'accélération, contrairement aux domaines d'actions discretes dans des jeux de société et de vidéo. L'entraînement de réseaux neuronaux profonds pour le contrôle continu est instable: les agents ont du mal à apprendre et à conserver de bonnes habitudes, le succès est à haute variance sur hyperparamètres, graines aléatoires, même pour la même tâche, et les algorithmes ont du mal à bien se comporter en dehors des domaines dans lesquels ils ont été développés. Cette thèse examine et améliore l'utilisation de réseaux de neurones profonds dans l'apprentissage par renforcement. Le chapitre 1 explique comment le principe d'entropie maximale produit des fonctions d'objectifs pour l'apprentissage supervisé et non supervisé et déduit, à partir de la dynamique d'apprentissage des réseaux neuronaux profonds, certains termes régulisants pour stabiliser les réseaux neuronaux profonds. Le chapitre 2 fournit une justification de l'entropie maximale pour la forme des algorithmes acteur-critique et trouve une configuration d'un algorithme acteur-critique qui s'entraîne le plus stablement. Enfin, le chapitre 3 examine la dynamique d'apprentissage de l'apprentissage par renforcement profond afin de proposer deux améliorations aux réseaux cibles et jumeaux qui améliorent la stabilité et la convergence. Des expériences sont réalisées dans les simulateurs de physique idéale DeepMind Control, MuJoCo et Box2D.Deep Reinforcement Learning has produced decision makers that play Chess, Go, Shogi, Atari, and Starcraft with superhuman ability. However, unlike animals and humans, these algorithms struggle to navigate and control physical environments. Manipulating the physical world requires controlling continuous action spaces such as position, velocity, and acceleration, unlike the discrete action spaces of board and video games. Training deep neural networks for continuous control is unstable: agents struggle to learn and retain good behaviors, performance is high variance across hyperparameters, random seed, and even multiple runs of the same task, and algorithms struggle to perform well outside the domains they have been developed in. This thesis finds principles behind the success of deep neural networks in other learning paradigms and examines their impact on reinforcement learning for continuous control. Chapter 1 explains how the maximum-entropy principle produces supervised and unsupervised learning loss functions and derives some regularizers used to stabilize deep networks from the training dynamics of deep learning. Chapter 2 provides a maximum-entropy justification for the form of actor-critic algorithms and finds a configuration of an actor-critic algorithm that trains most stably. Finally, Chapter 3 considers the training dynamics of deep reinforcement learning to propose two improvements to target and twin networks that improve stability and convergence. Experiments are performed within the DeepMind Control, MuJoCo, and Box2D ideal-physics simulators

    Model-based hyperparameter optimization

    Full text link
    The primary goal of this work is to propose a methodology for discovering hyperparameters. Hyperparameters aid systems in convergence when well-tuned and handcrafted. However, to this end, poorly chosen hyperparameters leave practitioners in limbo, between concerns with implementation or improper choice in hyperparameter and system configuration. We specifically analyze the choice of learning rate in stochastic gradient descent (SGD), a popular algorithm. As a secondary goal, we attempt the discovery of fixed points using smoothing of the loss landscape by exploiting assumptions about its distribution to improve the update rule in SGD. Smoothing of the loss landscape has been shown to make convergence possible in large-scale systems and difficult black-box optimization problems. However, we use stochastic value gradients (SVG) to smooth the loss landscape by learning a surrogate model and then backpropagate through this model to discover fixed points on the real task SGD is trying to solve. Additionally, we construct a gym environment for testing model-free algorithms, such as Proximal Policy Optimization (PPO) as a hyperparameter optimizer for SGD. For tasks, we focus on a toy problem and analyze the convergence of SGD on MNIST using model-free and model-based reinforcement learning methods for control. The model is learned from the parameters of the true optimizer and used specifically for learning rates rather than for prediction. In experiments, we perform in an online and offline setting. In the online setting, we learn a surrogate model alongside the true optimizer, where hyperparameters are tuned in real-time for the true optimizer. In the offline setting, we show that there is more potential in the model-based learning methodology than in the model-free configuration due to this surrogate model that smooths out the loss landscape and makes for more helpful gradients during backpropagation.L’objectif principal de ce travail est de proposer une méthodologie de découverte des hyperparamètres. Les hyperparamètres aident les systèmes à converger lorsqu’ils sont bien réglés et fabriqués à la main. Cependant, à cette fin, des hyperparamètres mal choisis laissent les praticiens dans l’incertitude, entre soucis de mise en oeuvre ou mauvais choix d’hyperparamètre et de configuration du système. Nous analysons spécifiquement le choix du taux d’apprentissage dans la descente de gradient stochastique (SGD), un algorithme populaire. Comme objectif secondaire, nous tentons de découvrir des points fixes en utilisant le lissage du paysage des pertes en exploitant des hypothèses sur sa distribution pour améliorer la règle de mise à jour dans SGD. Il a été démontré que le lissage du paysage des pertes rend la convergence possible dans les systèmes à grande échelle et les problèmes difficiles d’optimisation de la boîte noire. Cependant, nous utilisons des gradients de valeur stochastiques (SVG) pour lisser le paysage des pertes en apprenant un modèle de substitution, puis rétropropager à travers ce modèle pour découvrir des points fixes sur la tâche réelle que SGD essaie de résoudre. De plus, nous construisons un environnement de gym pour tester des algorithmes sans modèle, tels que Proximal Policy Optimization (PPO) en tant qu’optimiseur d’hyperparamètres pour SGD. Pour les tâches, nous nous concentrons sur un problème de jouet et analysons la convergence de SGD sur MNIST en utilisant des méthodes d’apprentissage par renforcement sans modèle et basées sur un modèle pour le contrôle. Le modèle est appris à partir des paramètres du véritable optimiseur et utilisé spécifiquement pour les taux d’apprentissage plutôt que pour la prédiction. Dans les expériences, nous effectuons dans un cadre en ligne et hors ligne. Dans le cadre en ligne, nous apprenons un modèle de substitution aux côtés du véritable optimiseur, où les hyperparamètres sont réglés en temps réel pour le véritable optimiseur. Dans le cadre hors ligne, nous montrons qu’il y a plus de potentiel dans la méthodologie d’apprentissage basée sur un modèle que dans la configuration sans modèle en raison de ce modèle de substitution qui lisse le paysage des pertes et crée des gradients plus utiles lors de la rétropropagation

    La reconnaissance d'intention par apprentissage profond Ă  l'aide de connaissances symboliques

    Get PDF
    Pouvoir inférer l'intention de personnes que l'on observe ou avec lesquelles on interagit, ou de personnages d'histoires qu’on lit ou l'on nous raconte est possiblement un des constituants les plus remarquables de l'intelligence humaine. Cette capacité cognitive, connue entre autres sous l'appellation reconnaissance d'intention, demeure pourtant un problème irrésolu en intelligence artificielle. Celle-ci profiterait grandement de cette habileté à travers de nombreuses applications, telles que des dialogueurs virtuels plus fluides, des véhicules autonomes qui anticipent mieux les mouvements des usagers de la route, et des maisons autonomes à l'écoute de leurs occupants. L'apprentissage profond a récemment fait des percées éminentes en vision de l'ordinateur et en traitement du langage naturel. Il existe pourtant très peu d'applications au problème de reconnaissance d'intention, hormis à certains problèmes reliés comme la reconnaissance d'actions et d'activités, qui n'impliquent pas de longues séquences d'interaction planifiées pour atteindre un but. Une grande partie de la recherche de ce côté utilise des méthodes symboliques, qui sont basées essentiellement sur des connaissances d'experts humains. Or, ces méthodes sont incapables de s'adapter lorsque ces connaissances sont erronées, ce qui est un des freins majeurs à leur application sur des domaines réels. Ce mémoire vise dans un premier temps à étudier le potentiel de l'apprentissage profond pour la reconnaissance d'intention de manière expérimentale en comparaison avec des méthodes basées sur les coûts qui font partie de l'état de l'art symbolique. Dans un deuxième temps, il présente une manière de permettre aux réseaux de neurones d'améliorer leur capacité de généralisation grâce à des caractéristiques générées par des planificateurs symboliques lui offrant une conception des futurs potentiels de l'agent observé. Cela sera fait par l'introduction de deux articles scientifiques, dont le premier a été publié à PAIR, un événement concomitant à AAAI reconnu pour ses recherches sur la reconnaissance de plan, d'activités et d'intention, et dont le deuxième vient d'être soumis à AAAI, une conférence renommée en intelligence artificielle

    Parsimonious reasoning in reinforcement learning for better credit assignment

    Full text link
    Le contenu de cette thèse explore la question de l’attribution de crédits à long terme dans l’apprentissage par renforcement du point de vue d’un biais inductif de parcimonie. Dans ce contexte, un agent parcimonieux cherche à comprendre son environnement en utilisant le moins de variables possible. Autrement dit, si l’agent est crédité ou blâmé pour un certain comportement, la parcimonie l’oblige à attribuer ce crédit (ou blâme) à seulement quelques variables latentes sélectionnées. Avant de proposer de nouvelles méthodes d’attribution parci- monieuse de crédits, nous présentons les travaux antérieurs relatifs à l’attribution de crédits à long terme en relation avec l’idée de sparsité. Ensuite, nous développons deux nouvelles idées pour l’attribution de crédits dans l’apprentissage par renforcement qui sont motivées par un raisonnement parcimonieux : une dans le cadre sans modèle et une pour l’apprentissage basé sur un modèle. Pour ce faire, nous nous appuyons sur divers concepts liés à la parcimonie issus de la causalité, de l’apprentissage supervisé et de la simulation, et nous les appliquons dans un cadre pour la prise de décision séquentielle. La première, appelée évaluation contrefactuelle de la politique, prend en compte les dévi- ations mineures de ce qui aurait pu être compte tenu de ce qui a été. En restreignant l’espace dans lequel l’agent peut raisonner sur les alternatives, l’évaluation contrefactuelle de la politique présente des propriétés de variance favorables à l’évaluation des politiques. L’évaluation contrefactuelle de la politique offre également une nouvelle perspective sur la rétrospection, généralisant les travaux antérieurs sur l’attribution de crédits a posteriori. La deuxième contribution de cette thèse est un algorithme augmenté d’attention latente pour l’apprentissage par renforcement basé sur un modèle : Latent Sparse Attentive Value Gra- dients (LSAVG). En intégrant pleinement l’attention dans la structure d’optimisation de la politique, nous montrons que LSAVG est capable de résoudre des tâches de mémoire active que son homologue sans modèle a été conçu pour traiter, sans recourir à des heuristiques ou à un biais de l’estimateur original.The content of this thesis explores the question of long-term credit assignment in reinforce- ment learning from the perspective of a parsimony inductive bias. In this context, a parsi- monious agent looks to understand its environment through the least amount of variables possible. Alternatively, given some credit or blame for some behavior, parsimony forces the agent to assign this credit (or blame) to only a select few latent variables. Before propos- ing novel methods for parsimonious credit assignment, previous work relating to long-term credit assignment is introduced in relation to the idea of sparsity. Then, we develop two new ideas for credit assignment in reinforcement learning that are motivated by parsimo- nious reasoning: one in the model-free setting, and one for model-based learning. To do so, we build upon various parsimony-related concepts from causality, supervised learning, and simulation, and apply them to the Markov Decision Process framework. The first of which, called counterfactual policy evaluation, considers minor deviations of what could have been given what has been. By restricting the space in which the agent can reason about alternatives, counterfactual policy evaluation is shown to have favorable variance properties for policy evaluation. Counterfactual policy evaluation also offers a new perspective to hindsight, generalizing previous work in hindsight credit assignment. The second contribution of this thesis is a latent attention augmented algorithm for model-based reinforcement learning: Latent Sparse Attentive Value Gradients (LSAVG). By fully inte- grating attention into the structure for policy optimization, we show that LSAVG is able to solve active memory tasks that its model-free counterpart was designed to tackle, without resorting to heuristics or biasing the original estimator

    L'apprentissage profond, une puissante alternative pour la reconnaissance d'intention

    Get PDF
    Ce mémoire s'inscrit dans la lignée d'une avancée de connaissances en reconnaissance d'intention, une discipline de recherche en intelligence artificielle visant à inférer les buts poursuivis par un individu à l'aide d'observations de son comportement. Ce problème, du fait de sa complexité, reste irrésolu dans les domaines réels: les voitures autonomes, les instruments de détection d'intrusion, les conseillers virtuels par messagerie et tant d'autres profiteraient encore actuellement d'une capacité de reconnaissance d'intention. Longtemps abordé sous l'angle de considérations symboliques spécifiées par des experts humains, le problème commence à être résolu par des approches récentes usant d'algorithmes d'apprentissage dans des contextes simples. Nous nous inspirons ici des progrès de l'apprentissage profond dans des domaines connexes pour en faire usage à des fins de reconnaissance de but à long-terme. Encore sous-exploité pour cette catégorie de problèmes, nous l'avons mis à l'épreuve pour résoudre les problèmes traités dans la littérature et cherchons à améliorer les performances de l'état de l'art. Pour ce faire, nous présentons trois articles de recherche. Le premier, accepté au workshop PAIR (Plan, Activity and Intent Recognition) lors de la conférence AAAI 2018 (Association for the Advancement of Artificial Intelligence), propose une comparaison expérimentale entre différentes architectures d'apprentissage profond et les méthodes symboliques de l'état de l'art. Nous montrons de ce fait que nos meilleurs résultats surpassent ces méthodes symboliques dans les domaines considérés. Le deuxième, publié sur arXiv, introduit une méthode pour permettre à un réseau de neurones de généraliser rapidement à plusieurs environnements grâce à une projection des données sur un espace intermédiaire et en s'inspirant des progrès du few-shot transfer learning. Enfin, le troisième, soumis à ICAPS 2020 (International Conference on Automated Planning and Scheduling), améliore encore les résultats précédents en fournissant aux réseaux des caractéristiques supplémentaires leur permettant de se projeter dans le futur avec une capacité d'imagination et de résoudre le principal défaut inhérent aux approches symboliques de l'état de l'art, à savoir la dépendance à une représentation approximée de l'environnement

    Tractographie par apprentissage par renforcement

    Get PDF
    L'Imagerie par Résonance Magnétique de diffusion (IRMd) est présentement la seule technique non-invasive permettant d'étudier la structure de la matière blanche dans le cerveau humain. L'IRMd permet une reconstruction indirecte de la matière blanche grâce à la modélisation du mouvement de l'eau et la tractographie. La tractographie a été décrite comme un problème mal-posé; malgré les nombreux algorithmes développés, il demeure très difficile d'évaluer la connectivité globale du cerveau selon des actions basées sur des informations locales. Motivées par l'explosion des performances de l'apprentissage profond supervisé, des tentatives ont été faites afin d'utiliser cet outil pour concevoir des algorithmes de tractographie exempts des problèmes affligeant la tractographie classique. Cependant ces méthodes, apprenant de données provenant des algorithmes classiques, sont à ce jour vouées à reproduire les même erreurs. Parallèlement, l'apprentissage profond par renforcement a récemment connu des avancées extraordinaires menant à des percées telles que AlphaGo. L'apprentissage profond par renforcement, par opposition à l'apprentissage profond supervisé, permet à l'algorithme d'apprendre par exploration, ne requérant qu'un signal récompensant les actions adéquates de l'agent apprenant. Dans ce mémoire, nous aborderons la possibilité d'apprendre à un algorithme d'apprentissage profond par renforcement à reconstruire les chemins de la matière blanche sans avoir recourt à des données biaisées par les algorithmes classiques. Nous poserons le problème de la tractographie dans le contexte de l'apprentissage par renforcement, décrirons les pièges à éviter lors de la conception d'un tel algorithme, puis proposerons une méthode permettant d'obtenir des résultats compétitifs aux algorithmes de tractographie existants
    • …
    corecore