Transfer learning for actor-critic methods in Lipschitz Markov decision processes

Abstract

Aprendizaje por Refuerzo es un paradigma para diseñar agentes artificiales cuando el conocimiento viene exclusivamente de interacción con un ambiente. Dificultades surgen cuando los espacios de estados y acciones son continuos pues los algoritmos clásicos de RL no son factibles ni convergentes. Los enfoques Actor-Critic resuelven dichos problemas al combinar la convergencia de los métodos policy-gradient con el poder representativo de function approximators, en un estimador de baja varianza. Aprendizaje por Transferencia es el paradigma que estudia el problema de transferir experiencia previa de diferentes ambientes cuando el agente encara uno nuevo y desconocido. Su objetivo es desarrollar algoritmos que aceleren el nuevo proceso de aprendizaje aprovechando el conocimiento previo. Avances relativos a TL en RL han emergido en años recientes, pero la mayoría se concentran en transferir información de alto nivel. La continuidad Lipschitziana, una noción más fuerte de continuidad para los elementos del ambiente, puede proveer suficiente información para crear mecanismos de transferencia a nivel de muestras y extender los métodos Actor-Critic. Esta tesis presenta dos de esos mecanismos basados en estimadores ponderados: uno hace una selección optimista de los pesos y otro una selección pesimista. Ambas técnicas son comparadas con un mecanismo de transferencia basado en estimación con Importance Sampling. El enfoque optimista produce buenos resultados en la mayoría de los casos experimentales, mostrándose como una alternativa prometedora sobre aquella con IS y el caso sin transferencia. El enfoque pesimista, en cambio, es demasiado conservativo al seleccionar pesos, y no produce mejoras importantes al caso sin transferencia.Reinforcement Learning is a framework for designing artificial agents when knowledge comes from interaction with an environment only. Difficulties arise when State and action spaces are continuous as dassical RL algorithms are not feasible or convergent. Actor-critic approaches solve these issues by combining the convergence of policy-gradient methods with the representation power of function approximators, in a low variance estimation. Transfer Learning is the paradigm that addresses the problem of transferring past experience from different tasks when the agent is facing a new, unknown one. Its purpose is to develop algorithms that speed-up the new learning process by leveraging the past knowledge. Advances concerning TL in RL have been developed in the recent years, but most of them focus on transfer higher level information like valué functions or policies. The Lipschitz continuity property, a stronger notion of continuity for the elements of the task, can provide enough information to create sample-level transfer mechanisms to extend the Actor-Critic methods. This thesis introduces two such mechanisms based on weighted estimators: one performs an optimistic selection of the weights and the other a pessimistic one. Both techniques are compared with a transfer mechanism based on Importance Sampling estimators. The optimistic approach produces good results in most of the experimental cases, showing itself as a promising alternative over the IS-based one and the no transfer scenario. The pessimistic approach, instead, tends to be too conservative on the selection of the weights, and offers no special improvements with respect to the no transfer scenario.Ingeniero (a) de SistemasPregrad

    Similar works