1,357 research outputs found
Simultaneous Perturbation Algorithms for Batch Off-Policy Search
We propose novel policy search algorithms in the context of off-policy, batch
mode reinforcement learning (RL) with continuous state and action spaces. Given
a batch collection of trajectories, we perform off-line policy evaluation using
an algorithm similar to that by [Fonteneau et al., 2010]. Using this
Monte-Carlo like policy evaluator, we perform policy search in a class of
parameterized policies. We propose both first order policy gradient and second
order policy Newton algorithms. All our algorithms incorporate simultaneous
perturbation estimates for the gradient as well as the Hessian of the
cost-to-go vector, since the latter is unknown and only biased estimates are
available. We demonstrate their practicality on a simple 1-dimensional
continuous state space problem
Correctional Change Through Neuroscience
Currently, the U.S. criminal justice system is under intense scrutiny. High- profile cases question the appropriateness of specific types of evidence, decision making in sentencing, and the treatment of convicted offenders. Clearly, these issues are not new. And, as has been historically the case, the justice system looks toward science for assistance in addressing and redressing problems with the delivery of justice
How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies
Using deep neural nets as function approximator for reinforcement learning
tasks have recently been shown to be very powerful for solving problems
approaching real-world complexity. Using these results as a benchmark, we
discuss the role that the discount factor may play in the quality of the
learning process of a deep Q-network (DQN). When the discount factor
progressively increases up to its final value, we empirically show that it is
possible to significantly reduce the number of learning steps. When used in
conjunction with a varying learning rate, we empirically show that it
outperforms original DQN on several experiments. We relate this phenomenon with
the instabilities of neural networks when they are used in an approximate
Dynamic Programming setting. We also describe the possibility to fall within a
local optimum during the learning process, thus connecting our discussion with
the exploration/exploitation dilemma.Comment: NIPS 2015 Deep Reinforcement Learning Worksho
Min Max Generalization for Two-stage Deterministic Batch Mode Reinforcement Learning: Relaxation Schemes
We study the minmax optimization problem introduced in [22] for computing
policies for batch mode reinforcement learning in a deterministic setting.
First, we show that this problem is NP-hard. In the two-stage case, we provide
two relaxation schemes. The first relaxation scheme works by dropping some
constraints in order to obtain a problem that is solvable in polynomial time.
The second relaxation scheme, based on a Lagrangian relaxation where all
constraints are dualized, leads to a conic quadratic programming problem. We
also theoretically prove and empirically illustrate that both relaxation
schemes provide better results than those given in [22]
Le thon : enjeux et stratégies pour l'océan Indien
Cet article fait un bilan résumé de quelques caractéristiques principales des interactions thonières telles qu'elles apparaissent actuellement à l'issue des deux groupes de travail réunis par la FAO (Nouméa en 1991 à Shimizu en 1995). Une typologie des différents types potentiels d'interactions est présentée. Ces interactions sont de fait rarement mises en évidence dans les pêcheries thonières, même pour des pêcheries qui capturent de grandes quantités de thons dans les mêmes zones ou dans des zones voisines. Des hypothèses expliquant cette rareté des interactions sont avancées. Le cas particulier des interactions entre les pêcheries thonières de l'océan Indien est discuté. (Résumé d'auteur
Penser le travail à l'époque moderne (XVIIe - XIXe s.) : introduction et perspectives
Version de travail avant publicationNational audienceNous ne savons plus réellement ce qu'est le travail, si tant est que nous l'ayons jamais su. La mouvance de ses limites ces dernières décennies, les désillusions engendrées par la fin des utopies, nous font nous interroger sur ce que tout cela signifie. Pourquoi travaillons-nous ? Pourquoi travaillons-nous de cette manière ? Comment en sommes nous arrivés là ? Nous avons perdu le sens de savoir ce que le travail désigne et ce à quoi il sert. C'est ici que l'examen historique peut s'avérer salutaire. Cet article est introductif au dossier "Penser le travail à l'époque moderne (XVIIe s. -XIXe s.)" des Cahiers d'Histoire- Revue d'Histoire Critique, n0 110 (2009), qui se veut une modeste contribution à un effort d'éclaircissement des bases de cette catégorie de pensée, en examinant comment et pourquoi, depuis le XVIIe siècle jusqu'au XIXe siècle, le travail s'est chargé de ses significations, comment il s'est construit comme un concept autonome
Une reprise en main de l’enseignement de la chimie à l’École centrale des arts et manufactures par Jean-Baptiste Dumas aux débuts des années 1870
International audienc
- …