1,357 research outputs found

    Simultaneous Perturbation Algorithms for Batch Off-Policy Search

    Full text link
    We propose novel policy search algorithms in the context of off-policy, batch mode reinforcement learning (RL) with continuous state and action spaces. Given a batch collection of trajectories, we perform off-line policy evaluation using an algorithm similar to that by [Fonteneau et al., 2010]. Using this Monte-Carlo like policy evaluator, we perform policy search in a class of parameterized policies. We propose both first order policy gradient and second order policy Newton algorithms. All our algorithms incorporate simultaneous perturbation estimates for the gradient as well as the Hessian of the cost-to-go vector, since the latter is unknown and only biased estimates are available. We demonstrate their practicality on a simple 1-dimensional continuous state space problem

    Correctional Change Through Neuroscience

    Get PDF
    Currently, the U.S. criminal justice system is under intense scrutiny. High- profile cases question the appropriateness of specific types of evidence, decision making in sentencing, and the treatment of convicted offenders. Clearly, these issues are not new. And, as has been historically the case, the justice system looks toward science for assistance in addressing and redressing problems with the delivery of justice

    How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies

    Full text link
    Using deep neural nets as function approximator for reinforcement learning tasks have recently been shown to be very powerful for solving problems approaching real-world complexity. Using these results as a benchmark, we discuss the role that the discount factor may play in the quality of the learning process of a deep Q-network (DQN). When the discount factor progressively increases up to its final value, we empirically show that it is possible to significantly reduce the number of learning steps. When used in conjunction with a varying learning rate, we empirically show that it outperforms original DQN on several experiments. We relate this phenomenon with the instabilities of neural networks when they are used in an approximate Dynamic Programming setting. We also describe the possibility to fall within a local optimum during the learning process, thus connecting our discussion with the exploration/exploitation dilemma.Comment: NIPS 2015 Deep Reinforcement Learning Worksho

    Min Max Generalization for Two-stage Deterministic Batch Mode Reinforcement Learning: Relaxation Schemes

    Full text link
    We study the minmax optimization problem introduced in [22] for computing policies for batch mode reinforcement learning in a deterministic setting. First, we show that this problem is NP-hard. In the two-stage case, we provide two relaxation schemes. The first relaxation scheme works by dropping some constraints in order to obtain a problem that is solvable in polynomial time. The second relaxation scheme, based on a Lagrangian relaxation where all constraints are dualized, leads to a conic quadratic programming problem. We also theoretically prove and empirically illustrate that both relaxation schemes provide better results than those given in [22]

    Le thon : enjeux et stratégies pour l'océan Indien

    Get PDF
    Cet article fait un bilan résumé de quelques caractéristiques principales des interactions thonières telles qu'elles apparaissent actuellement à l'issue des deux groupes de travail réunis par la FAO (Nouméa en 1991 à Shimizu en 1995). Une typologie des différents types potentiels d'interactions est présentée. Ces interactions sont de fait rarement mises en évidence dans les pêcheries thonières, même pour des pêcheries qui capturent de grandes quantités de thons dans les mêmes zones ou dans des zones voisines. Des hypothèses expliquant cette rareté des interactions sont avancées. Le cas particulier des interactions entre les pêcheries thonières de l'océan Indien est discuté. (Résumé d'auteur

    Penser le travail à l'époque moderne (XVIIe - XIXe s.) : introduction et perspectives

    Get PDF
    Version de travail avant publicationNational audienceNous ne savons plus réellement ce qu'est le travail, si tant est que nous l'ayons jamais su. La mouvance de ses limites ces dernières décennies, les désillusions engendrées par la fin des utopies, nous font nous interroger sur ce que tout cela signifie. Pourquoi travaillons-nous ? Pourquoi travaillons-nous de cette manière ? Comment en sommes nous arrivés là ? Nous avons perdu le sens de savoir ce que le travail désigne et ce à quoi il sert. C'est ici que l'examen historique peut s'avérer salutaire. Cet article est introductif au dossier "Penser le travail à l'époque moderne (XVIIe s. -XIXe s.)" des Cahiers d'Histoire- Revue d'Histoire Critique, n0 110 (2009), qui se veut une modeste contribution à un effort d'éclaircissement des bases de cette catégorie de pensée, en examinant comment et pourquoi, depuis le XVIIe siècle jusqu'au XIXe siècle, le travail s'est chargé de ses significations, comment il s'est construit comme un concept autonome

    Une reprise en main de l’enseignement de la chimie à l’École centrale des arts et manufactures par Jean-Baptiste Dumas aux débuts des années 1870

    Get PDF
    International audienc
    corecore