Search CORE

1 research outputs found

Intensive versus non-intensive actor-critic reinforcement learning algorithms

Author: C. Watkins
D. Precup
G. Barto
K. Doya
R. Williams
R.S. Sutton
R.S. Sutton
R.S. Sutton
V.R. Konda
Publication venue
Publication date: 01/01/2004
Field of study

Algorithms of reinforcement learning usually employ consecutive agent's actions to construct gradients estimators to adjust agent's policy. The policy is a result of some kind of stochastic approximation

CiteSeerX

Crossref