Search CORE

39 research outputs found

XMDP : un modèle de planification temporelle dans l'incertain à actions paramétriques

Author: Garcia Frédérick
Rachelson Emmanuel
Teichteil-Königsbuch Florent
Publication venue
Publication date: 01/01/2007
Field of study

Certains problèmes de décision impliquent de choisir à la fois des actions à entreprendre mais également des paramètres à affecter à ces actions. Par exemple, l'action ``avancer'' nécessite souvent d'y associer une distance. Dans le cadre de la décision dans l'incertain, on propose d'étendre le modèle MDP pour prendre en compte des actions paramétriques dont le paramètre est une variable de décision. On s'attache à établir les équations d'optimalité pour ces MDP paramétriques et on prolonge les résultats connus pour les MDP classiques. La variable temporelle a une place spéciale dans ce modèle, on détaillera ses propriétés et on les mettra en lumière des travaux précédents en planification temporelle dans l'incertain et en MDP à espaces d'état hybrides

Open Archive Toulouse Archive Ouverte

A Simulation-based Approach for Solving Temporal Markov Problems

Author: Fabiani Patrick
Garcia Frédérick
Quesnel Gauthier
Rachelson Emmanuel
Publication venue
Publication date: 01/01/2008
Field of study

Time is a crucial variable in planning and often requires special attention since it introduces a specific structure along with additional complexity, especially in the case of decision under uncertainty. In this paper, after reviewing and comparing MDP frameworks designed to deal with temporal problems, we focus on Generalized Semi-Markov Decision Processes (GSMDP) with observable time. We highlight the inherent structure and complexity of these problems and present the differences with classical reinforcement learning problems. Finally, we introduce a new simulation-based reinforcement learning method for solving GSMDP, bringing together results from simulation-based policy iteration, regression techniques and simulation theory. We illustrate our approach on a subway network control example

Open Archive Toulouse Archive Ouverte

Une Approche basée sur la Simulation pour l'Optimisation des Processus Décisionnels Semi-Markoviens Généralisés

Author: Fabiani Patrick
Garcia Frédérick
Quesnel Gauthier
Rachelson Emmanuel
Publication venue
Publication date: 01/01/2008
Field of study

Open Archive Toulouse Archive Ouverte

Un Algorithme Amélioré d'Itération de la Politique Approchée pour les Processus Décisionnels Semi-Markoviens Généralisés

Author: Fabiani Patrick
Garcia Frédérick
Rachelson Emmanuel
Publication venue
Publication date: 01/01/2008
Field of study

La complexité des problèmes de décision dans l'incertain dépendant du temps provient sou-vent de l'interaction de plusieurs processus concurrents. Les Processus Décisionnels Semi-Markoviens Généralisés (GSMDP) consituent un formalisme efficace et élégant pour représenter à la fois les aspects de concurrence d'événements et d'actions et d'incertitude. Nous proposons un formalisme GSMDP étendu à un temps observable et un espace d'états hybride. Sur cette base, nous introduisons un nouvel algorithme inspiré de l'itération de la politique approchée afin de construire des politiques efficaces. Cet algorithme repose sur une exploration guidée par la simulation et utilise les techniques d'appren-tissage à vecteurs supports. Nous illustrons cet algorithme sur un exemple et en proposons une version améliorée qui compense sa principale faiblesse

Open Archive Toulouse Archive Ouverte

Approximate Policy Iteration for Generalized Semi-Markov Decision Processes: an Improved Algorithm

Author: Fabiani Patrick
Garcia Frédérick
Rachelson Emmanuel
Publication venue
Publication date: 01/01/2008
Field of study

In the context of time-dependent problems of planning under uncertainty, most of the problem's complexity comes from the concurrent interaction of simultaneous processes. Generalized Semi-Markov Decision Processes represent an efficient formalism to capture both concurrency of events and actions and uncertainty. We introduce GSMDP with observable time and hybrid state space and present an new algorithm based on Approximate Policy Iteration to generate efficient policies. This algorithm relies on simulation-based exploration and makes use of SVM regression. We experimentally illustrate the strengths and weaknesses of this algorithm and propose an improved version based on the weaknesses highlighted by the experiments

Open Archive Toulouse Archive Ouverte