24 research outputs found
Optimisation des Processus Décisionnels de Markov Partiellement Observables avec prise en compte explicite du gain d’information
Traditionnellement, les travaux de recherche en décision séquentielle dans l'incertain avec observabilité partielle reposent sur les Processus Décisionnels de Markov Partiellement Observables (POMDP), optimisés avec un critère de maximisation de revenus cumulés pondérés sur un horizon d'action donné. Or, ce critère est pessimiste dans la mesure où la décision est optimisée sur une distribution de probabilité sur l'état de croyance de l'agent autonome, sans que l'algorithme ne réduise explicitement cette incertitude. Autrement dit, les critères classiques d'optimisation des POMDP raisonnent sur toutes les hypothèses possibles, sans favoriser explicitement les actions qui pourraient acquérir de l'information et réduire le champ d’hypothèses. Au contraire, les travaux en traitement d'image et particulièrement en perception active s'intéressent plutôt à trouver les actions qui minimisent l'entropie de croyance, c'est-à-dire l'incertitude sur l'état caché, mais sans optimiser une récompense globale liée à la mission du robot. Ainsi, afin de résoudre au mieux des problèmes robotiques alliant à la fois des objectifs de perception et de mission, nous proposons deux nouveaux critères mixtes, l'un additif et l’autre multiplicatif, qui agrègent les récompenses cumulées (mission) et les entropies de croyance cumulées (perception), toutes deux pondérées sur un horizon d'action commun. À l'aide d’évaluations statistiques sur plusieurs exécutions de la politique optimisée, nous montrons que nos critères mixtes sont optimaux par rapport à un critère purement entropique, et que le critère additif améliore même un critère basé purement sur les récompenses de la mission. Ce dernier point démontre que le critère classique, qui repose uniquement sur les récompenses cumulées, n'est pas optimal lors de l’exécution, car il ne prend pas en compte explicitement le gain d'information et la réduction de l’incertitude sur l'état caché du système
Learning to Solve Job Shop Scheduling under Uncertainty
Job-Shop Scheduling Problem (JSSP) is a combinatorial optimization problem
where tasks need to be scheduled on machines in order to minimize criteria such
as makespan or delay. To address more realistic scenarios, we associate a
probability distribution with the duration of each task. Our objective is to
generate a robust schedule, i.e. that minimizes the average makespan. This
paper introduces a new approach that leverages Deep Reinforcement Learning
(DRL) techniques to search for robust solutions, emphasizing JSSPs with
uncertain durations. Key contributions of this research include: (1)
advancements in DRL applications to JSSPs, enhancing generalization and
scalability, (2) a novel method for addressing JSSPs with uncertain durations.
The Wheatley approach, which integrates Graph Neural Networks (GNNs) and DRL,
is made publicly available for further research and applications.Comment: To be published at CPAIOR 202
Modeling action feasibility in POMDPs with boolean-valued preconditions
In automated planning, action preconditions are boolean-valued formulas, which check whether a given action is feasible in a given state. While crucial for realistic applications where dangerous actions in some states must be discarded, preconditions have never been formally considered in POMDPs. One reason is that preconditions are defined over states whereas decisions depend on the current
belief of the agent. Simply defining preconditions over beliefs is not sufficient because, as each belief is possibly defined over many states, there is no guarantee to prevent the agent from applying an infeasible damaging
action. Augmenting the observation space with feasible actions does not help more, since the optimization process still maximizes the value of the current belief over all existing actions in the model. Thus, we propose an extension of the traditional POMDP model that, by means of an additional information step semantically different from standard observations, allows the agent to know the set of feasible actions before deciding the best action to apply. Without requiring a full knowledge of the current state, this extended model leads to a significant modification of the decision process, for which we provide a proved optimization scheme. We also compare the value and the execution paths of policies optimized either with the standard model or with our extended one, and show that our policies are always safe and gather more rewards at execution
Modélisation de la faisabilité d'action dans le POMDP avec des préconditions booléennes
En planification classique, une précondition sur une action est une formule booléenne, qui vérifie si une action est réalisable pour un état donné. Cet élément crucial pour des applications réalistes, où par exemple des actions considérées dangereuses doivent être éliminées, n'a pas été formellement modélisé pour les POMDPs à notre connaissance. Une raison est que les préconditions sont définies sur des états, i.e. le domaine d'application de l'action, alors que les décisions prises dans un POMDP sont définies sur l'état de croyance courant de l'agent. Définir simplement des préconditions sur des états de croyance n'est pas suffisant, puisque chaque état de croyance peut-être défini sur plusieurs états, et il n'y a pas de garantie d'éviter que l'agent applique une action infaisable. Augmenter l'espace d'observations avec des actions réalisables n'est pas non plus satisfaisant, d'abord parce que l'information sur les actions applicables est obtenue, par définition, après la décision et, de plus, le processus d'optimisation continuera de maximiser la valeur de l'état de croyance courant sur toutes les actions du modèle. Ainsi, nous proposons une extension du modèle traditionnel des POMDP qui, via une étape additionnelle d'information sémantiquement différente de l'observation standard,permet à l'agent de connaître avec certitude l'ensemble d'actions réalisables avant de décider de la meilleure action à appliquer. Cette étape additionnelle d'information, qui ne nécessite pas de connaître complètement l'état courant de l'agent, requiert une modification significative du modèle de décision, pour lequel nous fournissons un nouveau schéma d'optimisation. Nous comparons la valeur des trajectoires des politiques optimisées pour le modèle traditionnel et pour le modèle proposé, et nous montrons que nos politiques s'avèrent toujours sûres, i.e. sans danger, et expriment donc une valeur plus importante pour des problèmes avec observabilité partielle qui présentent naturellement des préconditions booléennes
POMDP solving: what rewards do you really expect at execution?
Partially Observable Markov Decision Processes have gained an increasing interest in many research communities, due to sensible improvements of their optimization algorithms and of computers capabilities. Yet, most research focus on optimizing either average accumulated rewards (AI planning) or direct entropy (active perception), whereas none of them matches the rewards actually gathered at execution. Indeed, the first optimization criterion linearly averages over all belief states, so that it does not gain best information from different observations, while the second one totally discards rewards. Thus, motivated by simple demonstrative examples, we study an additive combination of these two criteria to get the best of reward gathering and information acquisition at execution. We then compare our criterion with classical ones, and highlight the need to consider new hybrid non-linear criteria, on a realistic multi-target recognition and tracking mission
Optimisation de POMDP : quelles récompenses sont réellement attendues à l'exécution de la politique ?
Les Processus Décisionnels Markoviens Partiellement Observables sont actuellement un sujet d'intérêt dans la communauté scientifique grâce aux progrès observés dans des algorithmes de résolution et dans les capacités numériques de calcul. La plupart de ces algorithmes sont focalisés sur la résolution d'un critère de performance, qui a pour ambition de caractériser les politiques qui permettront de générer les séquences de récompenses le plus importantes possibles. Dans la planification en Intelligence Artificielle, l'attention est tournée vers un critère qui optimise une somme pondérée des récompenses, et, pour des applications en perception active d'autre part, le critère est souvent défini en termes de gain d'information (entropie de Shannon). Aucun de ces critères ne prend en compte les récompenses réellement acquises lors de l'exécution de la politique. En effet, le premier critère est une moyenne linéaire sur l'espace d'états de croyance, de sorte que l'agent ne tend pas à obtenir une meilleure information des différentes observations, alors que le second critère ne prend pas en compte les récompenses. Ainsi, motivés par des exemples démonstratifs, nous étudions deux combinaisons, additive et multiplicative, de ces critères afin d'obtenir une meilleur séquence de récompenses et de gain d'information lors de l'exécution de la politique. Nous comparons nos critères avec le critère classique optimisé (y-pondéré) dans le cadre POMDP et nous soulignons l'intérêt de considérer un nouveau critère hybride non-linéaire pour des applications réalistes de reconnaissance et pistage multi-cibles
Open Loop Execution of Tree-Search Algorithms
In the context of tree-search stochastic planning algorithms where a generative model is available, we consider on-line planning algorithms building trees in order to recommend an action. We investigate the question of avoiding re-planning in subsequent decision steps by directly using sub-trees as action recommender. Firstly, we propose a method for open loop control via a new algorithm taking the decision of re-planning or not at each time step based on an analysis of the statistics of the sub-tree. Secondly, we show that the probability of selecting a suboptimal action at any depth of the tree can be upper bounded and converges towards zero. Moreover, this upper bound decays in a logarithmic way between subsequent depths. This leads to a distinction between node-wise optimality and state-wise optimality. Finally, we empirically demonstrate that our method achieves a compromise between loss of performance and computational gain
Robot introspection through learned hidden Markov models
In this paper we describe a machine learning approach for acquiring a model of a robot behaviour from raw sensor data. We are interested in automating the acquisition of behavioural models to provide a robot with an introspective capability. We assume that the behaviour of a robot in achieving a task can be modelled as a finite stochastic state transition system. Beginning with data recorded by a robot in the execution of a task, we use unsupervised learning techniques to estimate a hidden Markov model (HMM) that can be used both for predicting and explaining the behaviour of the robot in subsequent executions of the task. We demonstrate that it is feasible to automate the entire process of learning a high quality HMM from the data recorded by the robot during execution of its task.The learned HMM can be used both for monitoring and controlling the behaviour of the robot. The ultimate purpose of our work is to learn models for the full set of tasks associated with a given problem domain, and to integrate these models with a generative task planner. We want to show that these models can be used successfully in controlling the execution of a plan. However, this paper does not develop the planning and control aspects of our work, focussing instead on the learning methodology and the evaluation of a learned model. The essential property of the models we seek to construct is that the most probable trajectory through a model, given the observations made by the robot, accurately diagnoses, or explains, the behaviour that the robot actually performed when making these observations. In the work reported here we consider a navigation task. We explain the learning process, the experimental setup and the structure of the resulting learned behavioural models. We then evaluate the extent to which explanations proposed by the learned models accord with a human observer's interpretation of the behaviour exhibited by the robot in its execution of the task
Rackham: An Interactive Robot-Guide
International audienceRackham is an interactive robot-guide that has been used in several places and exhibitions. This paper presents its design and reports on results that have been obtained after its deployment in a permanent exhibition. The project is conducted so as to incrementally enhance the robot functional and decisional capabilities based on the observation of the interaction between the public and the robot. Besides robustness and efficiency in the robot navigation abilities in a dynamic environment, our focus was to develop and test a methodology to integrate human-robot interaction abilities in a systematic way. We first present the robot and some of its key design issues. Then, we discuss a number of lessons that we have drawn from its use in interaction with the public and how that will serve to refine our design choices and to enhance robot efficiency and acceptability