246 research outputs found

    Planification Optimiste dans les Processus Décisionnels de Markov avec Croyance

    Full text link
    Cet article décrit l'algorithme BOP (de l'anglais ``Bayesian Optimistic Planning''), un nouvel algorithme d'apprentissage par renforcement Bayésien indirect (c'est à dire fondé sur un modèle). BOP étend l'approche de l'algorithme OP-MDP (de l'anglais ``Optimistic Planning for Markov Decision Processes'', voir [Busoniu2011,Busoniu2012]) au cas où les probabilités de transitions du MDP sous-jacent sont initialement inconnues, et doivent être apprises au travers d'interactions avec l'environnement. Les connaissances sur le MDP sous-jacent sont représentées par une distribution de probabilités sur l'ensemble de tous les modèles de transitions à l'aide de distributions de Dirichlet. L'algorithme BOP planifie dans l'espace augmenté état-croyance obtenu par concaténation du vecteur d'état avec la distribution postérieure sur les modèles de transitions. On montre que BOP atteint l'optimalité Bayésienne lorsque le paramètre de budget tend vers l'infini. Quelques expériences préliminaires montrent des résultats encourageants.Peer reviewe

    SOaN : un algorithme pour la coordination d'agents apprenants et non communicants.

    No full text
    National audienceL'apprentissage par renforcement dans les systèmes multi-agents est un domaine de recherche très actif, comme en témoignent les états de l'art récents [Busoniu et al., 2008, Sandholm, 2007, Bab & Brafman, 2008, Vlassis, 2007]. Lauer et Riedmiller ont notamment montré que, sous certaines hypothèses, il est possible à des agents apprenants simultanément de coordonner leurs actions sans aucune communication et sans qu'ils perçoivent les actions de leurs congénères [Lauer & Riedmiller, 2000]. Cette propriété est particulièrement intéressante pour trouver des stratégies de coopération dans les systèmes multi-agents de grande taille

    Conception sûre et optimale de systèmes dynamiques critiques auto-adaptatifs soumis à des évènements redoutés probabilistes

    Get PDF
    This study takes place in the broad field of Artificial Intelligence, specifically at the intersection of two domains : Automated Planning and Formal Verification in probabilistic environment.In this context, it raises the question of the integration of new technologies in critical systems, and the complexity it entails : How to ensure that adding intelligence to a system, in the form of autonomy, is not done at the expense of safety ?To address this issue, this study aims to develop a tool-supported process for designing critical, self-adaptive systems. Throughout this document, innovations are therefore proposed in methods of formal modeling and in algorithms for safe and optimal planning.Cette étude s’inscrit dans le domaine de l’intelligence artificielle, plus précisément au croisementdes deux domaines que sont la planification autonome en environnement probabiliste et la vérification formelle probabiliste. Dans ce contexte, elle pose la question de la maîtrise de lacomplexité face à l’intégration de nouvelles technologies dans les systèmes critiques : commentgarantir que l’ajout d’une intelligence à un système, sous la forme d’une autonomie, ne se fassepas au détriment de la sécurité ?Pour répondre à cette problématique, cette étude a pour enjeu de développer un processus outillé, permettant de concevoir des systèmes auto-adaptatifs critiques, ce qui met en oeuvre à la fois des méthodes de modélisation formelle des connaissances d’ingénierie, ainsi que des algorithmes de planification sûre et optimale des décisions du système

    Un modèle intégré pour explorer les trajectoires d’utilisation de l’espace

    Get PDF
    International audienceDynamic spatial models are important tools for the study of complex systems like environmental systems. This paper presents an integrated model that has been designed to explore land use trajectories in a small region around Maroua, located in the far north of Cameroon. The model simulates competition between land use types taking into account a set of biophysical, socio-demographic and geo-economics driving factors. The model includes three modules. The dynamic simulation module combines results of the spatial analysis and prediction modules. Simulation results for each scenario can help to identify where changes occur. The model developed constitutes an efficient knowledge support system for exploratory research and land use planning.Les modèles spatiaux dynamiques sont des outils de très grande importance pour l'étude des systèmes complexes comme les systèmes environnementaux. De plus, une approche intégrée est indispensable lorsqu'on veut avoir une compréhension plus complète du comportement de ces systèmes. Cet article décrit les bases d'un modèle intégré développé pour explorer les trajectoires d'utilisation de l'espace dans la région autour de Maroua, à l'Extrême Nord du Cameroun. Le modèle simule la compétition entre différentes catégories d'utilisation de l'espace en prenant en compte l'influence d'un ensemble de facteurs biophysiques, sociodémographiques et géoéconomiques. On distingue trois principaux modules. Le module de simulation dynamique combine les résultats des modules d'analyse spatiale et de prédiction. La calibration et la validation du modèle ont été effectuées pour la période entre 1987 et 1999, et la simulation des changements entre 1999 et 2010. Trois scénarios ont été formulés en s'appuyant sur l'analyse des tendances observées et les hypothèses de transition du système d'utilisation de l'espace. Les principales dynamiques observées concernent le développement de la culture maraîchère et l'extension de la culture du sorgho de contre saison qui induisent une compétition plus importante et des conflits. Les résultats de simulation pour chaque scénario permettent d'identifier des zones prioritaires pour toute intervention allant dans le sens de l'intensification ou d'une gestion intégrée et plus durable de l'espace. Le modèle développé constitue ainsi un outil de recherche exploratoire et un support de connaissances utilisable pour la planification de l'utilisation de l'espace. Une utilisation est envisageable pour initier toute concertation ou négociation entre les acteurs concernés par la gestion de l'espace

    Modèle d'ordonnancement dynamique de projets de réfection

    Get PDF
    Introduction à la réfection d'équipements -- Revue de la littérature -- Développement d'un modèle de planification -- Simulation d'un projet de réfection -- Ordonnancement dynamique des activités -- Expérimentation -- Généralisation du modèle -- Recommendations

    Développement d'une approche floue multicritères pour une planification intégrée couplant la gestion de la performance et du risque

    Get PDF
    Le présent travail s’intéresse à la prise en compte de l’incertitude et du risque pour l’optimisation de la planification de production au niveau tactique d’une entreprise multi-sites d’une chaîne logistique. La méthode proposée permet d’assurer une planification des opérations de production et d’approvisionnement tout en intégrant au sein de son processus décisionnel un mécanisme de gestion de risque, en présence de diverses sources d’incertitude et d’ambigüité. Pour cela, une «bibliothèque» de critères structurés en deux classes indépendantes : critères de performance et critères de risque a été proposée, dans laquelle le décideur peut sélectionner ceux qui sont en cohérence avec ses préférences et sa stratégie de planification. La méthode doit chercher le bon compromis entre les performances et les risques prédéfinis par le décideur. Pour cela, nous nous somme dirigés dans un premier temps sur le développement d’une approche d’aide à la décision multicritères floue couplant un modèle analytique et la méthode TOPSIS floue. Cette approche consiste à générer un éventail de plans réalisables, caractérisés par leur performance et leur résistance aux risques. Le décideur peut alors choisir le plan qui reflète le compromis le plus adapté à sa stratégie de décision. Une deuxième approche d’optimisation multi-objectifs floue a été proposée dans un deuxième temps pour faire face à des problèmes de planification de grande taille au sein des chaînes logistiques opérant dans un environnement dynamique et incertain. Cette approche combine la méthode TOPSIS Floue, la programmation multi-objectifs possibiliste et la méthode du Goal Programming. L’objectif est de déterminer un plan jugé de bon compromis vis-à- vis des préférences du décideur par rapport aux objectifs de performance et de résistance aux risques. L’instanciation des deux approches proposées sur un exemple numérique a montré leur applicabilité et leur efficacité pour faire face à des problèmes de planification des chaînes logistiques utilisant des données incertaines et des préférences subjectives. Les expérimentations des deux approches permettant de tirer un ensemble d’enseignements utiles

    Recherche heuristique pour jeux stochastiques (à somme nulle)

    Get PDF
    National audienceIn various types of problems, such as sequential decision-making, heuristic search algorithms allow exploiting the knowledge of the initial situation and of an admissible heuristic to efficiently search for an optimal solution. Such algorithms exist including in case of uncertain dynamics, of partial observability, of multiple criteria, or of multiple collaborating agents. Here we propose a heuristic search algorithm for two-player zero-sum stochastic games with discounted criterion. This algorithm relies on HSVI—hence on generating trajectories. We demonstrate that, each player acting in an optimistic manner, and employing simple heuristic initializations, the resulting algorithm converges in finite time to an-optimal solution.Dans divers types de problèmes, par exemple de prise de décision séquentielle, les algorithmes de recherche heuristique permettent d'exploiter la connaissance d'une situation initiale et d'une heuristique admissible pour rechercher efficacement une solution optimale. De tels algorithmes existent y compris en cas de dynamique incertaine, d'observabilité partielle, de critères multiples, ou d'agents multiples collaborant. Nous proposons ici un algorithme de recherche heuristique pour jeux stochastiques à deux joueurs et à somme nulle, et avec critère décompté, algorithme reposant sur HSVI—donc sur la génération de trajectoires. Nous démontrons que, chaque joueur agissant de manière optimiste, et en employant des initialisations heuristiques simples, l'algorithme obtenu converge vers une solution-optimale en temps fini

    Planification multi-niveaux avec expertise humaine

    Get PDF
    La planification automatique est un domaine de recherche de l Intelligence Artificielle qui vise à calculer automatiquement une séquence d actions menant d un état initial donné à un but souhaité. Cependant, résoudre des problèmes réalistes est généralement difficile car trouver un chemin solution peut demander d explorer un nombre d états croissant exponentiellement avec le nombre de variables. Pour faire face à cette explosion combinatoire, les algorithmes performants ont recours aux heuristiques ou à des solutions hiérarchiques, décomposant le problème en sous-problèmes plus petits et plus simples. Dans une grande majorité des cas, le planificateur doit prendre en compte un certain nombre de contraintes telles que des phases d actions prédéfinies ou des protocoles. Ces contraintes aident à résoudre le problème en élaguant un grand nombre de branches de l arbre de recherche. Nous proposons alors une nouvelle méthode pour modéliser et résoudre des problèmes de planification déterministe en se basant sur une approche hiérarchique et heuristique. Nous nous sommes inspirés des formalismes de programmation structurée afin de fournir à l utilisateur un cadre de travail plus intuitif pour la modélisation des domaines de planification hiérarchique. D autre part, nous avons proposé un algorithme de planification capable d exploiter ce formalisme et composer des stratégies à différents niveaux de granularité, ce qui lui permet de planifier rapidement une stratégie globale, tout en étant en mesure de pallier aux difficultés rencontrées à plus bas niveau. Cet algorithme a fait ses preuves face au principal planificateur HTN, SHOP2, sur des problèmes de planification classique.Automated planning is a field of Artificial Intelligence which aims at automatically computing a sequence of actions that lead to some goals from a given initial state. However, solving realistic problems is challenging because finding a solution path may require to explore an exponential number of states with regard to the number of state variables. To cope with this combinatorial explosion, efficient algorithms use heuristics, which guide the search towards optimistic or approximate solutions. Remarkably, hierarchical methods iteratively decompose the planning problem into smaller and much simpler ones. In a vast majority of problems, the planner must deal with constraints, such as multiple predefined phases or protocols. Such constraints generally help solving the planning problem, because they prune lots of search paths where these constraints do not hold. In this thesis, we assume that these constraints are known and given to the planner. We thus propose a new method to model and solve a deterministic planning problem, based on a hierarchical and heuristic approach and taking advantage of these constraints. We inspired ourselves from structured programming formalisms in order to offer a more intuitive modeling framework in the domain of hierarchical planning to the user. We also proposed a planning algorithm able to exploit this formalism and build strategies at various levels of granularity, thus allowing to plan quickly a global strategy, while still being able to overcome the difficulties at lower level. This algorithm showed its performances compared with the main HTN planner, SHOP2, on classical planning problems.TOULOUSE-ISAE (315552318) / SudocSudocFranceF

    Recopier c'est déjà adapter : six types d'adaptation par copie

    Get PDF
    Colloque avec actes sans comité de lecture. nationale.National audienceCet article étudie l'adaptation par copie dans le cadre du RàPC Cette étude revient à répertorier des relations entre les problèmes source et cible qui font que la solution du premier peut être réutilisée littéralement pour le second. Six relations sont décrites-: celle qui correspond à un raisonnement approximatif ou incertain, celle qui exploite l'équivalence entre représentations de problèmes, la relation de généralité du problème source au problème cible, celle qui exploite des symétries, celle qui correspond au principe de précaution et celle qui correspond au cas des dépendances nulles

    BRL Quasi-Optimal à l'aide de Transitions Locales Optimistes

    Get PDF
    National audienceL'apprentissage par renforcement bayésien basé modèle (BRL) permet une formalisation saine du problème consistant à agir optimalement face à un environnement inconnu, c'est-à-dire en évitant le dilemme exploration-exploitation. Toutefois, les algorithmes s'attaquant explicitement au BRL souffrent d'une telle explosion combinatoire qu'un grand nombre de travaux repose sur des algorithmes heuristiques. Cet article introduit BOLT, un algorithme heuristique simple et (presque) déterministe pour le BRL qui est optimiste vis à vis de la fonction de transition. Nous analysons la complexité d'échantillon de BOLT et montrons que, pour certains paramètres, l'algorithme est quasi-optimal au sens bayésien avec une grande probabilité. Puis, des résultats expérimentaux mettent en valeur les principales différences entre cette méthode et des travaux antérieurs
    corecore