191 research outputs found

    Apprentissage par Renforcement et Théorie des Jeux pour la coordination de Systèmes Multi-Agents

    Get PDF
    This article presents the main reinforcement learning algorithms that aim at coordinating multi-agent systems by using tools and formalisms borrowed from Game Theory. Limits of these approaches are studied and discussed in order to draw some promising lines of research for that particular field. We argue more deeply around the central notions of Nash equilibrium and games with imperfect monitoring

    Modèles de formation de coalitions stables dans un contexte ad-hoc et stochastique

    Get PDF
    An ad-hoc and stochastic context prevents : 1- the existence of a global view of the system that reflects a complete image of the deployment environment ; 2- the existence of a priori knowledge because of the lack of a centralized structure, the dynamic of the tasks and the random availability of the entities. We proposed different strategies to facilitate the dynamic stabilization of the interactions between the agents and the convergence towards better coordination states. Our conception of alliances and recommendations allows an agent to evolve independently, to dynamically identify reliable neighboring agents with whom to cooperate and to form Nash-stable or Core stable coalitions according to the requirements of the deployment environment. To face with the challenges of the correlation between local behavior of the agents and the properties of their environment, we use in an original way the Markovian models. We also focused on taking into account the interdependencies between the agents to increase their efficiency in order to optimize the imputed costs of the ad-hoc components where the agents are deployed. This led us to propose both mechanisms, the S-NRB (Sequential Non-return Broadcast) and the P-NRB (Parallel Non-return Broadcast) for distributed coordination seeking to maximize the social welfare of the agents. To highlight the intrinsic properties of our methods, our whole proposals have been studied theoretically and experimentally through our simulatorTravailler dans un contexte ad hoc et dynamique, pour les agents, empêche : 1- l'existence d'une vue globale du système qui reflète une image complète de l'environnement de déploiement ; 2- l'existence de connaissances a priori sur la manière de se coordonner en raison de l'absence d'une structure centralisée et de la disponibilité aléatoire des entités considérés. Nous avons proposé différentes stratégies comportementales pour faciliter la stabilisation dynamique des interactions entre les agents et la convergence vers les meilleurs états de coordination. Notre conception des alliances et des recommandations permet à un agent d'évoluer de manière autonome, d'identifier dynamiquement les agents voisins fiables avec qui coopérer et de former avec son voisinage des partitions Nash-stables selon les exigences de l'environnement de déploiement. Pour répondre à la difficulté de corrélation entre les comportements locaux des agents et les propriétés de l'environnement de déploiement des agents, nous utilisons de manière originale les modèles Markoviens. Nous nous sommes aussi focalisés sur la prise en compte des interdépendances entre les agents pour augmenter leur efficacité dans un souci d'optimisation les coûts imposés aux composants ad-hoc communicants où les agents sont déployés. Cela nous a amené à proposer le modèle S-NRB (Sequentiel Non-return Broadcast) et le modèle P-NRB (Parallel Non-return Broadcast) pour la coordination distribuée qui cherchent à maximiser le bien-être social des agents. Pour mettre en exergue les propriétés intrinsèques de nos méthodes, toutes nos propositions ont été étudiées de manière théorique et expérimentale grâce à notre simulateu

    Programmation dynamique avec approximation de la fonction valeur

    Get PDF
    L'utilisation d'outils pour l'approximation de la fonction de valeur est essentielle pour pouvoir traiter des problèmes de prise de décisions séquentielles de grande taille. Les méthodes de programmation dynamique (PD) et d'apprentissage par renforcement (A/R) introduites aux chapitres 1 et 2 supposent que la fonction de valeur peut être représentée (mémorisée) en attribuant une valeur à chaque état (dont le nombre est supposé fini), par exemple sous la forme d'un tableau. Ces méthodes de résolution, dites exactes, permettent de déterminer la solution optimale du problème considéré (ou tout au moins de converger vers cette solution optimale). Cependant, elles ne s'appliquent souvent qu'à des problèmes jouets, car pour la plupart des applications intéressantes, le nombre d'états possibles est si grand (voire infini dans le cas d'espaces continus) qu'une représentation exacte de la fonction ne peut être parfaitement mémorisée. Il devient alors nécessaire de représenter la fonction de valeur, de manière approchée, à l'aide d'un nombre modéré de coefficients, et de redéfinir et analyser des méthodes de résolution, dites approchées pour la PD et l'A/R, afin de prendre en compte les conséquences de l'utilisation de telles approximations dans les problèmes de prise de décisions séquentielles

    Méthodes d'apprentissage de la coordination multiagent : application au transport intelligent

    Get PDF
    Les problèmes de prise de décisions séquentielles multiagents sont difficiles à résoudre surtout lorsque les agents n'observent pas parfaitement l'état de Y environnement. Les approches existantes pour résoudre ces problèmes utilisent souvent des approximations de la fonction de valeur ou se basent sur la structure pour simplifier la résolution. Dans cette thèse, nous proposons d'approximer un problème de décisions séquentielles multiagent à observation limitée, modélisé par un processus décisionnel markovien décentralisé (DEC-MDP) en utilisant deux hypothèses sur la structure du problème. La première hypothèse porte sur la structure de comportement optimal et suppose qu'il est possible d'approximer la politique optimale d'un agent en connaissant seulement les actions optimales au niveau d'un petit nombre de situations auxquelles l'agent peut faire face dans son environnement. La seconde hypothèse porte, quant à elle, sur la structure organisationnelle des agents et suppose que plus les agents sont éloignés les uns des autres, moins ils ont besoin de se coordonner. Ces deux hypothèses nous amènent à proposer deux approches d'approximation. La première approche, nommée Supervised Policy Reinforcement Learning, combine l'apprentissage par renforcement et l'apprentissage supervisé pour généraliser la politique optimale d'un agent. La second approche se base, quant à elle, sur la structure organisationnelle des agents pour apprendre une politique multiagent dans des problèmes où l'observation est limitée. Pour cela, nous présentons un modèle, le D O F - D E C - M DP (Distance-Observable Factored Decentralized Markov Décision Process) qui définit une distance d'observation pour les agents. A partir de ce modèle, nous proposons des bornes sur le gain de récompense que permet l'augmentation de la distance d'observation. Les résultats empiriques obtenus sur des problèmes classiques d'apprentissage par renforcement monoagents et multiagents montrent que nos approches d'approximation sont capables d'apprendre des politiques proches de l'optimale. Enfin, nous avons testé nos approches sur un problème de coordination de véhicules en proposant une méthode de synchronisation d'agents via la communication dans un cadre à observation limitée

    Jeux répétés à information incomplète

    Get PDF

    Jeux répétés à information incomplète

    Get PDF

    L'analyse économique des normes : représentation et traitement des interactions dans les modèles de simulation

    Get PDF
    L'ensemble des travaux que l'on regroupe sous la même dénomination d'"analyse économique des normes" sont relativement dispersés. Ce qui fait leur point commun est qu'ils se revendiquent de l'individualisme méthodologique et qu'ils donnent lieu à des modélisations de l'interaction entre les acteurs. La présentation qui en est faite ici vise moins la rédaction d'un "survey" que l'indication des hypothèses principales et des options de recherche choisies. Après avoir précisé les termes d'une convergence de travaux récents vers une analyse économique des normes, on se concentre sur deux grands axes de ces approches : les démarches "analytiques" qui reposent sur des modèles stochastiques, et les simulations multi-agents.analyse économique ; norme ; modèle ; simulation

    Programmation dynamique à base de points pour la résolution des DEC-POMDPs

    Get PDF
    National audienceNous présentons un nouvel algorithme de planification pour la construction de systèmes multi-agents réactifs et situés pouvant se modéliser par des processus de décision de Markov décentralisés (DEC-POMDP). Cet algorithme est fondé sur la programmation dynamique à base de points. Il est dérivé de techniques de programmation dynamique optimale utilisées pour résoudre des jeux stochastiques partiellement observables(POSG) et des techniques d'approximation utilisées pour résoudre des POMDP mono-agents. Nous montrons pour la première fois qu'il est possible de déterminer un ensemble d'états de croyance multi-agent pertinents, et nous montrons comment ce calcul permet ensuite d'éviter le recours à la programmation linéaire très couteuse dans le cas multi-agent. Nous détaillons une version exacte et une version approximative de notre algorithme, et nous montrons son efficacité sur un exemple de la littérature
    corecore