45 research outputs found

    Méthodes d'apprentissage de la coordination multiagent : application au transport intelligent

    Get PDF
    Les problèmes de prise de décisions séquentielles multiagents sont difficiles à résoudre surtout lorsque les agents n'observent pas parfaitement l'état de Y environnement. Les approches existantes pour résoudre ces problèmes utilisent souvent des approximations de la fonction de valeur ou se basent sur la structure pour simplifier la résolution. Dans cette thèse, nous proposons d'approximer un problème de décisions séquentielles multiagent à observation limitée, modélisé par un processus décisionnel markovien décentralisé (DEC-MDP) en utilisant deux hypothèses sur la structure du problème. La première hypothèse porte sur la structure de comportement optimal et suppose qu'il est possible d'approximer la politique optimale d'un agent en connaissant seulement les actions optimales au niveau d'un petit nombre de situations auxquelles l'agent peut faire face dans son environnement. La seconde hypothèse porte, quant à elle, sur la structure organisationnelle des agents et suppose que plus les agents sont éloignés les uns des autres, moins ils ont besoin de se coordonner. Ces deux hypothèses nous amènent à proposer deux approches d'approximation. La première approche, nommée Supervised Policy Reinforcement Learning, combine l'apprentissage par renforcement et l'apprentissage supervisé pour généraliser la politique optimale d'un agent. La second approche se base, quant à elle, sur la structure organisationnelle des agents pour apprendre une politique multiagent dans des problèmes où l'observation est limitée. Pour cela, nous présentons un modèle, le D O F - D E C - M DP (Distance-Observable Factored Decentralized Markov Décision Process) qui définit une distance d'observation pour les agents. A partir de ce modèle, nous proposons des bornes sur le gain de récompense que permet l'augmentation de la distance d'observation. Les résultats empiriques obtenus sur des problèmes classiques d'apprentissage par renforcement monoagents et multiagents montrent que nos approches d'approximation sont capables d'apprendre des politiques proches de l'optimale. Enfin, nous avons testé nos approches sur un problème de coordination de véhicules en proposant une méthode de synchronisation d'agents via la communication dans un cadre à observation limitée

    Programmation dynamique avec approximation de la fonction valeur

    Get PDF
    L'utilisation d'outils pour l'approximation de la fonction de valeur est essentielle pour pouvoir traiter des problèmes de prise de décisions séquentielles de grande taille. Les méthodes de programmation dynamique (PD) et d'apprentissage par renforcement (A/R) introduites aux chapitres 1 et 2 supposent que la fonction de valeur peut être représentée (mémorisée) en attribuant une valeur à chaque état (dont le nombre est supposé fini), par exemple sous la forme d'un tableau. Ces méthodes de résolution, dites exactes, permettent de déterminer la solution optimale du problème considéré (ou tout au moins de converger vers cette solution optimale). Cependant, elles ne s'appliquent souvent qu'à des problèmes jouets, car pour la plupart des applications intéressantes, le nombre d'états possibles est si grand (voire infini dans le cas d'espaces continus) qu'une représentation exacte de la fonction ne peut être parfaitement mémorisée. Il devient alors nécessaire de représenter la fonction de valeur, de manière approchée, à l'aide d'un nombre modéré de coefficients, et de redéfinir et analyser des méthodes de résolution, dites approchées pour la PD et l'A/R, afin de prendre en compte les conséquences de l'utilisation de telles approximations dans les problèmes de prise de décisions séquentielles

    Méta-apprentissage des algorithmes génétiques

    Get PDF

    Un environnement sémantique à base d'agents pour la formation à distance (E-Learning)

    Get PDF
    Aujourd’hui, les établissements d’enseignement, tels que les universités, de plus en plus offrent des contenus d’E -Learning. Certains de ces cours sont utilisés avec l'enseignement traditionnel (face à face ou présentiel), tandis que d'autres sont utilisés entièrement en ligne. La création de contenu d'apprentissage est une tâche principale dans tous les environnements d'apprentissage en ligne. Les contraintes de réduire au minimum le temps nécessaire pour développer un contenu d'apprentissage, d'augmenter sa qualité scientifique et de l'adapter à de nombreuses situations (contenu adaptatif), ont été un principal objectif et donc plusieurs approches et méthodes ont été proposées. En outre, les caractéristiques intellectuelles et sociales, ainsi que les styles d'apprentissage des individus, peuvent être très différents. Ces différences conduisent les personnes à adapter le contenu d'apprentissage en tenant compte des profils des apprenants et de leurs objectifs et caractéristiques. Cette recherche ouvre des portes pour les systèmes d'apprentissage avancées, qui fournissent aux apprenants immédiatement, des contenus d’apprentissage adaptés selon plusieurs critères de chaque apprenant. Alors que, il ne peut pas être pratique si nous n'avons pas plus d'informations sur l'apprenant et le contenu d'apprentissage (objectifs d'apprentissage, les prérequis, préférences, niveaux ...etc). Par conséquent, nous développons un système collaboratif, où plusieurs auteurs travaillent en collaboration, pour créer et annoter le contenu éducatif en utilisant le système multi-agents. La contribution de notre système est l'hybridation des techniques d'adaptation avec celles de la collaboration et du Web sémantique (ontologie, annotation). Nous représentons les profils des apprenants et le contenu d'apprentissage en utilisant des ontologies et des annotations pour répondre à la diversité et aux besoins individuelles des apprenants. Nous utilisons le paradigme agent, dans notre système, pour bénéficier des points forts de ce paradigme tels que la modularité, autonomie, flexibilité... etc

    MASCODE : un système multi-agent adaptatif pour concevoir des produits complexes. Application à la conception préliminaire avion

    Get PDF
    La conception préliminaire avion est un problème d'optimisation multi-disciplinaire et multi-objectif qui consiste à trouver les valeurs des paramètres de description d'un avion et de ses performances en fonction de contraintes. Ces valeurs sont calculées grâce à des connaissances disciplinaires. Les interdépendances entre les paramètres et les non linéarités complexifient les calculs pour lesquels les méthodes classiques se montrent insuffisantes. Pour pallier ce problème, nous proposons une solution basée sur les systèmes multi-agents adaptatifs dans lesquels les agents représentent les disciplines, les paramètres de conception et les performances de l'avion. Les agents en utilisant des connaissances disciplinaires et par un comportement coopératif trouvent collectivement les valeurs des paramètres de conception qui satisfont les contraintes et les performances. Nous montrons que cette approche permet aussi d'intégrer plusieurs questions telles l'étude de sensibilité des paramètres, les fronts de Pareto ou la co-conception en temps réel.The preliminary design aircraft can be viewed as a multi-disciplinary, multi-objective optimisation problem which consists in finding the values of the aircraft description parameters and of its performances. These values are calculated with disciplinary knowledge. The interdependencies between the parameters and non linearities lead to complex calculus which cannot be realized efficiently by classicmethods. We propose an approach based on adaptive multiagent systems in which agents represent the disciplines, the design parameters and the aircraft performances. In using disciplinary knowledge and a cooperative behaviour, the agents collectively reach the parameters values satisfying constraints and performances. We show this approach affords interesting capabilities such as sensibilities analysis, Pareto front or dynamic interactions

    Apprentissage du contrôle de systèmes complexes par l'auto-organisation coopérative d'un système multi-agent: Application à la calibration de moteurs à combustion

    Get PDF
    This thesis tackles the problem of complex systems control with a multi-agent approach. Controlling a system means applying the adequate actions on its inputs, in order to put the system in a desired state. Usual methods are based on analytical models of the controlled system. They find their limits with complex systems, because of the non-linear dynamics. Building a model of this kind of system is indeed very difficult, and exploiting such a model is even harder. A better approach is to learn how to control, without having to exploit any model. But Ashby's Law taught us that the controller must be at least as complex as the controlled system. A part of the challenge is to build a complex system with the correct functionnality.This challenge is tackled with the Adaptive Multi-Agent Systems (AMAS) approach, which relies on cooperation and emergence to design adaptive multi-agent systems able to perform complex tasks.Cette thèse s'intéresse au contrôle de systèmes complexes, et propose une solution multi-agent.Contrôler un système, c'est appliquer les modifications adéquates sur ses entrées de façon à placer ses sorties dans un état attendu. Les méthodes habituelles se basent majoritairement sur l'utilisation de modèles mathématiques du système contrôlé, afin de calculer les actions de contrôle à effectuer. Ces méthodes trouvent leurs limites face aux systèmes complexes, qui ont une dynamique non-linéaire, et sont souvent bruités et instables. La construction d'un modèle est dans ce cas une tâche ardue, qui peut s'étendre sur plusieurs années. La plupart des méthodes proposent alors d'utiliser un algorithme d'apprentissage artificiel pour apprendre un modèle. Cependant, le modèle produit demeure difficile à exploiter pour le contrôle, puisqu'il reproduit les caractéristiques difficiles du système réel, notamment sa non-linéarité. Une meilleure approche, adoptée dans cette thèse, consiste à apprendre directement le contrôle. La loi de la variété requise indique que, pour être capable d'accomplir sa tâche, le contrôleur doit être au moins aussi complexe que le système contrôlé. Il faut donc concevoir un système capable d'apprendre, de contrôler, et surtout, de franchir le mur de la complexité.La distribution du contrôle, c'est-à-dire l'affectation du contrôle de chaque entrée d'un système à des contrôleurs plus ou moins indépendants, permet de s'attaquer à la complexité. Mais cela demeure un sujet de recherche actif, à plus forte raison lorsque vient s'ajouter une problématique d'apprentissage. Les systèmes multi-agents (SMA), composés d'entités autonomes, se prêtent naturellement aux problèmes distribués et peuvent ainsi beaucoup apporter. En particulier, les systèmes multi-agents adaptatifs (AMAS) s'appuient sur l'auto-organisation des agents pour faire émerger une fonction globale adéquate. Cette auto-organisation est guidée par la coopération. Chaque agent est capable de détecter et de résoudre les situations dans lesquelles il ne peut accomplir sa tâche. Un AMAS est ainsi doté de fortes capacités d'adaptation et d'apprentissage. Il est également capable, grâce à l'émergence, d'accomplir des tâches complexes. Appliquée au problème du contrôle et de son apprentissage, cette approche conduit à la définition d'un SMA particulier, présenté dans cette thèse. Les expérimentations, menées sur des simulations ainsi qu'en situation réelle (sur un moteur à combustion), ont montré la capacité du système à apprendre le contrôle de plusieurs entrées en fonction de critères sur plusieurs sorties, tout en étant robuste aux perturbations, et facile à instancier. Ces résultats sont analysés pour conclure sur la validité du système

    Apprentissage statistique de modèles de comportement multimodal pour les agents conversationnels interactifs

    No full text
    Face to face interaction is one of the most fundamental forms of human communication. It is a complex multimodal and coupled dynamic system involving not only speech but of numerous segments of the body among which gaze, the orientation of the head, the chest and the body, the facial and brachiomanual movements, etc. The understanding and the modeling of this type of communication is a crucial stage for designing interactive agents capable of committing (hiring) credible conversations with human partners. Concretely, a model of multimodal behavior for interactive social agents faces with the complex task of generating gestural scores given an analysis of the scene and an incremental estimation of the joint objectives aimed during the conversation. The objective of this thesis is to develop models of multimodal behavior that allow artificial agents to engage into a relevant co-verbal communication with a human partner. While the immense majority of the works in the field of human-agent interaction (HAI) is scripted using ruled-based models, our approach relies on the training of statistical models from tracks collected during exemplary interactions, demonstrated by human trainers. In this context, we introduce "sensorimotor" models of behavior, which perform at the same time the recognition of joint cognitive states and the generation of the social signals in an incremental way. In particular, the proposed models of behavior have to estimate the current unit of interaction ( IU) in which the interlocutors are jointly committed and to predict the co-verbal behavior of its human trainer given the behavior of the interlocutor(s). The proposed models are all graphical models, i.e. Hidden Markov Models (HMM) and Dynamic Bayesian Networks (DBN). The models were trained and evaluated - in particular compared with classic classifiers - using datasets collected during two different interactions. Both interactions were carefully designed so as to collect, in a minimum amount of time, a sufficient number of exemplars of mutual attention and multimodal deixis of objects and places. Our contributions are completed by original methods for the interpretation and comparative evaluation of the properties of the proposed models. By comparing the output of the models with the original scores, we show that the HMM, thanks to its properties of sequential modeling, outperforms the simple classifiers in term of performances. The semi-Markovian models (HSMM) further improves the estimation of sensorimotor states thanks to duration modeling. Finally, thanks to a rich structure of dependency between variables learnt from the data, the DBN has the most convincing performances and demonstrates both the best performance and the most faithful multimodal coordination to the original multimodal events.L'interaction face-à-face représente une des formes les plus fondamentales de la communication humaine. C'est un système dynamique multimodal et couplé – impliquant non seulement la parole mais de nombreux segments du corps dont le regard, l'orientation de la tête, du buste et du corps, les gestes faciaux et brachio-manuels, etc – d'une grande complexité. La compréhension et la modélisation de ce type de communication est une étape cruciale dans le processus de la conception des agents interactifs capables d'engager des conversations crédibles avec des partenaires humains. Concrètement, un modèle de comportement multimodal destiné aux agents sociaux interactifs fait face à la tâche complexe de générer un comportement multimodal étant donné une analyse de la scène et une estimation incrémentale des objectifs conjoints visés au cours de la conversation. L'objectif de cette thèse est de développer des modèles de comportement multimodal pour permettre aux agents artificiels de mener une communication co-verbale pertinente avec un partenaire humain. Alors que l'immense majorité des travaux dans le domaine de l'interaction humain-agent repose essentiellement sur des modèles à base de règles, notre approche se base sur la modélisation statistique des interactions sociales à partir de traces collectées lors d'interactions exemplaires, démontrées par des tuteurs humains. Dans ce cadre, nous introduisons des modèles de comportement dits "sensori-moteurs", qui permettent à la fois la reconnaissance des états cognitifs conjoints et la génération des signaux sociaux d'une manière incrémentale. En particulier, les modèles de comportement proposés ont pour objectif d'estimer l'unité d'interaction (IU) dans laquelle sont engagés de manière conjointe les interlocuteurs et de générer le comportement co-verbal du tuteur humain étant donné le comportement observé de son/ses interlocuteur(s). Les modèles proposés sont principalement des modèles probabilistes graphiques qui se basent sur les chaînes de markov cachés (HMM) et les réseaux bayésiens dynamiques (DBN). Les modèles ont été appris et évalués – notamment comparés à des classifieurs classiques – sur des jeux de données collectés lors de deux différentes interactions face-à-face. Les deux interactions ont été soigneusement conçues de manière à collecter, en un minimum de temps, un nombre suffisant d'exemplaires de gestion de l'attention mutuelle et de deixis multimodale d'objets et de lieux. Nos contributions sont complétées par des méthodes originales d'interprétation et d'évaluation des propriétés des modèles proposés. En comparant tous les modèles avec les vraies traces d'interactions, les résultats montrent que le modèle HMM, grâce à ses propriétés de modélisation séquentielle, dépasse les simples classifieurs en terme de performances. Les modèles semi-markoviens (HSMM) ont été également testé et ont abouti à un meilleur bouclage sensori-moteur grâce à leurs propriétés de modélisation des durées des états. Enfin, grâce à une structure de dépendances riche apprise à partir des données, le modèle DBN a les performances les plus probantes et démontre en outre la coordination multimodale la plus fidèle aux évènements multimodaux originaux
    corecore