10 research outputs found

    Apprendre à jouer aux jeux à deux joueurs à information parfaite sans connaissance

    Get PDF
    International audienceIn this paper, several techniques for learning game states evaluation functions by reinforcement are proposed. The first is to learn the values of the game tree instead of restricting oneself to the value of the root. The second is to replace the classic gain of a game (+1 / −1) with a heuris-tic favoring quick wins and slow defeats. The third corrects some evaluation functions taking into account the resolution of states. The fourth is a new action selection distribution. Finally, the fifth is a modification of the minimax with unbounded depth extending the best sequences of actions to the terminal states. In addition, we propose another variant of the unbounded minimax, which plays the safest action instead of playing the best action. The experiments conducted suggest that this improves the level of play during confrontations. Finally, we apply these different techniques to design a program-player to the Hex game (size 11) reaching the level of Mohex 2.0 with reinforcement learning from self-play without knowledge.Dans cet article, plusieurs techniques pour l'apprentissage par renforcement de fonctions d'évaluation d'états de jeu sont proposées. La première consiste à apprendre les va-leurs de l'arbre de jeu au lieu de se restreindre à la va-leur de la racine. La seconde consiste à remplacer le gain classique d'un jeu (+1 / −1) par une heuristique favo-risant les victoires rapides et les défaites lentes. La troi-sième permet de corriger certaines fonctions d'évaluation en tenant compte de la résolution des états. La quatrième est une nouvelle distribution de sélection d'actions. Enfin, la cinquième est une modification du minimax à profon-deur non bornée étendant les meilleures séquences d'ac-tions jusqu'aux états terminaux. En outre, nous proposons une autre variante du minimax non borné, qui joue l'ac-tion la plus sure au lieu de jouer la meilleure action. Les expériences menées suggèrent que cela améliore le niveau de jeux lors des confrontations. Enfin, nous appliquons ces différentes techniques pour concevoir un programme-joueur au jeu de Hex (taille 11) atteignant le niveau de Mohex 2.0 à la suite d'un apprentissage par renforcement contre soi-même sans utilisation de connaissance

    Exploration sémantique des modèles socio-environnementaux: Approche générique pour l'initialisation et l'observation des modèles de simulation complexes

    Get PDF
    Researchers have sought to deal with the complexity of socio-ecosystems including biophysical and social dynamics, and their interactions. In order to cope with this complexity, they need increasingly complex models, whose initialization, and observation are becoming very difficult to implement. However, no generic framework has yet been developed to address this issue. The objective of the thesis is a generic framework for specifying and implementing the initialization from numerous heterogeneous data, and the observation producing the desired indicators. The result is a set of tools and know-how, allowing thematicians to specify and automate the whole process of exploitation of a simulation model, from the initialization to the production of indicators. For this, we propose to formulate the initialization and observation as transformations among data and data structures. This formulation allows to use the Model Driven Engineering (MDE) concepts in order to implement the generic framework and the corresponding domain specific languages (DSL) allow thematicians to specify easier initialization and observation SES models.Les chercheurs veulent aborder toute la complexité des socio-écosystèmes (SES) afférents aux dynamiques biophysiques, sociales ainsi qu’à leurs interactions. Afin d'aborder cette complexité, ils ont recours à des modèles de simulation de plus en plus complexes, dont l'initialisation et l'observation sont devenues difficiles à mettre en œuvre. Toutefois, aucun cadre générique n'a encore été développé pour résoudre ce problème. L’objectif de cette thèse est de proposer un cadre générique pour la spécification et la mise en œuvre de l'initialisation, à partir de nombreuses données hétérogènes, et l'observation pour produire les indicateurs souhaités par les thématiciens. Le résultat est un ensemble d’outils et de savoir-faire, permettant aux thématiciens de spécifier et d’automatiser l'ensemble du processus d'exploitation d’un modèle de simulation, de l'initialisation à la production des indicateurs. Pour cela, nous proposons de formuler l'initialisation et l'observation des modèles de simulation en des transformations entre données et structures de données. Cette formulation permet d'utiliser les concepts de l’ingénierie dirigée par les modèles (IDM) afin de mettre en œuvre des langages dédiés (DSL). Ces derniers fournissent les concepts nécessaires permettant aux thématiciens de spécifier plus facilement l’initialisation et l’observation de modèles de SES

    Dynamique d'apprentissage pour Monte Carlo Tree Search : applications aux jeux de Go et du Clobber solitaire impartial

    Get PDF
    Monte Carlo Tree Search (MCTS) has been initially introduced for the game of Go but has now been applied successfully to other games and opens the way to a range of new methods such as Multiple-MCTS or Nested Monte Carlo. MCTS evaluates game states through thousands of random simulations. As the simulations are carried out, the program guides the search towards the most promising moves. MCTS achieves impressive results by this dynamic, without an extensive need for prior knowledge. In this thesis, we choose to tackle MCTS as a full learning system. As a consequence, each random simulation turns into a simulated experience and its outcome corresponds to the resulting reinforcement observed. Following this perspective, the learning of the system results from the complex interaction of two processes : the incremental acquisition of new representations and their exploitation in the consecutive simulations. From this point of view, we propose two different approaches to enhance both processes. The first approach gathers complementary representations in order to enhance the relevance of the simulations. The second approach focuses the search on local sub-goals in order to improve the quality of the representations acquired. The methods presented in this work have been applied to the games of Go and Impartial Solitaire Clobber. The results obtained in our experiments highlight the significance of these processes in the learning dynamic and draw up new perspectives to enhance further learning systems such as MCTSDepuis son introduction pour le jeu de Go, Monte Carlo Tree Search (MCTS) a été appliqué avec succès à d'autres jeux et a ouvert la voie à une famille de nouvelles méthodes comme Mutilple-MCTS ou Nested Monte Carlo. MCTS évalue un ensemble de situations de jeu à partir de milliers de fins de parties générées aléatoirement. À mesure que les simulations sont produites, le programme oriente dynamiquement sa recherche vers les coups les plus prometteurs. En particulier, MCTS a suscité l'intérêt de la communauté car elle obtient de remarquables performances sans avoir pour autant recours à de nombreuses connaissances expertes a priori. Dans cette thèse, nous avons choisi d'aborder MCTS comme un système apprenant à part entière. Les simulations sont alors autant d'expériences vécues par le système et les résultats sont autant de renforcements. L'apprentissage du système résulte alors de la complexe interaction entre deux composantes : l'acquisition progressive de représentations et la mobilisation de celles-ci lors des futures simulations. Dans cette optique, nous proposons deux approches indépendantes agissant sur chacune de ces composantes. La première approche accumule des représentations complémentaires pour améliorer la vraisemblance des simulations. La deuxième approche concentre la recherche autour d'objectifs intermédiaires afin de renforcer la qualité des représentations acquises. Les méthodes proposées ont été appliquées aux jeu de Go et du Clobber solitaire impartial. La dynamique acquise par le système lors des expérimentations illustre la relation entre ces deux composantes-clés de l'apprentissag

    Environnement générique pour la validation de simulations médicales

    Get PDF
    Dans le cadre des simulations pour l'entrainement, le planning, ou l'aide per-opératoire aux gestes médicaux-chirurgicaux, de nombreux modèles ont été développés pour décrire le comportement mécanique des tissus mous. La vérification, la validation et l'évaluation sont des étapes cruciales en vue de l'acceptation clinique des résultats de simulation. Ces tâches, souvent basées sur des comparaisons avec des données expérimentales ou d'autres simulations, sont rendues difficiles par le nombre de techniques de modélisation existantes, le nombre d'hypothèses à considérer et la difficulté de réaliser des expériences réelles utilisables. Nous proposons un environnement de comparaison basé sur une analyse du processus de modélisation et une description générique des éléments constitutifs d'une simulation (e.g. géométrie, chargements, critère de stabilité) ainsi que des résultats (expérimentaux ou provenant d'une simulation). La description générique des simulations permet d'effectuer des comparaisons avec diverses techniques de modélisation (e.g. masse-ressorts, éléments finis) implémentées sur diverses plateformes de simulation. Les comparaisons peuvent être faites avec des expériences réelles, d'autres résultats de simulation ou d'anciennes versions du modèle grâce à la description commune des résultats, et s'appuient sur un ensemble de métriques pour quantifier la précision et la vitesse de calcul. La description des résultats permet également de faciliter l'échange d'expériences de validation. La pertinence de la méthode est montrée sur différentes expériences de validation et de comparaison de modèles. L'environnement et ensuite utilisé pour étudier l'influence des hypothèses de modélisations et des paramètres d'un modèle d'aspiration de tissu utilisé par un dispositif de caractérisation des lois de comportement. Cette étude permet de donner des pistes pour l'amélioration des prédictions du dispositif.Numerous models have been developed to describe the mechanical behavior of soft tissues for medical simulation. Verification, validation and evaluation are crucial steps towards the acceptance of simulation results by clinicians. These tasks, often based on comparisons between simulation results and experimental data or other simulations, are difficult because of the wide range of available modeling techniques, the number of possible assumptions, and the difficulty to perform validation experiments. A comparison framework is proposed based on the analysis of the modelisation process and on a generic description of both constitutive elements of a simulation (e.g. geometry, loads, stability criterion) and results (from simulations or experiments). Generic description allows comparisons between different modeling techniques implemented in various simulation platforms. Comparisons can be performed against real experiments, other simulation results or previous versions of a model thanks to the generic description of results and use a set of metrics to quantify both accuracy and computational efficiency. This description also facilitates validation experiments sharing. The usability of the method is shown on several validation and comparison experiments. The framework is then used to investigate the influence of modeling assumptions and parameters in a biomechanical finite element model of an in-vivo tissue aspiration device. This study gives clues towards the improvement of the predictions of the characterization device.SAVOIE-SCD - Bib.électronique (730659901) / SudocGRENOBLE1/INP-Bib.électronique (384210012) / SudocGRENOBLE2/3-Bib.électronique (384219901) / SudocSudocFranceF

    Composer à l'image : style, production et interactivité

    Full text link
    Le domaine des musiques à l’image présente un riche terrain d’expérimentations au compositeur. D’un côté, celui-ci doit s’adapter à des contraintes nombreuses et fortes : nature du projet, échéances, budgets, collaboration avec les membres de l’équipe visuelle (réalisateur, producteur, directeur artistique ou directeur audio), etc. D’un autre côté, l’image inspire, structure, et offre une liberté inédite sur de nombreux aspects de la création musicale. Parmi les médias visuels, le jeu vidéo s’accompagne de défis particuliers. Non seulement sa production, très itérative, s’effectue souvent sur une longue durée, mais surtout sa dimension interactive oblige le musicien à totalement repenser ses structures et ses méthodes de composition. Le présent ouvrage décrit l’évolution artistique de l’auteur, pour qui le rapport à l’image est essentiel, à travers l’étude de ses œuvres et du contexte de leur création. Au fil des analyses, l’attention sera portée successivement sur les points suivants : • Le langage musical proprement dit, notamment ses aspects mélodiques, harmoniques et systémiques ; • Les structures interactives et leur intégration dans un jeu vidéo ; • Les modalités de production et leur utilisation créative. Si la plupart des œuvres abordées sont directement composées pour des films ou jeux vidéo, cet écrit étend sa réflexion aux musiques de concert, et particulièrement sur trois aspects : la façon dont certaines, à l’instar du poème symphonique, se structurent à l’aide d’un argument visuellement fort, la relation entre linéarité du concert et interactivité du jeu vidéo, et la seconde vie que le ciné-concert (ou le « jeu-concert ») propose aux musiques à l’écran.The field of composition for the screen presents a fertile terrain for experimentation to the composer. On the one hand, he or she must adapt to numerous and significant constraints: nature of the project, deadlines, budgets, collaboration with the production team (director, producer, artistic director or audio director), etc. On the other hand, the image inspires, structures and offers unparalleled liberty with regards to numerous aspects of musical creation. Amongst visual media, video game production comes with unique challenges. Not only does its production, which involves a lot of trials and errors, often take place over a long period of time, but its interactive dimension requires the musician to completely rethink his approach to form and methods of composition. The present work describes the artistic evolution of the author, for whom a connection to the image is essential, through a study of his works and the context of their creation. Over the course of these analyses, attention will be given to the following points in succession: • Musical language, and in particular its melodic, harmonic and functional aspects • Interactive structures and their integration into a video game • Conditions of production and their creative use Although the majority of works discussed are composed specifically for film or video games, this thesis extends its reflection to concert music, and in particular three elements: the way in which some composers, as with a symphonic poem, structure their ideas based upon a strong visual inspiration; the relationship between the linearity of a concert and the interactivity of a video game; and the second life that the film screening with live music (ciné-concert), or the video game screening with live music (“jeu-concert”) offer to music written for the screen

    Etude des cycles épidémiologiques d'Anaplasma phagocytophilum en France : apport des approches de caractérisation génétique

    Get PDF
    A. phagocytophilum, a tick-borne bacterium, is responsible of the granulocytic anaplasmosis, an emerging disease that infects a large range of mammals including humans. Currently, the description of the epidemiological cycles of this bacterium is incomplete. The objective of this thesis was to characterize the genetic diversity of A. phagocytophilum in different host species to determine those involved in the same epidemiological cycle. First, we characterized the genetic diversity of A. phagocytophilum in sick domestic animals with a MLSA. We identified three groups of genotypes infecting cattle, including one group shared with horses and dogs, and another shared with roe deer. Then, we investigated what species of ticks can transmit the bacteria, and what wild mammals could be reservoirs. In Camargue, a genotype with high zoonotic potential was identified in five species of ticks of the genus Rhipicephalus, Dermacentor and Hyalomma. The prevalence in French rodents suggests that they may be reservoir hosts, but the presence of genotypes infecting cattle in rodents must be checked. Finally, comparing the bacterial genotypes in ticks and roe deer by 454 sequencing, showed that the contribution of the roe deer to tick infection was low in the site of “Vallons de Gascogne”. The absence of infected rodents in this location suggests that other reservoir mammals are present. This study demonstrates the complexity of the A. phagocytophilum cycle and the contribution of molecular tools.A. phagocytophilum, une bactérie transmise par les tiques, est responsable de l’anaplasmose granulocytaire, une maladie émergente qui infecte une large gamme de mammifères dont l’homme. Actuellement, la description des cycles épidémiologiques de cette bactérie est incomplète. L’objectif de cette thèse est de caractériser la diversité génétique d’A. phagocytophilum chez différentes espèces d’hôtes, afin de déterminer quelles espèces participent au même cycle épidémiologique. D’abord, nous avons caractérisé la diversité génétique d’A. phagocytophilum chez les animaux domestiques malades à l’aide d’une MLSA. Nous avons identifié trois groupes de génotypes infectant les bovins, dont un groupe est partagé avec les chevaux et les chiens, et un avec les chevreuils. Ensuite, nous avons recherché quelles espèces de tiques pouvaient transmettre la bactérie, et quels pouvaient être les réservoirs parmi les mammifères sauvages. En Camargue, un génotype au fort potentiel zoonotique a été identifié chez cinq espèces de tiques du genre Rhipicephalus, Dermacentor et Hyalomma. La prévalence chez des rongeurs suggère qu’ils peuvent être réservoirs, mais la présence de génotypes infectant les bovins chez les mulots est à vérifier. Enfin, la comparaison des génotypes obtenus chez les tiques et les chevreuils par séquençage 454, a montré que la contribution des chevreuils à l’infection des tiques était faible sur le site des Vallons de Gascogne. L’absence de rongeurs infectés sur ce site suggère que d’autres mammifères réservoirs sont présents. Cette étude montre la complexité des cycles d’A. phagocytophilum et l’intérêt des outils moléculaires

    Monte-Carlo tree search enhancements for one-player and two-player domains

    Get PDF

    ゲームにおける棋譜の性質と強さの関係に基づいた学習

    Get PDF
    筑波大学 (University of Tsukuba)201
    corecore