348 research outputs found

    Aprendizagem automática de comportamentos para futebol robótico

    Get PDF
    Mestrado em Engenharia de Computadores e TelemáticaA soccer-playing robot must be able to carry out a set of behaviors, whose complexity can vary greatly. Manually programming a robot to accomplish those behaviors may be a difficult and time-consuming process. Automated learning techniques become interesting in this setting, because they allow the learning of behaviors based only on a very high-level description of the task to be completed, leaving the details to be figured out by the learning agent. Reinforcement Learning takes inspiration from nature and animal learning to model agents that interact with an environment, choosing actions that are more likely to lead them to accumulate rewards and avoid punishment. As agents experience the environment and the effect of their actions, they gain experience which is used to derive a policy. Agents can do this instantaneously after they observe the effect of their last action, or after collecting batches of these observations. The latter alternative, called Batch Reinforcement Learning, has been used in real world applications with very promissing results. This thesis explores the use of Batch Reinforcement Learning for learning robotic soccer behaviors, including dribbling the ball and receiving a pass. Practical experiments were undertaken with the CAMBADA simulator, as well as with the CAMBADA robots.Um robô futebolista necessita de executar comportamentos variados, desde os mais simples aos mais complexos e difíceis. Programar manualmente a execução destes comportamentos pode tornar-se uma tarefa bastante morosa e complicada. Neste contexto, os métodos de aprendizagem automática tornam-se interessantes, pois permitem a aprendizagem de comportamentos através de uma especificação a muito alto nível da tarefa a aprender, deixando a responsabilidade ao agente autónomo de lidar com os detalhes. A Aprendizagem por Reforço toma inspiração na natureza e na aprendizagem animal para modelar agentes que interagem com o seu ambiente de forma a escolherem as ações que aumentam a probabilidade de receberem recompensas e evitarem castigos. À medida que os agentes experimentam ações e observam os seus efeitos, ganham experiência e a partir dela derivam uma política. Isto é feito após cada observação do efeito de uma ação, ou após reunir conjuntos destas observações. Esta última alternativa, também chamada Aprendizagem por Reforço Batch, tem sido usada em aplicações reais com resultados promissores. Esta tese explora o uso de Aprendizagem por Reforço Batch para a aprendizagem de comportamentos para futebol robótico, tais como driblar a bola e receber um passe. Os resultados presentes neste documento foram obtidos de experiências realizadas com o simulador da equipa CAMBADA, assim como com os seus robôs

    Aprendizagem automática de comportamentos para futebol robótico

    Get PDF
    Mestrado em Engenharia de Computadores e TelemáticaNo desenvolvimento de um agente inteligente e necess ario criar um conjunto de comportamentos, mais ou menos complexos, para que o agente possa escolher o que achar mais adequado para utilizar a cada instante. Comportamentos simples podem ser facilmente programados \ a m~ao", mas, a medida que se tentam criar comportamentos mais complexos esta tarefa pode tornar-se invi avel. Isto pode acontecer, por exemplo, em casos onde o espa co de estados, o espa co de a c~oes e/ou o tempo tomam valores cont nuos. E esse o caso no futebol rob otico, onde os rob^os se movem num espa co cont nuo, com velocidades e em tempo cont nuos. A aprendizagem por refor co permite que seja o agente a aprender um comportamento atrav es da sua experi^encia ao interagir com o mundo. Esta t ecnica baseia-se num mecanismo que ocorre na natureza, uma vez que imita a forma como os animais aprendem, mais concretamente, observando o estado do mundo, tomando uma a c~ao e observando as consequ^encias dessa a c~ao. A longo prazo, e com base nas consequ^encias das a c~oes tomadas, o animal aprende se, nessas circunst^ancias, a sequ^encia de a c~oes que o levaram a esse ponto e boa e pode ser repetida ou n~ao. Para que o agente aprenda da mesma forma, e preciso que consiga percecionar o valor que as suas a c~oes t^em a longo prazo. Para isso, e-lhe dada uma recompensa ou um castigo quando faz uma a c~ao desejada ou indesejada, respetivamente. Comportamentos aprendidos podem ser usados em situa c~oes em que e invi avel escrev^e-los a m~ao, ou para criar comportamentos com melhor desempenho uma vez que o agente consegue derivar fun c~oes complexas que descrevam melhor a solu c~ao do problema. No contexto desta tese foram desenvolvidos 3 comportamentos no contexto da equipa de futebol rob otico CAMBADA da Univeridade de Aveiro. O primeiro comportamento, o mais simples, consistiu em fazer o rob^o rodar sobre si pr oprio at e estar virado para uma dada orienta c~ao absoluta. O segundo permitia que o rob^o, com a bola na sua posse, a driblasse numa dire c~ao desejada. Por m, o terceiro comportamento permitiu que o rob^o aprendesse a ajustar a sua posi c~ao para receber uma bola que pode vir com mais ou menos velocidade e descentrada em rela c~ao ao receptor. Os resultados das compara c~oes feitas com os comportamentos desenvolvidos a m~ao que j a existiam na CAMBADA, mostram que comportamentos aprendidos conseguem ser mais e cientes e obter melhores resultados do que os explicitamente programados.While developing an intelligent agent, one needs to create a set of behaviors, more or less complex, to allow the agent to choose the one it believes to be appropriate at each instant. Simple behaviors can easily be developed by hand, but, as we try to create more complex ones, this becomes impracticable. This complexity may arise, for example, when the state space, the action space and/or the time take continuous values. This is the case of robotic soccer where the robots move in a continuous space, at continuous velocities and in continuous time. Reinforcement learning enables the agent to learn behaviors by itself by experiencing and interacting with the world. This technique is based on a mechanism which happens in nature, since it mimics the way animals learn, more precisely, observing the world state, taking an action and then observe the consequences of that action. In the long run, and based on the consequences of the actions taken, the animal learned if, in those circumstances, the sequence of actions which led it to that state is good and may be repeated or not. To make the agent learn in this way, it must understand the value of its actions in the long run. In order to do that, it is given a reward or a punishment for doing a desired or undesired action, respectively. Learned behaviors can be used in cases where they are too complex to be written by hand, or to create behaviors that can perform better than the hand-coded ones, since the agent can derive complex functions that better describe a solution for the given problem. During this thesis, 3 behaviors were developed in the context of the robotic soccer CAMBADA team from University of Aveiro. The rst behavior, the most simple, made the robot rotate about itself until it had turned to a given absolute orientation. The second one, allowed a robot that possessed the ball to dribble it in a desired direction. Lastly, the third behavior allowed the robot to learn to adjust its position to receive a ball. The ball can come at a high or low speed and may not be centered in relation to the receiver. The results of comparing the learned behaviors to the already existing handcoded ones showed that the learned behaviors were more e cient and obtained better results

    A differentiable physics engine for deep learning in robotics

    Get PDF
    An important field in robotics is the optimization of controllers. Currently, robots are often treated as a black box in this optimization process, which is the reason why derivative-free optimization methods such as evolutionary algorithms or reinforcement learning are omnipresent. When gradient-based methods are used, models are kept small or rely on finite difference approximations for the Jacobian. This method quickly grows expensive with increasing numbers of parameters, such as found in deep learning. We propose an implementation of a modern physics engine, which can differentiate control parameters. This engine is implemented for both CPU and GPU. Firstly, this paper shows how such an engine speeds up the optimization process, even for small problems. Furthermore, it explains why this is an alternative approach to deep Q-learning, for using deep learning in robotics. Finally, we argue that this is a big step for deep learning in robotics, as it opens up new possibilities to optimize robots, both in hardware and software

    Stick-Breaking Policy Learning in Dec-POMDPs

    Get PDF
    Expectation maximization (EM) has recently been shown to be an efficient algorithm for learning finite-state controllers (FSCs) in large decentralized POMDPs (Dec-POMDPs). However, current methods use fixed-size FSCs and often converge to maxima that are far from optimal. This paper considers a variable-size FSC to represent the local policy of each agent. These variable-size FSCs are constructed using a stick-breaking prior, leading to a new framework called \emph{decentralized stick-breaking policy representation} (Dec-SBPR). This approach learns the controller parameters with a variational Bayesian algorithm without having to assume that the Dec-POMDP model is available. The performance of Dec-SBPR is demonstrated on several benchmark problems, showing that the algorithm scales to large problems while outperforming other state-of-the-art methods

    A Differentiable Physics Engine for Deep Learning in Robotics

    Get PDF
    An important field in robotics is the optimization of controllers. Currently, robots are often treated as a black box in this optimization process, which is the reason why derivative-free optimization methods such as evolutionary algorithms or reinforcement learning are omnipresent. When gradient-based methods are used, models are kept small or rely on finite difference approximations for the Jacobian. This method quickly grows expensive with increasing numbers of parameters, such as found in deep learning. We propose the implementation of a modern physics engine, which can differentiate control parameters. This engine is implemented for both CPU and GPU. Firstly, this paper shows how such an engine speeds up the optimization process, even for small problems. Furthermore, it explains why this is an alternative approach to deep Q-learning, for using deep learning in robotics. Finally, we argue that this is a big step for deep learning in robotics, as it opens up new possibilities to optimize robots, both in hardware and software

    Aprendizagem de coordenação em sistemas multi-agente

    Get PDF
    The ability for an agent to coordinate with others within a system is a valuable property in multi-agent systems. Agents either cooperate as a team to accomplish a common goal, or adapt to opponents to complete different goals without being exploited. Research has shown that learning multi-agent coordination is significantly more complex than learning policies in singleagent environments, and requires a variety of techniques to deal with the properties of a system where agents learn concurrently. This thesis aims to determine how can machine learning be used to achieve coordination within a multi-agent system. It asks what techniques can be used to tackle the increased complexity of such systems and their credit assignment challenges, how to achieve coordination, and how to use communication to improve the behavior of a team. Many algorithms for competitive environments are tabular-based, preventing their use with high-dimension or continuous state-spaces, and may be biased against specific equilibrium strategies. This thesis proposes multiple deep learning extensions for competitive environments, allowing algorithms to reach equilibrium strategies in complex and partially-observable environments, relying only on local information. A tabular algorithm is also extended with a new update rule that eliminates its bias against deterministic strategies. Current state-of-the-art approaches for cooperative environments rely on deep learning to handle the environment’s complexity and benefit from a centralized learning phase. Solutions that incorporate communication between agents often prevent agents from being executed in a distributed manner. This thesis proposes a multi-agent algorithm where agents learn communication protocols to compensate for local partial-observability, and remain independently executed. A centralized learning phase can incorporate additional environment information to increase the robustness and speed with which a team converges to successful policies. The algorithm outperforms current state-of-the-art approaches in a wide variety of multi-agent environments. A permutation invariant network architecture is also proposed to increase the scalability of the algorithm to large team sizes. Further research is needed to identify how can the techniques proposed in this thesis, for cooperative and competitive environments, be used in unison for mixed environments, and whether they are adequate for general artificial intelligence.A capacidade de um agente se coordenar com outros num sistema é uma propriedade valiosa em sistemas multi-agente. Agentes cooperam como uma equipa para cumprir um objetivo comum, ou adaptam-se aos oponentes de forma a completar objetivos egoístas sem serem explorados. Investigação demonstra que aprender coordenação multi-agente é significativamente mais complexo que aprender estratégias em ambientes com um único agente, e requer uma variedade de técnicas para lidar com um ambiente onde agentes aprendem simultaneamente. Esta tese procura determinar como aprendizagem automática pode ser usada para encontrar coordenação em sistemas multi-agente. O documento questiona que técnicas podem ser usadas para enfrentar a superior complexidade destes sistemas e o seu desafio de atribuição de crédito, como aprender coordenação, e como usar comunicação para melhorar o comportamento duma equipa. Múltiplos algoritmos para ambientes competitivos são tabulares, o que impede o seu uso com espaços de estado de alta-dimensão ou contínuos, e podem ter tendências contra estratégias de equilíbrio específicas. Esta tese propõe múltiplas extensões de aprendizagem profunda para ambientes competitivos, permitindo a algoritmos atingir estratégias de equilíbrio em ambientes complexos e parcialmente-observáveis, com base em apenas informação local. Um algoritmo tabular é também extendido com um novo critério de atualização que elimina a sua tendência contra estratégias determinísticas. Atuais soluções de estado-da-arte para ambientes cooperativos têm base em aprendizagem profunda para lidar com a complexidade do ambiente, e beneficiam duma fase de aprendizagem centralizada. Soluções que incorporam comunicação entre agentes frequentemente impedem os próprios de ser executados de forma distribuída. Esta tese propõe um algoritmo multi-agente onde os agentes aprendem protocolos de comunicação para compensarem por observabilidade parcial local, e continuam a ser executados de forma distribuída. Uma fase de aprendizagem centralizada pode incorporar informação adicional sobre ambiente para aumentar a robustez e velocidade com que uma equipa converge para estratégias bem-sucedidas. O algoritmo ultrapassa abordagens estado-da-arte atuais numa grande variedade de ambientes multi-agente. Uma arquitetura de rede invariante a permutações é também proposta para aumentar a escalabilidade do algoritmo para grandes equipas. Mais pesquisa é necessária para identificar como as técnicas propostas nesta tese, para ambientes cooperativos e competitivos, podem ser usadas em conjunto para ambientes mistos, e averiguar se são adequadas a inteligência artificial geral.Apoio financeiro da FCT e do FSE no âmbito do III Quadro Comunitário de ApoioPrograma Doutoral em Informátic
    corecore