348 research outputs found
Aprendizagem automática de comportamentos para futebol robótico
Mestrado em Engenharia de Computadores e TelemáticaA soccer-playing robot must be able to carry out a set of behaviors, whose complexity can vary greatly. Manually programming a robot to accomplish those behaviors may be a difficult and time-consuming process. Automated learning techniques become interesting in this setting, because they allow the learning of behaviors based only on a very high-level description of the task to be completed, leaving the details to be figured out by the learning agent.
Reinforcement Learning takes inspiration from nature and animal learning to model agents that interact with an environment, choosing actions that are more likely to lead them to accumulate rewards and avoid punishment.
As agents experience the environment and the effect of their actions, they gain experience which is used to derive a policy. Agents can do this instantaneously after they observe the effect of their last action, or after collecting batches of these observations. The latter alternative, called Batch Reinforcement Learning, has been used in real world applications with very promissing results.
This thesis explores the use of Batch Reinforcement Learning for learning robotic soccer behaviors, including dribbling the ball and receiving a pass.
Practical experiments were undertaken with the CAMBADA simulator, as well as with the CAMBADA robots.Um robô futebolista necessita de executar comportamentos variados, desde os mais simples aos mais complexos e difíceis. Programar manualmente a execução destes comportamentos pode tornar-se uma tarefa bastante morosa e complicada. Neste contexto, os métodos de aprendizagem automática tornam-se interessantes, pois permitem a aprendizagem de comportamentos através de uma especificação a muito alto nível da tarefa a aprender, deixando a responsabilidade ao agente autónomo de lidar com os detalhes.
A Aprendizagem por Reforço toma inspiração na natureza e na aprendizagem animal para modelar agentes que interagem com o seu ambiente de forma a escolherem as ações que aumentam a probabilidade de receberem recompensas e evitarem castigos. À medida que os agentes experimentam ações e observam os seus efeitos, ganham experiência e a partir dela derivam uma política. Isto é feito após cada observação do efeito de uma ação, ou após reunir conjuntos destas observações. Esta última alternativa, também chamada Aprendizagem por Reforço Batch, tem sido usada em aplicações reais com resultados promissores.
Esta tese explora o uso de Aprendizagem por Reforço Batch para a aprendizagem de comportamentos para futebol robótico, tais como driblar a bola e receber um passe. Os resultados presentes neste documento foram obtidos de experiências realizadas com o simulador da equipa CAMBADA, assim como com os seus robôs
Aprendizagem automática de comportamentos para futebol robótico
Mestrado em Engenharia de Computadores e TelemáticaNo desenvolvimento de um agente inteligente e necess ario criar um conjunto
de comportamentos, mais ou menos complexos, para que o agente possa
escolher o que achar mais adequado para utilizar a cada instante. Comportamentos
simples podem ser facilmente programados \ a m~ao", mas,
a medida que se tentam criar comportamentos mais complexos esta tarefa
pode tornar-se invi avel. Isto pode acontecer, por exemplo, em casos
onde o espa co de estados, o espa co de a c~oes e/ou o tempo tomam valores
cont nuos. E esse o caso no futebol rob otico, onde os rob^os se movem num
espa co cont nuo, com velocidades e em tempo cont nuos.
A aprendizagem por refor co permite que seja o agente a aprender um comportamento
atrav es da sua experi^encia ao interagir com o mundo. Esta
t ecnica baseia-se num mecanismo que ocorre na natureza, uma vez que
imita a forma como os animais aprendem, mais concretamente, observando
o estado do mundo, tomando uma a c~ao e observando as consequ^encias
dessa a c~ao. A longo prazo, e com base nas consequ^encias das a c~oes tomadas,
o animal aprende se, nessas circunst^ancias, a sequ^encia de a c~oes que
o levaram a esse ponto e boa e pode ser repetida ou n~ao.
Para que o agente aprenda da mesma forma, e preciso que consiga percecionar
o valor que as suas a c~oes t^em a longo prazo. Para isso, e-lhe dada uma
recompensa ou um castigo quando faz uma a c~ao desejada ou indesejada,
respetivamente.
Comportamentos aprendidos podem ser usados em situa c~oes em que e
invi avel escrev^e-los a m~ao, ou para criar comportamentos com melhor desempenho
uma vez que o agente consegue derivar fun c~oes complexas que
descrevam melhor a solu c~ao do problema.
No contexto desta tese foram desenvolvidos 3 comportamentos no contexto
da equipa de futebol rob otico CAMBADA da Univeridade de Aveiro. O
primeiro comportamento, o mais simples, consistiu em fazer o rob^o rodar
sobre si pr oprio at e estar virado para uma dada orienta c~ao absoluta. O
segundo permitia que o rob^o, com a bola na sua posse, a driblasse numa
dire c~ao desejada. Por m, o terceiro comportamento permitiu que o rob^o
aprendesse a ajustar a sua posi c~ao para receber uma bola que pode vir com
mais ou menos velocidade e descentrada em rela c~ao ao receptor.
Os resultados das compara c~oes feitas com os comportamentos desenvolvidos
a m~ao que j a existiam na CAMBADA, mostram que comportamentos
aprendidos conseguem ser mais e cientes e obter melhores resultados do
que os explicitamente programados.While developing an intelligent agent, one needs to create a set of behaviors,
more or less complex, to allow the agent to choose the one it believes
to be appropriate at each instant. Simple behaviors can easily be developed
by hand, but, as we try to create more complex ones, this becomes impracticable.
This complexity may arise, for example, when the state space, the
action space and/or the time take continuous values. This is the case of
robotic soccer where the robots move in a continuous space, at continuous
velocities and in continuous time.
Reinforcement learning enables the agent to learn behaviors by itself by experiencing
and interacting with the world. This technique is based on a
mechanism which happens in nature, since it mimics the way animals learn,
more precisely, observing the world state, taking an action and then observe
the consequences of that action. In the long run, and based on the
consequences of the actions taken, the animal learned if, in those circumstances,
the sequence of actions which led it to that state is good and may
be repeated or not.
To make the agent learn in this way, it must understand the value of its
actions in the long run. In order to do that, it is given a reward or a
punishment for doing a desired or undesired action, respectively.
Learned behaviors can be used in cases where they are too complex to be
written by hand, or to create behaviors that can perform better than the
hand-coded ones, since the agent can derive complex functions that better
describe a solution for the given problem.
During this thesis, 3 behaviors were developed in the context of the robotic
soccer CAMBADA team from University of Aveiro. The rst behavior, the
most simple, made the robot rotate about itself until it had turned to a
given absolute orientation. The second one, allowed a robot that possessed
the ball to dribble it in a desired direction. Lastly, the third behavior allowed
the robot to learn to adjust its position to receive a ball. The ball can come
at a high or low speed and may not be centered in relation to the receiver.
The results of comparing the learned behaviors to the already existing handcoded
ones showed that the learned behaviors were more e cient and obtained
better results
A differentiable physics engine for deep learning in robotics
An important field in robotics is the optimization of controllers. Currently, robots are often treated as a black box in this optimization process, which is the reason why derivative-free optimization methods such as evolutionary algorithms or reinforcement learning are omnipresent. When gradient-based methods are used, models are kept small or rely on finite difference approximations for the Jacobian. This method quickly grows expensive with increasing numbers of parameters, such as found in deep learning. We propose an implementation of a modern physics engine, which can differentiate control parameters. This engine is implemented for both CPU and GPU. Firstly, this paper shows how such an engine speeds up the optimization process, even for small problems. Furthermore, it explains why this is an alternative approach to deep Q-learning, for using deep learning in robotics. Finally, we argue that this is a big step for deep learning in robotics, as it opens up new possibilities to optimize robots, both in hardware and software
Stick-Breaking Policy Learning in Dec-POMDPs
Expectation maximization (EM) has recently been shown to be an efficient
algorithm for learning finite-state controllers (FSCs) in large decentralized
POMDPs (Dec-POMDPs). However, current methods use fixed-size FSCs and often
converge to maxima that are far from optimal. This paper considers a
variable-size FSC to represent the local policy of each agent. These
variable-size FSCs are constructed using a stick-breaking prior, leading to a
new framework called \emph{decentralized stick-breaking policy representation}
(Dec-SBPR). This approach learns the controller parameters with a variational
Bayesian algorithm without having to assume that the Dec-POMDP model is
available. The performance of Dec-SBPR is demonstrated on several benchmark
problems, showing that the algorithm scales to large problems while
outperforming other state-of-the-art methods
A Differentiable Physics Engine for Deep Learning in Robotics
An important field in robotics is the optimization of controllers. Currently, robots are often treated as a black box in this optimization process, which is the reason why derivative-free optimization methods such as evolutionary algorithms or reinforcement learning are omnipresent. When gradient-based methods are used, models are kept small or rely on finite difference approximations for the Jacobian. This method quickly grows expensive with increasing numbers of parameters, such as found in deep learning. We propose the implementation of a modern physics engine, which can differentiate control parameters. This engine is implemented for both CPU and GPU. Firstly, this paper shows how such an engine speeds up the optimization process, even for small problems. Furthermore, it explains why this is an alternative approach to deep Q-learning, for using deep learning in robotics. Finally, we argue that this is a big step for deep learning in robotics, as it opens up new possibilities to optimize robots, both in hardware and software
Aprendizagem de coordenação em sistemas multi-agente
The ability for an agent to coordinate with others within a system is a
valuable property in multi-agent systems. Agents either cooperate as a team
to accomplish a common goal, or adapt to opponents to complete different
goals without being exploited. Research has shown that learning multi-agent
coordination is significantly more complex than learning policies in singleagent
environments, and requires a variety of techniques to deal with the
properties of a system where agents learn concurrently. This thesis aims to
determine how can machine learning be used to achieve coordination within
a multi-agent system. It asks what techniques can be used to tackle the
increased complexity of such systems and their credit assignment challenges,
how to achieve coordination, and how to use communication to improve the
behavior of a team.
Many algorithms for competitive environments are tabular-based, preventing
their use with high-dimension or continuous state-spaces, and may be
biased against specific equilibrium strategies. This thesis proposes multiple
deep learning extensions for competitive environments, allowing algorithms
to reach equilibrium strategies in complex and partially-observable environments,
relying only on local information. A tabular algorithm is also extended
with a new update rule that eliminates its bias against deterministic strategies.
Current state-of-the-art approaches for cooperative environments rely
on deep learning to handle the environment’s complexity and benefit from a
centralized learning phase. Solutions that incorporate communication between
agents often prevent agents from being executed in a distributed
manner. This thesis proposes a multi-agent algorithm where agents learn
communication protocols to compensate for local partial-observability, and
remain independently executed. A centralized learning phase can incorporate
additional environment information to increase the robustness and speed with
which a team converges to successful policies. The algorithm outperforms
current state-of-the-art approaches in a wide variety of multi-agent environments.
A permutation invariant network architecture is also proposed
to increase the scalability of the algorithm to large team sizes. Further research
is needed to identify how can the techniques proposed in this thesis,
for cooperative and competitive environments, be used in unison for mixed
environments, and whether they are adequate for general artificial intelligence.A capacidade de um agente se coordenar com outros num sistema é uma
propriedade valiosa em sistemas multi-agente. Agentes cooperam como
uma equipa para cumprir um objetivo comum, ou adaptam-se aos oponentes
de forma a completar objetivos egoístas sem serem explorados. Investigação
demonstra que aprender coordenação multi-agente é significativamente
mais complexo que aprender estratégias em ambientes com um
único agente, e requer uma variedade de técnicas para lidar com um ambiente
onde agentes aprendem simultaneamente. Esta tese procura determinar
como aprendizagem automática pode ser usada para encontrar coordenação
em sistemas multi-agente. O documento questiona que técnicas podem ser
usadas para enfrentar a superior complexidade destes sistemas e o seu desafio
de atribuição de crédito, como aprender coordenação, e como usar
comunicação para melhorar o comportamento duma equipa.
Múltiplos algoritmos para ambientes competitivos são tabulares, o que impede
o seu uso com espaços de estado de alta-dimensão ou contínuos, e
podem ter tendências contra estratégias de equilíbrio específicas. Esta tese
propõe múltiplas extensões de aprendizagem profunda para ambientes competitivos,
permitindo a algoritmos atingir estratégias de equilíbrio em ambientes
complexos e parcialmente-observáveis, com base em apenas informação
local. Um algoritmo tabular é também extendido com um novo critério de
atualização que elimina a sua tendência contra estratégias determinísticas.
Atuais soluções de estado-da-arte para ambientes cooperativos têm base em
aprendizagem profunda para lidar com a complexidade do ambiente, e beneficiam
duma fase de aprendizagem centralizada. Soluções que incorporam
comunicação entre agentes frequentemente impedem os próprios de ser executados
de forma distribuída. Esta tese propõe um algoritmo multi-agente
onde os agentes aprendem protocolos de comunicação para compensarem
por observabilidade parcial local, e continuam a ser executados de forma
distribuída. Uma fase de aprendizagem centralizada pode incorporar informação
adicional sobre ambiente para aumentar a robustez e velocidade
com que uma equipa converge para estratégias bem-sucedidas. O algoritmo
ultrapassa abordagens estado-da-arte atuais numa grande variedade de ambientes
multi-agente. Uma arquitetura de rede invariante a permutações é
também proposta para aumentar a escalabilidade do algoritmo para grandes
equipas. Mais pesquisa é necessária para identificar como as técnicas propostas
nesta tese, para ambientes cooperativos e competitivos, podem ser
usadas em conjunto para ambientes mistos, e averiguar se são adequadas a
inteligência artificial geral.Apoio financeiro da FCT e do FSE no âmbito do III Quadro Comunitário de ApoioPrograma Doutoral em Informátic
- …