168 research outputs found
FC Portugal - High-Level Skills Within A Multi-Agent Environment
Ao longo dos anos a RoboCup, uma competição internacional de robótica e da inteligência artificia, foi palco de muitos desenvolvimentos e melhorias nestes duas áreas científicas. Esta competição tem diferentes desafios, incluindo uma liga de simulação 3D (Simulation 3D League). Anualmente, ocorre um torneio de jogos de futebol simulados entre as várias equipas participantes na Simulation 3D League, todas estas equipas deveram ser compostas por 11 robôs humanoides. Esta simulação obedece às leis da física de modo a se aproximar das circunstâncias dos jogos reais. Além disso, as regras da competição são semelhantes às regras originais do futebol com algumas alterações e adaptações. A equipa portuguesa, o FC Portugal 3D é um participante assíduo nos torneios desta liga e chegou até a ser vitoriosa várias vezes nos últimos anos, no entanto, para participar nesta competição é necessário que as equipas tenham os seus agentes capazes de executar skills (ou habilidades) de baixo nível como andar, chutar e levantar-se. O bom registo
da equipa FC Portugal 3D advém do facto de os métodos utilizados para treinar os seus jogadores serem continuamente melhorados resultando em melhores habilidades. De facto, considera-se que estes comportamentos de baixo nível estão num ponto em que é possível mudar o foco das implementações para competências de alto nível que deveram ser baseadas nestas competências fundamentais de baixo nível.
O futebol pode ser visto como um jogo cooperativo onde jogadores da mesma equipa têm de trabalhar em conjunto para vencer os seus adversários, consequentemente, este jogo é considerado como um bom ambiente para desenvolver, testar e aplicar implementações relativas a cooperações multi-agente. Com isto em mente, o objetivo desta dissertação é construir uma setplay multi-agente baseada nas skills de baixo nível previamente implementadas pela FC Portugal para serem usadas em situações de jogo específicas em que a intenção principal é marcar um golo. Recentemente, muitos participantes da 3D League (incluindo a equipa portuguesa) têm desenvolvido competências utilizando métodos de Deep Reinforcement Learning obtendo resultados satisfatórios num tempo razoável. A abordagem adotada neste projeto foi a de utilizar o algoritmo de Reinforcement Learning, PPO, para treinar todos os ambientes criados com o intuito de desenvolver a setplay pretendida, os resultados dos treinos estão presentes no penúltimo capítulo deste documento seguidos de sugestões para implementações futuras.Throughout the years the RoboCup, an international competition of robotics and artificial intelligence, saw many developments and improvements in these scientific fields. This competition has different types of challenges including a 3D Simulation League that has an annual tournament of simulated soccer games played between several teams each composed of 11 simulated humanoid robots. The simulation obeys the laws of physics in order to approximate the games as much as possible to real circumstances, in addition, the rules are similar to the original soccer rules with
a few alterations and adaptations. The Portuguese team, FC Portugal 3D has been an assiduous participant in this league tournaments and was even victorious several times in the past years, nonetheless, to participate in this competition is necessary for teams to have their agents able to execute low-level skills such as walk, kick and get up. The good record of the FC Portugal 3D team comes from the fact that the methods used to train the robots keep being improved, resulting in better skills. As a manner of fact, it is considered that these low-level behaviors are at a point that is possible to shift the implementations' focus to high-level skills based on these fundamental low-level skills.
Soccer can be seen as a cooperative game where players from the same team have to work together to beat their opponents, consequently, this game is considered to be a good environment to develop, test, and apply cooperative multi-agent implementations. With this in mind, the objective of this dissertation is to construct a multi-agent setplay based on FC Portugal's low-level skills to be used in certain game situations where the main intent is to score a goal. Recently, many 3D League participants (including the Portuguese team) have been developing skills using Deep
Learning methods and obtaining successful results in a reasonable time. The approach taken on this project was to use the Reinforcement Learning algorithm PPO to train all the environments that were created to develop the intended setplay, the results of the training are present in the second-to-last chapter of this document followed by suggestions for future implementations
Scaling multi-agent reinforcement learning to eleven aside simulated robot soccer
Electrical and Electronic Engineerin
Multi-robot coordination using flexible setplays : applications in RoboCup's simulation and middle-size leagues
Tese de Doutoramento. Engenharia Informática. Faculdade de Engenharia. Universidade do Porto. 201
Aprendizagem automática de comportamentos para futebol robótico
Mestrado em Engenharia de Computadores e TelemáticaNo desenvolvimento de um agente inteligente e necess ario criar um conjunto
de comportamentos, mais ou menos complexos, para que o agente possa
escolher o que achar mais adequado para utilizar a cada instante. Comportamentos
simples podem ser facilmente programados \ a m~ao", mas,
a medida que se tentam criar comportamentos mais complexos esta tarefa
pode tornar-se invi avel. Isto pode acontecer, por exemplo, em casos
onde o espa co de estados, o espa co de a c~oes e/ou o tempo tomam valores
cont nuos. E esse o caso no futebol rob otico, onde os rob^os se movem num
espa co cont nuo, com velocidades e em tempo cont nuos.
A aprendizagem por refor co permite que seja o agente a aprender um comportamento
atrav es da sua experi^encia ao interagir com o mundo. Esta
t ecnica baseia-se num mecanismo que ocorre na natureza, uma vez que
imita a forma como os animais aprendem, mais concretamente, observando
o estado do mundo, tomando uma a c~ao e observando as consequ^encias
dessa a c~ao. A longo prazo, e com base nas consequ^encias das a c~oes tomadas,
o animal aprende se, nessas circunst^ancias, a sequ^encia de a c~oes que
o levaram a esse ponto e boa e pode ser repetida ou n~ao.
Para que o agente aprenda da mesma forma, e preciso que consiga percecionar
o valor que as suas a c~oes t^em a longo prazo. Para isso, e-lhe dada uma
recompensa ou um castigo quando faz uma a c~ao desejada ou indesejada,
respetivamente.
Comportamentos aprendidos podem ser usados em situa c~oes em que e
invi avel escrev^e-los a m~ao, ou para criar comportamentos com melhor desempenho
uma vez que o agente consegue derivar fun c~oes complexas que
descrevam melhor a solu c~ao do problema.
No contexto desta tese foram desenvolvidos 3 comportamentos no contexto
da equipa de futebol rob otico CAMBADA da Univeridade de Aveiro. O
primeiro comportamento, o mais simples, consistiu em fazer o rob^o rodar
sobre si pr oprio at e estar virado para uma dada orienta c~ao absoluta. O
segundo permitia que o rob^o, com a bola na sua posse, a driblasse numa
dire c~ao desejada. Por m, o terceiro comportamento permitiu que o rob^o
aprendesse a ajustar a sua posi c~ao para receber uma bola que pode vir com
mais ou menos velocidade e descentrada em rela c~ao ao receptor.
Os resultados das compara c~oes feitas com os comportamentos desenvolvidos
a m~ao que j a existiam na CAMBADA, mostram que comportamentos
aprendidos conseguem ser mais e cientes e obter melhores resultados do
que os explicitamente programados.While developing an intelligent agent, one needs to create a set of behaviors,
more or less complex, to allow the agent to choose the one it believes
to be appropriate at each instant. Simple behaviors can easily be developed
by hand, but, as we try to create more complex ones, this becomes impracticable.
This complexity may arise, for example, when the state space, the
action space and/or the time take continuous values. This is the case of
robotic soccer where the robots move in a continuous space, at continuous
velocities and in continuous time.
Reinforcement learning enables the agent to learn behaviors by itself by experiencing
and interacting with the world. This technique is based on a
mechanism which happens in nature, since it mimics the way animals learn,
more precisely, observing the world state, taking an action and then observe
the consequences of that action. In the long run, and based on the
consequences of the actions taken, the animal learned if, in those circumstances,
the sequence of actions which led it to that state is good and may
be repeated or not.
To make the agent learn in this way, it must understand the value of its
actions in the long run. In order to do that, it is given a reward or a
punishment for doing a desired or undesired action, respectively.
Learned behaviors can be used in cases where they are too complex to be
written by hand, or to create behaviors that can perform better than the
hand-coded ones, since the agent can derive complex functions that better
describe a solution for the given problem.
During this thesis, 3 behaviors were developed in the context of the robotic
soccer CAMBADA team from University of Aveiro. The rst behavior, the
most simple, made the robot rotate about itself until it had turned to a
given absolute orientation. The second one, allowed a robot that possessed
the ball to dribble it in a desired direction. Lastly, the third behavior allowed
the robot to learn to adjust its position to receive a ball. The ball can come
at a high or low speed and may not be centered in relation to the receiver.
The results of comparing the learned behaviors to the already existing handcoded
ones showed that the learned behaviors were more e cient and obtained
better results
- …