4 research outputs found
Using Reinforcement Learning in the tuning of Central Pattern Generators
Dissertação de mestrado em Engenharia InformáticaÉ objetivo deste trabalho aplicar técnicas de Reinforcement Learning em tarefas de
aprendizagem e locomoção de robôs. Reinforcement Learning é uma técnica de
aprendizagem útil no que diz respeito à locomoção de robôs, devido à ênfase que dá à
interação direta entre o agente e o meio ambiente, e ao facto de não exigir supervisão ou
modelos completos, ao contrário do que acontece nas abordagens clássicas. O objetivo
desta técnica consiste na decisão das ações a tomar, de forma a maximizar uma
recompensa cumulativa, tendo em conta o facto de que as decisões podem afetar não só
as recompensas imediatas, como também as futuras.
Neste trabalho será apresentada a estrutura e funcionamento do Reinforcement
Learning e a sua aplicação em Central Pattern Generators, com o objetivo de gerar
locomoção adaptativa otimizada.
De forma a investigar e identificar os pontos fortes e capacidades do Reinforcement
Learning, e para demonstrar de uma forma simples este tipo de algoritmos, foram
implementados dois casos de estudo baseados no estado da arte. No que diz respeito ao
objetivo principal desta tese, duas soluções diferentes foram abordadas: uma primeira
baseada em métodos Natural-Actor Critic, e a segunda, em Cross-Entropy Method. Este
último algoritmo provou ser capaz de lidar com a integração das duas abordagens
propostas. As soluções de integração foram testadas e validadas com recurso ao
simulador Webots e ao modelo do robô DARwIN-OP.In this work, it is intended to apply Reinforcement Learning techniques in tasks involving learning and robot locomotion. Reinforcement Learning is a very useful learning technique with regard to legged robot locomotion, due to its ability to provide direct interaction between the agent and the environment, and the fact of not requiring supervision or complete models, in contrast with other classic approaches. Its aim consists in making decisions about which actions to take so as to maximize a cumulative reward or reinforcement signal, taking into account the fact that the decisions may affect not only the immediate reward, but also the future ones. In this work it will be studied and presented the Reinforcement Learning framework and its application in the tuning of Central Pattern Generators, with the aim of generating optimized robot locomotion.
In order to investigate the strengths and abilities of Reinforcement Learning, and to demonstrate in a simple way the learning process of such algorithms, two case studies were implemented based on the state-of-the-art. With regard to the main purpose of the thesis, two different solutions are addressed: a first one based on Natural-Actor Critic methods, and a second, based on the Cross-Entropy Method. This last algorithm was found to be very capable of handling with the integration of the two proposed approaches. The integration solutions were tested and validated resorting to Webots
simulation and DARwIN-OP robot model
Locomoção bípede adaptativa a partir de uma única demonstração usando primitivas de movimento
Doutoramento em Engenharia EletrotécnicaEste trabalho aborda o problema de capacidade de imitação da locomoção
humana através da utilização de trajetórias de baixo nível codificadas com
primitivas de movimento e utilizá-las para depois generalizar para novas
situações, partindo apenas de uma demonstração única. Assim, nesta linha de
pensamento, os principais objetivos deste trabalho são dois: o primeiro é
analisar, extrair e codificar demonstrações efetuadas por um humano, obtidas
por um sistema de captura de movimento de forma a modelar tarefas de
locomoção bípede. Contudo, esta transferência não está limitada à simples
reprodução desses movimentos, requerendo uma evolução das capacidades
para adaptação a novas situações, assim como lidar com perturbações
inesperadas. Assim, o segundo objetivo é o desenvolvimento e avaliação de
uma estrutura de controlo com capacidade de modelação das ações, de tal
forma que a demonstração única apreendida possa ser modificada para o robô
se adaptar a diversas situações, tendo em conta a sua dinâmica e o ambiente
onde está inserido.
A ideia por detrás desta abordagem é resolver o problema da generalização a
partir de uma demonstração única, combinando para isso duas estruturas
básicas. A primeira consiste num sistema gerador de padrões baseado em
primitivas de movimento utilizando sistemas dinâmicos (DS). Esta abordagem
de codificação de movimentos possui propriedades desejáveis que a torna ideal
para geração de trajetórias, tais como a possibilidade de modificar determinados
parâmetros em tempo real, tais como a amplitude ou a frequência do ciclo do
movimento e robustez a pequenas perturbações. A segunda estrutura, que está
embebida na anterior, é composta por um conjunto de osciladores acoplados
em fase que organizam as ações de unidades funcionais de forma coordenada.
Mudanças em determinadas condições, como o instante de contacto ou
impactos com o solo, levam a modelos com múltiplas fases. Assim, em vez de
forçar o movimento do robô a situações pré-determinadas de forma temporal, o
gerador de padrões de movimento proposto explora a transição entre diferentes
fases que surgem da interação do robô com o ambiente, despoletadas por
eventos sensoriais. A abordagem proposta é testada numa estrutura de
simulação dinâmica, sendo que várias experiências são efetuadas para avaliar
os métodos e o desempenho dos mesmos.This work addresses the problem of learning to imitate human locomotion actions
through low-level trajectories encoded with motion primitives and generalizing
them to new situations from a single demonstration. In this line of thought, the
main objectives of this work are twofold: The first is to analyze, extract and
encode human demonstrations taken from motion capture data in order to model
biped locomotion tasks. However, transferring motion skills from humans to
robots is not limited to the simple reproduction, but requires the evaluation of
their ability to adapt to new situations, as well as to deal with unexpected
disturbances. Therefore, the second objective is to develop and evaluate a
control framework for action shaping such that the single-demonstration can be
modulated to varying situations, taking into account the dynamics of the robot
and its environment.
The idea behind the approach is to address the problem of generalization from
a single-demonstration by combining two basic structures. The first structure is
a pattern generator system consisting of movement primitives learned and
modelled by dynamical systems (DS). This encoding approach possesses
desirable properties that make them well-suited for trajectory generation, namely
the possibility to change parameters online such as the amplitude and the
frequency of the limit cycle and the intrinsic robustness against small
perturbations. The second structure, which is embedded in the previous one,
consists of coupled phase oscillators that organize actions into functional
coordinated units. The changing contact conditions plus the associated impacts
with the ground lead to models with multiple phases. Instead of forcing the robot’s
motion into a predefined fixed timing, the proposed pattern generator explores
transition between phases that emerge from the interaction of the robot system
with the environment, triggered by sensor-driven events. The proposed approach
is tested in a dynamics simulation framework and several experiments are
conducted to validate the methods and to assess the performance of a humanoid
robot
A Bio-inspired architecture for adaptive quadruped locomotion over irregular terrain
Tese de doutoramento
Programa Doutoral em Engenharia Electrónica e de ComputadoresThis thesis presents a tentative advancement on walking control of small quadruped and humanoid
position controlled robots, addressing the problem of walk generation by combining dynamical systems
approach to motor control, insights from neuroethology research on vertebrate motor control and
computational neuroscience.
Legged locomotion is a complex dynamical process, despite the seemingly easy and natural behavior
of the constantly present proficiency of legged animals. Research on locomotion and motor control
in vertebrate animals from the last decades has brought to the attention of roboticists, the potential of
the nature’s solutions to robot applications. Recent knowledge on the organization of complex motor
generation and on mechanics and dynamics of locomotion has been successfully exploited to pursue
agile robot locomotion.
The work presented on this manuscript is part of an effort on the pursuit in devising a general,
model free solution, for the generation of robust and adaptable walking behaviors. It strives to devise a
practical solution applicable to real robots, such as the Sony’s quadruped AIBO and Robotis’ DARwIn-
OP humanoid. The discussed solutions are inspired on the functional description of the vertebrate
neural systems, especially on the concept of Central Pattern Generators (CPGs), their structure and
organization, components and sensorimotor interactions. They use a dynamical systems approach for
the implementation of the controller, especially on the use of nonlinear oscillators and exploitation of
their properties.
The main topics of this thesis are divided into three parts.
The first part concerns quadruped locomotion, extending a previous CPG solution using nonlinear
oscillators, and discussing an organization on three hierarchical levels of abstraction, sharing the purpose
and knowledge of other works. It proposes a CPG solution which generates the walking motion
for the whole-leg, which is then organized in a network for the production of quadrupedal gaits. The
devised solution is able to produce goal-oriented locomotion and navigation as directed through highlevel
commands from local planning methods. In this part, active balance on a standing quadruped is
also addressed, proposing a method based on dynamical systems approach, exploring the integration of
parallel postural mechanisms from several sensory modalities. The solutions are all successfully tested on the quadruped AIBO robot.
In the second part, is addressed bipedal walking for humanoid robots. A CPG solution for biped
walking based on the concept of motion primitives is proposed, loosely based on the idea of synergistic
organization of vertebrate motor control. A set of motion primitives is shown to produce the basis
of simple biped walking, and generalizable to goal-oriented walking. Using the proposed CPG, the
inclusion of feedback mechanisms is investigated, for modulation and adaptation of walking, through
phase transition control according to foot load information. The proposed solution is validated on the
humanoid DARwIn-OP, and its application is evaluated within a whole-body control framework.
The third part sidesteps a little from the other two topics. It discusses the CPG as having an alternative
role to direct motor generation in locomotion, serving instead as a processor of sensory information
for a feedback based motor generation. In this work a reflex based walking controller is devised for the
compliant quadruped Oncilla robot, to serve as purely feedback based walking generation. The capabilities
of the reflex network are shown in simulations, followed by a brief discussion on its limitations,
and how they could be improved by the inclusion of a CPG.Esta tese apresenta uma tentativa de avanço no controlo de locomoção para pequenos robôs quadrúpedes
e bipedes controlados por posição, endereçando o problema de geração motora através da combinação
da abordagem de sistemas dinâmicos para o controlo motor, e perspectivas de investigação
neuroetologia no controlo motor vertebrado e neurociência computacional.
Andar é um processo dinâmico e complexo, apesar de parecer um comportamento fácil e natural
devido à presença constante de animais proficientes em locomoção terrestre. Investigação na área da locomoção
e controlo motor em animais vertebrados nas últimas decadas, trouxe à atenção dos roboticistas
o potencial das soluções encontradas pela natureza aplicadas a aplicações robóticas. Conhecimento
recente relativo à geração de comportamentos motores complexos e da mecânica da locomoção tem
sido explorada com sucesso na procura de locomoção ágil na robótica.
O trabalho apresentado neste documento é parte de um esforço no desenho de uma solução geral,
e independente de modelos, para a geração robusta e adaptável de comportamentos locomotores. O
foco é desenhar uma solução prática, aplicável a robôs reais, tal como o quadrúpede Sony AIBO e
o humanóide DARwIn-OP. As soluções discutidas são inspiradas na descrição funcional do sistema
nervoso vertebrado, especialmente no conceito de Central Pattern Generators (CPGs), a sua estrutura e
organização, componentes e interacção sensorimotora. Estas soluções são implementadas usando uma
abordagem em sistemas dinâmicos, focandos o uso de osciladores não lineares e a explorando as suas
propriedades.
Os tópicos principais desta tese estão divididos em três partes.
A primeira parte explora o tema de locomoção quadrúpede, expandindo soluções prévias de CPGs
usando osciladores não lineares, e discutindo uma organização em três níveis de abstracção, partilhando
as ideias de outros trabalhos. Propõe uma solução de CPG que gera os movimentos locomotores
para uma perna, que é depois organizado numa rede, para a produção de marcha quadrúpede. A
solução concebida é capaz de produzir locomoção e navegação, comandada através de comandos de alto
nível, produzidos por métodos de planeamento local. Nesta parte também endereçado o problema da
manutenção do equilíbrio num robô quadrúpede parado, propondo um método baseado na abordagem
em sistemas dinâmicos, explorando a integração de mecanismos posturais em paralelo, provenientes de várias modalidades sensoriais. As soluções são todas testadas com sucesso no robô quadrupede AIBO.
Na segunda parte é endereçado o problema de locomoção bípede. É proposto um CPG baseado
no conceito de motion primitives, baseadas na ideia de uma organização sinergética do controlo motor
vertebrado. Um conjunto de motion primitives é usado para produzir a base de uma locomoção bípede
simples e generalizável para navegação. Esta proposta de CPG é usada para de seguida se investigar
a inclusão de mecanismos de feedback para modulação e adaptação da marcha, através do controlo de
transições entre fases, de acordo com a informação de carga dos pés. A solução proposta é validada
no robô humanóide DARwIn-OP, e a sua aplicação no contexto do framework de whole-body control é
também avaliada.
A terceira parte desvia um pouco dos outros dois tópicos. Discute o CPG como tendo um papel
alternativo ao controlo motor directo, servindo em vez como um processador de informação sensorial
para um mecanismo de locomoção puramente em feedback. Neste trabalho é desenhado um controlador
baseado em reflexos para a geração da marcha de um quadrúpede compliant. As suas capacidades são
demonstradas em simulação, seguidas por uma breve discussão nas suas limitações, e como estas podem
ser ultrapassadas pela inclusão de um CPG.The presented work was possible thanks to the support by the Portuguese Science and Technology Foundation through the PhD grant SFRH/BD/62047/2009