Search CORE

4 research outputs found

Using Reinforcement Learning in the tuning of Central Pattern Generators

Author: Duarte Ana Filipa de Sampaio Calçada
Publication venue
Publication date: 12/12/2012
Field of study

Dissertação de mestrado em Engenharia InformáticaÉ objetivo deste trabalho aplicar técnicas de Reinforcement Learning em tarefas de aprendizagem e locomoção de robôs. Reinforcement Learning é uma técnica de aprendizagem útil no que diz respeito à locomoção de robôs, devido à ênfase que dá à interação direta entre o agente e o meio ambiente, e ao facto de não exigir supervisão ou modelos completos, ao contrário do que acontece nas abordagens clássicas. O objetivo desta técnica consiste na decisão das ações a tomar, de forma a maximizar uma recompensa cumulativa, tendo em conta o facto de que as decisões podem afetar não só as recompensas imediatas, como também as futuras. Neste trabalho será apresentada a estrutura e funcionamento do Reinforcement Learning e a sua aplicação em Central Pattern Generators, com o objetivo de gerar locomoção adaptativa otimizada. De forma a investigar e identificar os pontos fortes e capacidades do Reinforcement Learning, e para demonstrar de uma forma simples este tipo de algoritmos, foram implementados dois casos de estudo baseados no estado da arte. No que diz respeito ao objetivo principal desta tese, duas soluções diferentes foram abordadas: uma primeira baseada em métodos Natural-Actor Critic, e a segunda, em Cross-Entropy Method. Este último algoritmo provou ser capaz de lidar com a integração das duas abordagens propostas. As soluções de integração foram testadas e validadas com recurso ao simulador Webots e ao modelo do robô DARwIN-OP.In this work, it is intended to apply Reinforcement Learning techniques in tasks involving learning and robot locomotion. Reinforcement Learning is a very useful learning technique with regard to legged robot locomotion, due to its ability to provide direct interaction between the agent and the environment, and the fact of not requiring supervision or complete models, in contrast with other classic approaches. Its aim consists in making decisions about which actions to take so as to maximize a cumulative reward or reinforcement signal, taking into account the fact that the decisions may affect not only the immediate reward, but also the future ones. In this work it will be studied and presented the Reinforcement Learning framework and its application in the tuning of Central Pattern Generators, with the aim of generating optimized robot locomotion. In order to investigate the strengths and abilities of Reinforcement Learning, and to demonstrate in a simple way the learning process of such algorithms, two case studies were implemented based on the state-of-the-art. With regard to the main purpose of the thesis, two different solutions are addressed: a first one based on Natural-Actor Critic methods, and a second, based on the Cross-Entropy Method. This last algorithm was found to be very capable of handling with the integration of the two proposed approaches. The integration solutions were tested and validated resorting to Webots simulation and DARwIN-OP robot model

Universidade do Minho: RepositoriUM

Locomoção bípede adaptativa a partir de uma única demonstração usando primitivas de movimento

Author: Rosado José Fernando Fachada
Publication venue: Universidade de Aveiro
Publication date: 01/01/2016
Field of study

Doutoramento em Engenharia EletrotécnicaEste trabalho aborda o problema de capacidade de imitação da locomoção humana através da utilização de trajetórias de baixo nível codificadas com primitivas de movimento e utilizá-las para depois generalizar para novas situações, partindo apenas de uma demonstração única. Assim, nesta linha de pensamento, os principais objetivos deste trabalho são dois: o primeiro é analisar, extrair e codificar demonstrações efetuadas por um humano, obtidas por um sistema de captura de movimento de forma a modelar tarefas de locomoção bípede. Contudo, esta transferência não está limitada à simples reprodução desses movimentos, requerendo uma evolução das capacidades para adaptação a novas situações, assim como lidar com perturbações inesperadas. Assim, o segundo objetivo é o desenvolvimento e avaliação de uma estrutura de controlo com capacidade de modelação das ações, de tal forma que a demonstração única apreendida possa ser modificada para o robô se adaptar a diversas situações, tendo em conta a sua dinâmica e o ambiente onde está inserido. A ideia por detrás desta abordagem é resolver o problema da generalização a partir de uma demonstração única, combinando para isso duas estruturas básicas. A primeira consiste num sistema gerador de padrões baseado em primitivas de movimento utilizando sistemas dinâmicos (DS). Esta abordagem de codificação de movimentos possui propriedades desejáveis que a torna ideal para geração de trajetórias, tais como a possibilidade de modificar determinados parâmetros em tempo real, tais como a amplitude ou a frequência do ciclo do movimento e robustez a pequenas perturbações. A segunda estrutura, que está embebida na anterior, é composta por um conjunto de osciladores acoplados em fase que organizam as ações de unidades funcionais de forma coordenada. Mudanças em determinadas condições, como o instante de contacto ou impactos com o solo, levam a modelos com múltiplas fases. Assim, em vez de forçar o movimento do robô a situações pré-determinadas de forma temporal, o gerador de padrões de movimento proposto explora a transição entre diferentes fases que surgem da interação do robô com o ambiente, despoletadas por eventos sensoriais. A abordagem proposta é testada numa estrutura de simulação dinâmica, sendo que várias experiências são efetuadas para avaliar os métodos e o desempenho dos mesmos.This work addresses the problem of learning to imitate human locomotion actions through low-level trajectories encoded with motion primitives and generalizing them to new situations from a single demonstration. In this line of thought, the main objectives of this work are twofold: The first is to analyze, extract and encode human demonstrations taken from motion capture data in order to model biped locomotion tasks. However, transferring motion skills from humans to robots is not limited to the simple reproduction, but requires the evaluation of their ability to adapt to new situations, as well as to deal with unexpected disturbances. Therefore, the second objective is to develop and evaluate a control framework for action shaping such that the single-demonstration can be modulated to varying situations, taking into account the dynamics of the robot and its environment. The idea behind the approach is to address the problem of generalization from a single-demonstration by combining two basic structures. The first structure is a pattern generator system consisting of movement primitives learned and modelled by dynamical systems (DS). This encoding approach possesses desirable properties that make them well-suited for trajectory generation, namely the possibility to change parameters online such as the amplitude and the frequency of the limit cycle and the intrinsic robustness against small perturbations. The second structure, which is embedded in the previous one, consists of coupled phase oscillators that organize actions into functional coordinated units. The changing contact conditions plus the associated impacts with the ground lead to models with multiple phases. Instead of forcing the robot’s motion into a predefined fixed timing, the proposed pattern generator explores transition between phases that emerge from the interaction of the robot system with the environment, triggered by sensor-driven events. The proposed approach is tested in a dynamics simulation framework and several experiments are conducted to validate the methods and to assess the performance of a humanoid robot

Repositório Institucional da Universidade de Aveiro

A Bio-inspired architecture for adaptive quadruped locomotion over irregular terrain

Author: Matos Vítor Emanuel da Silva
Publication venue
Publication date: 20/01/2014
Field of study

Tese de doutoramento Programa Doutoral em Engenharia Electrónica e de ComputadoresThis thesis presents a tentative advancement on walking control of small quadruped and humanoid position controlled robots, addressing the problem of walk generation by combining dynamical systems approach to motor control, insights from neuroethology research on vertebrate motor control and computational neuroscience. Legged locomotion is a complex dynamical process, despite the seemingly easy and natural behavior of the constantly present proficiency of legged animals. Research on locomotion and motor control in vertebrate animals from the last decades has brought to the attention of roboticists, the potential of the nature’s solutions to robot applications. Recent knowledge on the organization of complex motor generation and on mechanics and dynamics of locomotion has been successfully exploited to pursue agile robot locomotion. The work presented on this manuscript is part of an effort on the pursuit in devising a general, model free solution, for the generation of robust and adaptable walking behaviors. It strives to devise a practical solution applicable to real robots, such as the Sony’s quadruped AIBO and Robotis’ DARwIn- OP humanoid. The discussed solutions are inspired on the functional description of the vertebrate neural systems, especially on the concept of Central Pattern Generators (CPGs), their structure and organization, components and sensorimotor interactions. They use a dynamical systems approach for the implementation of the controller, especially on the use of nonlinear oscillators and exploitation of their properties. The main topics of this thesis are divided into three parts. The first part concerns quadruped locomotion, extending a previous CPG solution using nonlinear oscillators, and discussing an organization on three hierarchical levels of abstraction, sharing the purpose and knowledge of other works. It proposes a CPG solution which generates the walking motion for the whole-leg, which is then organized in a network for the production of quadrupedal gaits. The devised solution is able to produce goal-oriented locomotion and navigation as directed through highlevel commands from local planning methods. In this part, active balance on a standing quadruped is also addressed, proposing a method based on dynamical systems approach, exploring the integration of parallel postural mechanisms from several sensory modalities. The solutions are all successfully tested on the quadruped AIBO robot. In the second part, is addressed bipedal walking for humanoid robots. A CPG solution for biped walking based on the concept of motion primitives is proposed, loosely based on the idea of synergistic organization of vertebrate motor control. A set of motion primitives is shown to produce the basis of simple biped walking, and generalizable to goal-oriented walking. Using the proposed CPG, the inclusion of feedback mechanisms is investigated, for modulation and adaptation of walking, through phase transition control according to foot load information. The proposed solution is validated on the humanoid DARwIn-OP, and its application is evaluated within a whole-body control framework. The third part sidesteps a little from the other two topics. It discusses the CPG as having an alternative role to direct motor generation in locomotion, serving instead as a processor of sensory information for a feedback based motor generation. In this work a reflex based walking controller is devised for the compliant quadruped Oncilla robot, to serve as purely feedback based walking generation. The capabilities of the reflex network are shown in simulations, followed by a brief discussion on its limitations, and how they could be improved by the inclusion of a CPG.Esta tese apresenta uma tentativa de avanço no controlo de locomoção para pequenos robôs quadrúpedes e bipedes controlados por posição, endereçando o problema de geração motora através da combinação da abordagem de sistemas dinâmicos para o controlo motor, e perspectivas de investigação neuroetologia no controlo motor vertebrado e neurociência computacional. Andar é um processo dinâmico e complexo, apesar de parecer um comportamento fácil e natural devido à presença constante de animais proficientes em locomoção terrestre. Investigação na área da locomoção e controlo motor em animais vertebrados nas últimas decadas, trouxe à atenção dos roboticistas o potencial das soluções encontradas pela natureza aplicadas a aplicações robóticas. Conhecimento recente relativo à geração de comportamentos motores complexos e da mecânica da locomoção tem sido explorada com sucesso na procura de locomoção ágil na robótica. O trabalho apresentado neste documento é parte de um esforço no desenho de uma solução geral, e independente de modelos, para a geração robusta e adaptável de comportamentos locomotores. O foco é desenhar uma solução prática, aplicável a robôs reais, tal como o quadrúpede Sony AIBO e o humanóide DARwIn-OP. As soluções discutidas são inspiradas na descrição funcional do sistema nervoso vertebrado, especialmente no conceito de Central Pattern Generators (CPGs), a sua estrutura e organização, componentes e interacção sensorimotora. Estas soluções são implementadas usando uma abordagem em sistemas dinâmicos, focandos o uso de osciladores não lineares e a explorando as suas propriedades. Os tópicos principais desta tese estão divididos em três partes. A primeira parte explora o tema de locomoção quadrúpede, expandindo soluções prévias de CPGs usando osciladores não lineares, e discutindo uma organização em três níveis de abstracção, partilhando as ideias de outros trabalhos. Propõe uma solução de CPG que gera os movimentos locomotores para uma perna, que é depois organizado numa rede, para a produção de marcha quadrúpede. A solução concebida é capaz de produzir locomoção e navegação, comandada através de comandos de alto nível, produzidos por métodos de planeamento local. Nesta parte também endereçado o problema da manutenção do equilíbrio num robô quadrúpede parado, propondo um método baseado na abordagem em sistemas dinâmicos, explorando a integração de mecanismos posturais em paralelo, provenientes de várias modalidades sensoriais. As soluções são todas testadas com sucesso no robô quadrupede AIBO. Na segunda parte é endereçado o problema de locomoção bípede. É proposto um CPG baseado no conceito de motion primitives, baseadas na ideia de uma organização sinergética do controlo motor vertebrado. Um conjunto de motion primitives é usado para produzir a base de uma locomoção bípede simples e generalizável para navegação. Esta proposta de CPG é usada para de seguida se investigar a inclusão de mecanismos de feedback para modulação e adaptação da marcha, através do controlo de transições entre fases, de acordo com a informação de carga dos pés. A solução proposta é validada no robô humanóide DARwIn-OP, e a sua aplicação no contexto do framework de whole-body control é também avaliada. A terceira parte desvia um pouco dos outros dois tópicos. Discute o CPG como tendo um papel alternativo ao controlo motor directo, servindo em vez como um processador de informação sensorial para um mecanismo de locomoção puramente em feedback. Neste trabalho é desenhado um controlador baseado em reflexos para a geração da marcha de um quadrúpede compliant. As suas capacidades são demonstradas em simulação, seguidas por uma breve discussão nas suas limitações, e como estas podem ser ultrapassadas pela inclusão de um CPG.The presented work was possible thanks to the support by the Portuguese Science and Technology Foundation through the PhD grant SFRH/BD/62047/2009

Universidade do Minho: RepositoriUM