Search CORE

10,100 research outputs found

Intrinsic Motivation and Mental Replay enable Efficient Online Adaptation in Stochastic Recurrent Networks

Author: Peters Jan
Rueckert Elmar
Tanneberg Daniel
Publication venue: 'Elsevier BV'
Publication date: 23/10/2018
Field of study

Autonomous robots need to interact with unknown, unstructured and changing environments, constantly facing novel challenges. Therefore, continuous online adaptation for lifelong-learning and the need of sample-efficient mechanisms to adapt to changes in the environment, the constraints, the tasks, or the robot itself are crucial. In this work, we propose a novel framework for probabilistic online motion planning with online adaptation based on a bio-inspired stochastic recurrent neural network. By using learning signals which mimic the intrinsic motivation signalcognitive dissonance in addition with a mental replay strategy to intensify experiences, the stochastic recurrent network can learn from few physical interactions and adapts to novel environments in seconds. We evaluate our online planning and adaptation framework on an anthropomorphic KUKA LWR arm. The rapid online adaptation is shown by learning unknown workspace constraints sample-efficiently from few physical interactions while following given way points.Comment: accepted in Neural Network

arXiv.org e-Print Archive

GUARDIANS final report

Author: Penders Jacques
Publication venue: 'Sheffield Hallam University'
Publication date
Field of study

Emergencies in industrial warehouses are a major concern for firefghters. The large dimensions together with the development of dense smoke that drastically reduces visibility, represent major challenges. The Guardians robot swarm is designed to assist fire fighters in searching a large warehouse. In this report we discuss the technology developed for a swarm of robots searching and assisting fire fighters. We explain the swarming algorithms which provide the functionality by which the robots react to and follow humans while no communication is required. Next we discuss the wireless communication system, which is a so-called mobile ad-hoc network. The communication network provides also one of the means to locate the robots and humans. Thus the robot swarm is able to locate itself and provide guidance information to the humans. Together with the re ghters we explored how the robot swarm should feed information back to the human fire fighter. We have designed and experimented with interfaces for presenting swarm based information to human beings

Machine learning at the interface of structural health monitoring and non-destructive evaluation

Author: Cross E.J.
Dervilis N.
Fuentes R.
Gardner P.
Mineo C.
Pierce S.G.
Worden K.
Publication venue: 'The Royal Society'
Publication date: 01/01/2020
Field of study

While both non-destructive evaluation (NDE) and structural health monitoring (SHM) share the objective of damage detection and identification in structures, they are distinct in many respects. This paper will discuss the differences and commonalities and consider ultrasonic/guided-wave inspection as a technology at the interface of the two methodologies. It will discuss how data-based/machine learning analysis provides a powerful approach to ultrasonic NDE/SHM in terms of the available algorithms, and more generally, how different techniques can accommodate the very substantial quantities of data that are provided by modern monitoring campaigns. Several machine learning methods will be illustrated using case studies of composite structure monitoring and will consider the challenges of high-dimensional feature data available from sensing technologies like autonomous robotic ultrasonic inspection. This article is part of the theme issue ‘Advanced electromagnetic non-destructive evaluation and smart monitoring’

Archivio istituzionale della ricerca - Università di Palermo

Evolution of self-organising behaviours with novelty search

Author: Gomes Jorge Miguel Carvalho
Publication venue
Publication date: 01/01/2012
Field of study

Tese de mestrado em Engenharia Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2012A pesquisa de novidade (novelty search) é um nova e promissora técnica de evolução artificial, que desafia a abordagem tradicional focada na perseguição direta dos objetivos. O principal conceito por trás da pesquisa de novidade é a recompensa de soluções que sejam novas, em vez de soluções que se aproximem do objetivo pré-definido. Este carácter divergente da procura faz com que a pesquisa de novidade não esteja sujeita a alguns problemas comuns na evolução artificial, tal como a convergência prematura e a deceção da função objetivo, pois na pesquisa de novidade o objetivo não tem inuência direta no processo evolutivo. A função objetivo diz-se decetiva quando ela conduz a população do algoritmo evolucionário para máximos locais, e como consequência não consegue atingir o objetivo desejado numa quantidade razoável de tempo. No algoritmo de pesquisa de novidade, a função objetivo é substituída por uma métrica que quantifica a novidade das soluções, baseando-se em caracterizações de comportamento que são obtidas para cada uma. A função que obtém estas caracterizações deve ser definida pelo humano que conduz o processo, usando conhecimento sobre o domínio e tendo em consideração a tarefa que se está a tentar desempenhar. A novidade de cada individuo é medida relativamente à população corrente e a um arquivo de indivíduos que representa o espaço de comportamentos que já foi anteriormente explorado. Desta forma, soluções que se situem em locais do espaço de comportamentos que estejam pouco explorados são consideradas mais aptas para seleção, e vice-versa, guiando o processo evolutivo em direção à diversidade comportamental. Contraintuitivamente, embora a pesquisa de novidade ignore totalmente o objetivo, ela revelou em vários casos um maior sucesso que a abordagem tradicional baseada em objetivos, especialmente em tarefas onde a função objetivo sofre de algum grau de deceção. Em trabalhos anteriores, a pesquisa de novidade foi aplicada com sucesso em tarefas de robótica não coletiva. Nesta tese, propomos a aplicação da pesquisa de novidade à evolução de controladores para robótica coletiva, uma área que tem sido dominada pelas técnicas de evolução tradicionais, focadas em objetivos. A motivação para a aplicação da pesquisa de novidade a esta área é o elevado nível de complexidade na robótica coletiva, resultante das relações entre os vários agentes do grupo, e entre os agentes e o seu ambiente. À medida que um sistema se torna mais complexo, a função objetivo é mais suscetível de se tornar decetiva, e a pesquisa de novidade é particularmente eficaz a lidar com a deceção da função objetivo. Ultrapassar o problema da deceção neste domínio é mais um passo em direção à geração automática de controladores para grupos de robôs capazes de resolver tarefas com a complexidade do mundo real. O carácter da pesquisa de novidade orientado à diversidade comportamental é também interessante neste domínio, pois permite a geração de uma diversidade de soluções para o mesmo problema, possivelmente revelando formas originais de auto-organização. No nosso trabalho, os controladores que são usados pelos grupos de robôs (todos os robôs do grupo usam o mesmo controlador) são redes neuronais recorrentes. O método escolhido para implementar o processo neuro-evolutivo foi o NEAT. A pesquisa de novidade é implementada sobre o NEAT, da forma como foi descrito acima. O NEAT é um método neuro-evolutivo que modifica tanto os pesos das ligações da rede, como a sua estrutura, podendo adicionar e remover nós e ligações. Começa com um conjunto de redes neuronais simples, completamente ligadas e sem nós intermédios, e vai gradualmente complexificando as redes neuronais, à medida que se verifique vantajoso, podendo levar à evolução de comportamentos gradualmente mais complexos. Para conduzir o estudo descrito nesta tese, foi seguida uma abordagem experimental, através da realização de ensaios evolucionários com diferentes técnicas evolucionárias, parâmetros, e tarefas. Em cada ensaio foram recolhidas informações e métricas detalhadas de forma a facilitar a compreensão das dinâmicas evolucionárias. Para a execução dos ensaios evolucionários, foi desenvolvida uma nova aplicação, baseada num simulador de robótica existente e numa implementação do NEAT. A aplicação é altamente modular, permitindo a definição de novos ambientes, robôs, métodos evolucionários, entre outros, sem ter que modificar código fonte existente. O primeiro passo do nosso trabalho consistiu em aplicar o algoritmo original de pesquisa de novidade à evolução de controladores para um grupo de robôs que deve executar uma tarefa de agregação. Nesta tarefa (amplamente estudada em trabalhos anteriores), os robôs são colocados em posições aleatórias dentro de uma arena fechada, e têm como objetivo formar um único agregado compacto, em qualquer ponto da arena. A tarefa é dificultada por uma arena de grandes dimensões e robôs com sensores de curto alcance. Foram realizadas experiências com a pesquisa de novidade usando três diferentes caracterizações de comportamento: uma altamente correlacionada com o objetivo, outra pouco correlacionada, e finalmente a combinação das duas. Foi também experimentada a evolução tradicional guiada por objetivos. De seguida, é experimentada a aplicação da pesquisa de novidade a uma tarefa de gestão coletiva de energia, em que os robôs gastam energia ao longo do tempo e devem coordenar-se para permitir o acesso periódico à única estacão de recarga, de modo a sobreviverem. São definidas duas variantes desta tarefa, uma em que os robôs gastam sempre a mesma quantidade de energia ao longo do tempo, e outra em que a quantidade de energia despendida depende da velocidade dos robôs. Na primeira variante, a função objetivo consegue guiar eficazmente a população em direção ao objectivo. Na segunda variante, a função objetivo é claramente decetiva, e conduz a população para máximos locais muito prematuros. Foram também experimentadas duas caracterizações comportamentais distintas na pesquisa de novidade: uma caracterização curta, altamente relacionada com o objetivo, e outra caracterização expandida, com algumas dimensões não relacionadas com o objetivo. Os resultados destas experiências revelam que a pesquisa de novidade pode ser um método eficaz para evolução de controladores para robótica coletiva. A pesquisa de novidade mostrou ser eficaz em ultrapassar a deceção da função objetivo, evitando com sucesso os máximos locais. Foi particularmente bem sucedida na inicialização da evolução, evitando a convergência prematura e atingindo elevados valores de fitness cedo na evolução. Foram estabelecidas comparações detalhadas entre a pesquisa de novidade e o método evolutivo tradicional, baseado em objetivos. Em configurações onde a deceção da função objetivo não era um problema, a pesquisa de novidade obteve um desempenho semelhante à evolução guiada por objetivos, em termos dos valores de fitness das soluções evoluídas. Por outro lado, em configurações onde a função objetivo era decetiva, a pesquisa de novidade revelou-se claramente superior. Os resultados também mostram que a pesquisa de novidade consegue evoluir soluções com redes neuronais mais simples, em comparação com a evolução guiada por objetivos. Os nossos resultados representam uma contribuição relevante para o domínio da robótica coletiva evolucionaria, pois os trabalhos anteriores revelam dificuldades em evoluir grupos de robôs capazes de desempenhar tarefas ambiciosas. As experiências sugerem que a evolução de comportamentos coletivos é especialmente suscetível à deceção da função objetivo, e como tal a pesquisa de novidade revela-se como uma promissora alternativa para ultrapassar esta dificuldade, e conseguir a evolução de comportamentos coletivos mais ambiciosos. Os resultados também revelaram que a pesquisa de novidade pode ser utilizada para descobrir uma ampla diversidade de formas de auto-organização. A procura de diversidade em robótica coletiva é um tópico relevante porque tipicamente existe um grande leque de possibilidades de comportamentos, resultante das possíveis interações entre os vários robôs do grupo, e entre os robôs e o ambiente. Procurar ativamente estas possibilidades pode levar a formas inesperadas de auto-organização e diferentes soluções para o mesmo problema. Por exemplo, nas experiências com a tarefa de agregação, a pesquisa de novidade evoluiu um tipo de comportamentos de agregação que não é descrito no trabalho relacionado, mas que pode ser encontrado no mundo natural. Estas experiências forneceram também alguma compreensão sobre como devem ser construídas as caracterizações comportamentais a usar na pesquisa de novidade. Mostrámos que combinar várias medidas pode ser uma forma de aumentar o desempenho da pesquisa de novidade. No entanto, deve-se evitar acrescentar à caracterização do comportamento dimensões que estejam pouco relacionadas com a tarefa que se está a tentar resolver. Neste caso, os resultados mostraram que a pesquisa de novidade pode começar a focar-se em zonas do espaço de comportamentos que não são relevantes para a solução da tarefa. Para visualizar e analisar espaços de comportamentos de elevada dimensionalidade, foram utilizados mapas de Kohonen auto-organizados. Esta técnica de visualização mostrou ser útil para uma melhor compreensão da dinâmica evolucionária na pesquisa de novidade. Como referido acima, os resultados mostraram que a pesquisa de novidade pode ter dificuldade em encontrar boas soluções em espaços de comportamentos que tenham dimensões não relacionadas com o objetivo. Para ultrapassar este problema, estendemos o nosso estudo para variantes da pesquisa de novidade que combinam a diversidade comportamental com a função objetivo. Propomos um novo método para combinar a pesquisa de novidade com os objetivos, chamado Progressive Minimal Criteria Novelty Search (PMCNS). Este método restringe progressivamente o espaço de comportamentos, através da definição de um limiar de fitness que os indivíduos devem superar para serem selecionados para reprodução. Este limiar é dinâmico, começando sem impacto e aumentando progressivamente à medida que a população se vai aproximando do objetivo. Para avaliar este novo método, foram realizadas experiências com as tarefas de agregação e gestão coletiva de energia, já apresentadas anteriormente. O PMCNS foi comparado com outro método bem sucedido, onde a avaliação de cada individuo consiste numa combinação linear dos seus valores de fitness e novidade. Os resultados mostram que o PMCNS é um método eficaz em direcionar a exploração do espaço de comportamentos para as zonas associadas a soluções de elevada qualidade, sem comprometer a diversidade que é descoberta pela pesquisa de novidade, e conseguindo na mesma ultrapassar a deceção da função objetivo. O desempenho do PMCNS foi superior a todos os outros métodos testados.Novelty search is a recent artificial evolution technique that challenges the traditional evolutionary approach. The main idea behind novelty search is to reward the novelty of solutions instead of progress towards a fixed goal, in order to avoid premature convergence and deception. Deception occurs in artificial evolution when the objective-function leads the population to local maxima, failing to reach the desired objective. In novelty search, there is no pressure to evolve better solutions, only pressure to evolve solutions different from the ones seen so far, thus avoiding the potential deceptiveness of an objective-function. In previous works, novelty search has been applied with success to single robot system. In this thesis, we use novelty search together with NEAT to evolve neuro-controllers for homogeneous swarms of robots. The aim of this approach is to facilitate the achievement of more ambitious objectives through artificial evolution, and in the end contribute towards the evolution of robotic swarms capable of taking on complex, real-world tasks. Our empirical study is conducted in simulation and uses two common swarm robotics tasks: aggregation, and sharing of an energy recharging station. Our results show that novelty search is capable of overcoming deception, and is notably effective in bootstrapping the evolution. In non-deceptive setups, novelty search achieved fitness scores similar to fitness-based evolution. Novelty search could evolve a broad diversity of solutions to the same problem, unveiling interesting forms of self-organization. Our study also encompasses variants of novelty search that combine novelty with objectives, in order to combine the exploratory character of novelty search with the exploratory character of objective-based evolution. We propose Progressive Minimal Criteria Novelty Search (PMCNS), a novel method for combining novelty and objectives, where the exploration of the behavior space is progressively restricted to zones of increasing fitness scores. We show that PMCNS can improve the fitness scores of the evolved solutions, without compromising the diversity of behaviors. Overall, our study shows that novelty search is a promising alternative for the evolution of controllers for robotic swarms

Universidade de Lisboa: Repositório.UL

Discovering Blind Spots in Reinforcement Learning

Author: Dey Debadeepta
Horvitz Eric
Kamar Ece
Ramakrishnan Ramya
Shah Julie
Publication venue
Publication date: 23/05/2018
Field of study

Agents trained in simulation may make errors in the real world due to mismatches between training and execution environments. These mistakes can be dangerous and difficult to discover because the agent cannot predict them a priori. We propose using oracle feedback to learn a predictive model of these blind spots to reduce costly errors in real-world applications. We focus on blind spots in reinforcement learning (RL) that occur due to incomplete state representation: The agent does not have the appropriate features to represent the true state of the world and thus cannot distinguish among numerous states. We formalize the problem of discovering blind spots in RL as a noisy supervised learning problem with class imbalance. We learn models to predict blind spots in unseen regions of the state space by combining techniques for label aggregation, calibration, and supervised learning. The models take into consideration noise emerging from different forms of oracle feedback, including demonstrations and corrections. We evaluate our approach on two domains and show that it achieves higher predictive performance than baseline methods, and that the learned model can be used to selectively query an oracle at execution time to prevent errors. We also empirically analyze the biases of various feedback types and how they influence the discovery of blind spots.Comment: To appear at AAMAS 201

arXiv.org e-Print Archive

Learning to Generate 3D Training Data

Author: Yang Dawei
Publication venue
Publication date: 01/01/2020
Field of study

Human-level visual 3D perception ability has long been pursued by researchers in computer vision, computer graphics, and robotics. Recent years have seen an emerging line of works using synthetic images to train deep networks for single image 3D perception. Synthetic images rendered by graphics engines are a promising source for training deep neural networks because it comes with perfect 3D ground truth for free. However, the 3D shapes and scenes to be rendered are largely made manual. Besides, it is challenging to ensure that synthetic images collected this way can help train a deep network to perform well on real images. This is because graphics generation pipelines require numerous design decisions such as the selection of 3D shapes and the placement of the camera. In this dissertation, we propose automatic generation pipelines of synthetic data that aim to improve the task performance of a trained network. We explore both supervised and unsupervised directions for automatic optimization of 3D decisions. For supervised learning, we demonstrate how to optimize 3D parameters such that a trained network can generalize well to real images. We first show that we can construct a pure synthetic 3D shape to achieve state-of-the-art performance on a shape-from-shading benchmark. We further parameterize the decisions as a vector and propose a hybrid gradient approach to efficiently optimize the vector towards usefulness. Our hybrid gradient is able to outperform classic black-box approaches on a wide selection of 3D perception tasks. For unsupervised learning, we propose a novelty metric for 3D parameter evolution based on deep autoregressive models. We show that without any extrinsic motivation, the novelty computed from autoregressive models alone is helpful. Our novelty metric can consistently encourage a random synthetic generator to produce more useful training data for downstream 3D perception tasks.PHDComputer Science & EngineeringUniversity of Michigan, Horace H. Rackham School of Graduate Studieshttp://deepblue.lib.umich.edu/bitstream/2027.42/163240/1/ydawei_1.pd

Search-based Test Generation for Automated Driving Systems: From Perception to Control Logic

Author
Publication venue
Publication date: 01/01/2019
Field of study

abstract: Automated driving systems are in an intensive research and development stage, and the companies developing these systems are targeting to deploy them on public roads in a very near future. Guaranteeing safe operation of these systems is crucial as they are planned to carry passengers and share the road with other vehicles and pedestrians. Yet, there is no agreed-upon approach on how and in what detail those systems should be tested. Different organizations have different testing approaches, and one common approach is to combine simulation-based testing with real-world driving. One of the expectations from fully-automated vehicles is never to cause an accident. However, an automated vehicle may not be able to avoid all collisions, e.g., the collisions caused by other road occupants. Hence, it is important for the system designers to understand the boundary case scenarios where an autonomous vehicle can no longer avoid a collision. Besides safety, there are other expectations from automated vehicles such as comfortable driving and minimal fuel consumption. All safety and functional expectations from an automated driving system should be captured with a set of system requirements. It is challenging to create requirements that are unambiguous and usable for the design, testing, and evaluation of automated driving systems. Another challenge is to define useful metrics for assessing the testing quality because in general, it is impossible to test every possible scenario. The goal of this dissertation is to formalize the theory for testing automated vehicles. Various methods for automatic test generation for automated-driving systems in simulation environments are presented and compared. The contributions presented in this dissertation include (i) new metrics that can be used to discover the boundary cases between safe and unsafe driving conditions, (ii) a new approach that combines combinatorial testing and optimization-guided test generation methods, (iii) approaches that utilize global optimization methods and random exploration to generate critical vehicle and pedestrian trajectories for testing purposes, (iv) a publicly-available simulation-based automated vehicle testing framework that enables application of the existing testing approaches in the literature, including the new approaches presented in this dissertation.Dissertation/ThesisDoctoral Dissertation Computer Engineering 201