1,118 research outputs found

    Human-in-the-Loop Methods for Data-Driven and Reinforcement Learning Systems

    Get PDF
    Recent successes combine reinforcement learning algorithms and deep neural networks, despite reinforcement learning not being widely applied to robotics and real world scenarios. This can be attributed to the fact that current state-of-the-art, end-to-end reinforcement learning approaches still require thousands or millions of data samples to converge to a satisfactory policy and are subject to catastrophic failures during training. Conversely, in real world scenarios and after just a few data samples, humans are able to either provide demonstrations of the task, intervene to prevent catastrophic actions, or simply evaluate if the policy is performing correctly. This research investigates how to integrate these human interaction modalities to the reinforcement learning loop, increasing sample efficiency and enabling real-time reinforcement learning in robotics and real world scenarios. This novel theoretical foundation is called Cycle-of-Learning, a reference to how different human interaction modalities, namely, task demonstration, intervention, and evaluation, are cycled and combined to reinforcement learning algorithms. Results presented in this work show that the reward signal that is learned based upon human interaction accelerates the rate of learning of reinforcement learning algorithms and that learning from a combination of human demonstrations and interventions is faster and more sample efficient when compared to traditional supervised learning algorithms. Finally, Cycle-of-Learning develops an effective transition between policies learned using human demonstrations and interventions to reinforcement learning. The theoretical foundation developed by this research opens new research paths to human-agent teaming scenarios where autonomous agents are able to learn from human teammates and adapt to mission performance metrics in real-time and in real world scenarios.Comment: PhD thesis, Aerospace Engineering, Texas A&M (2020). For more information, see https://vggoecks.com

    Efficiently Combining Human Demonstrations and Interventions for Safe Training of Autonomous Systems in Real-Time

    Full text link
    This paper investigates how to utilize different forms of human interaction to safely train autonomous systems in real-time by learning from both human demonstrations and interventions. We implement two components of the Cycle-of-Learning for Autonomous Systems, which is our framework for combining multiple modalities of human interaction. The current effort employs human demonstrations to teach a desired behavior via imitation learning, then leverages intervention data to correct for undesired behaviors produced by the imitation learner to teach novel tasks to an autonomous agent safely, after only minutes of training. We demonstrate this method in an autonomous perching task using a quadrotor with continuous roll, pitch, yaw, and throttle commands and imagery captured from a downward-facing camera in a high-fidelity simulated environment. Our method improves task completion performance for the same amount of human interaction when compared to learning from demonstrations alone, while also requiring on average 32% less data to achieve that performance. This provides evidence that combining multiple modes of human interaction can increase both the training speed and overall performance of policies for autonomous systems.Comment: 9 pages, 6 figure

    Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences

    Get PDF
    Increased reliance on computational approaches in the life sciences has revealed grave concerns about how accessible and reproducible computation-reliant results truly are. Galaxy http://usegalaxy.org, an open web-based platform for genomic research, addresses these problems. Galaxy automatically tracks and manages data provenance and provides support for capturing the context and intent of computational methods. Galaxy Pages are interactive, web-based documents that provide users with a medium to communicate a complete computational analysis

    OnRamp: a Galaxy-based platform for collaborative annotation of eukaryotic genomes

    Get PDF
    G-OnRamp provides a user-friendly, web-based platform for collaborative, end-to-end annotation of eukaryotic genomes using UCSC Assembly Hubs and JBrowse/Apollo genome browsers with evidence tracks derived from sequence alignments, ab initio gene predictors, RNA-Seq data and repeat finders. G-OnRamp can be used to visualize large genomics datasets and to perform collaborative genome annotation projects in both research and educational settings

    Comportamentos constituintes da classe geral de comportamentos Ler Textos Acadêmicos

    Get PDF
    Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Filosofia e Ciências Humanas, Programa de Pós-Graduação em Psicologia, Florianópolis, 2011No ensino universitário, "ler textos" é um comportamento que, com muita freqüência, é requisitado a estudantes. Por meio desse comportamento é possível desenvolver outros comportamentos profissionais relevantes para qualquer profissional de nível superior. Contudo, esse comportamento de ler textos acadêmicos vem sendo realizado por estudantes universitários de maneira apropriada? Estudos desenvolvidos a respeito do comportamento de "ler textos acadêmicos" apresentam resultados que indicam que o repertório de leitura de textos acadêmicos apresentado por estudantes universitários parece ser insuficiente em comparação ao repertório de leitura necessário a ser apresentado por estudantes de nível superior. Que decorrências podem estar relacionadas a repertórios de leitura pouco desenvolvidos por estudantes universitários? Estudos indicam que sujeitos cujos repertórios de leitura são pouco desenvolvidos têm menor probabilidade de questionar informações apresentadas em textos acadêmicos, de relacionar informações apresentadas em textos com informações conhecidas por esses estudantes e, ainda, tem menor probabilidade de elaborar conceitos a partir de informações apresentadas em textos acadêmicos. A partir desses estudos é perceptível que o comportamento de "ler textos acadêmicos" é constituído por outros comportamentos de menor abrangência. Que comportamentos de menor abrangência constituem essa classe geral de comportamentos "ler textos acadêmicos"? Desde as descobertas iniciais de Skinner é reconhecido que qualquer comportamento é constituído por relações entre o que um organismo faz, a situação que antecede esse fazer e o que decorre desse fazer. Além disso, conhecimento produzido pela Análise do Comportamento possibilita identificar classes de comportamentos em variados graus de abrangência. Isso se aplica ao comportamento de "ler textos acadêmicos" que é constituído por outros comportamentos de menor abrangência, os quais, em conjunto, constituem a classe mais geral de comportamentos "ler textos acadêmicos". Por meio das sete etapas do procedimento desenvolvido foram identificados ou derivados 151 comportamentos constituintes da classe geral "ler textos acadêmicos". Esses 151 comportamentos foram organizados em 11 classes de comportamentos, que são: "caracterizar locais que aumentam a probabilidade de ler textos acadêmicos"; "classificar textos acadêmicos"; "distinguir objetivos de ler textos acadêmicos elaborados por diferentes sujeitos"; "avaliar títulos de textos acadêmicos"; "avaliar subtítulos de textos acadêmicos"; "avaliar informações identificadas ao ler textos acadêmicos"; "caracterizar informações desconhecidas pelo leitor ao ler textos acadêmicos"; "caracterizar informações relevantes acerca de fenômenos identificadas ao ler textos acadêmicos"; "relacionar informações identificadas em textos acadêmicos com informações conhecidas pelo leitor"; "avaliar textos elaborados a partir de informações lidas em textos acadêmicos"; e "derivar comportamentos a serem apresentados a partir da primeira leitura de um texto acadêmico". Essas 11 classes apresentam comportamentos antecedentes ao processo de "ler textos acadêmicos", comportamentos constituintes do processo de "ler textos acadêmicos" propriamente dito e comportamentos decorrentes do processo de "ler textos acadêmicos". A identificação de comportamentos constituintes da classe geral denominada "ler textos acadêmicos" aumenta o grau de clareza acerca desse fenômeno e a partir da identificação de comportamentos constituintes da classe geral de comportamentos denominada "ler textos acadêmicos" é possível elaborar um programa de ensino a partir de tais comportamentos identificados ou derivados. Esses resultados apresentados podem ser relevantes tanto para estudantes universitários, uma vez que essa classe de comportamentos possibilita desenvolver outros comportamentos profissionais relevantes para profissionais de nível superior, como para professores universitários, os quais, a partir dos resultados apresentados podem desenvolver programas de ensino de tais comportamentos

    DIP-RL: Demonstration-Inferred Preference Learning in Minecraft

    Full text link
    In machine learning for sequential decision-making, an algorithmic agent learns to interact with an environment while receiving feedback in the form of a reward signal. However, in many unstructured real-world settings, such a reward signal is unknown and humans cannot reliably craft a reward signal that correctly captures desired behavior. To solve tasks in such unstructured and open-ended environments, we present Demonstration-Inferred Preference Reinforcement Learning (DIP-RL), an algorithm that leverages human demonstrations in three distinct ways, including training an autoencoder, seeding reinforcement learning (RL) training batches with demonstration data, and inferring preferences over behaviors to learn a reward function to guide RL. We evaluate DIP-RL in a tree-chopping task in Minecraft. Results suggest that the method can guide an RL agent to learn a reward function that reflects human preferences and that DIP-RL performs competitively relative to baselines. DIP-RL is inspired by our previous work on combining demonstrations and pairwise preferences in Minecraft, which was awarded a research prize at the 2022 NeurIPS MineRL BASALT competition, Learning from Human Feedback in Minecraft. Example trajectory rollouts of DIP-RL and baselines are located at https://sites.google.com/view/dip-rl.Comment: Paper accepted at The Many Facets of Preference Learning Workshop at the International Conference on Machine Learning (ICML), Honolulu, Hawaii, USA, 202
    corecore