1,118 research outputs found
Human-in-the-Loop Methods for Data-Driven and Reinforcement Learning Systems
Recent successes combine reinforcement learning algorithms and deep neural
networks, despite reinforcement learning not being widely applied to robotics
and real world scenarios. This can be attributed to the fact that current
state-of-the-art, end-to-end reinforcement learning approaches still require
thousands or millions of data samples to converge to a satisfactory policy and
are subject to catastrophic failures during training. Conversely, in real world
scenarios and after just a few data samples, humans are able to either provide
demonstrations of the task, intervene to prevent catastrophic actions, or
simply evaluate if the policy is performing correctly. This research
investigates how to integrate these human interaction modalities to the
reinforcement learning loop, increasing sample efficiency and enabling
real-time reinforcement learning in robotics and real world scenarios. This
novel theoretical foundation is called Cycle-of-Learning, a reference to how
different human interaction modalities, namely, task demonstration,
intervention, and evaluation, are cycled and combined to reinforcement learning
algorithms. Results presented in this work show that the reward signal that is
learned based upon human interaction accelerates the rate of learning of
reinforcement learning algorithms and that learning from a combination of human
demonstrations and interventions is faster and more sample efficient when
compared to traditional supervised learning algorithms. Finally,
Cycle-of-Learning develops an effective transition between policies learned
using human demonstrations and interventions to reinforcement learning. The
theoretical foundation developed by this research opens new research paths to
human-agent teaming scenarios where autonomous agents are able to learn from
human teammates and adapt to mission performance metrics in real-time and in
real world scenarios.Comment: PhD thesis, Aerospace Engineering, Texas A&M (2020). For more
information, see https://vggoecks.com
Efficiently Combining Human Demonstrations and Interventions for Safe Training of Autonomous Systems in Real-Time
This paper investigates how to utilize different forms of human interaction
to safely train autonomous systems in real-time by learning from both human
demonstrations and interventions. We implement two components of the
Cycle-of-Learning for Autonomous Systems, which is our framework for combining
multiple modalities of human interaction. The current effort employs human
demonstrations to teach a desired behavior via imitation learning, then
leverages intervention data to correct for undesired behaviors produced by the
imitation learner to teach novel tasks to an autonomous agent safely, after
only minutes of training. We demonstrate this method in an autonomous perching
task using a quadrotor with continuous roll, pitch, yaw, and throttle commands
and imagery captured from a downward-facing camera in a high-fidelity simulated
environment. Our method improves task completion performance for the same
amount of human interaction when compared to learning from demonstrations
alone, while also requiring on average 32% less data to achieve that
performance. This provides evidence that combining multiple modes of human
interaction can increase both the training speed and overall performance of
policies for autonomous systems.Comment: 9 pages, 6 figure
Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences
Increased reliance on computational approaches in the life sciences has revealed grave concerns about how accessible and reproducible computation-reliant results truly are. Galaxy http://usegalaxy.org, an open web-based platform for genomic research, addresses these problems. Galaxy automatically tracks and manages data provenance and provides support for capturing the context and intent of computational methods. Galaxy Pages are interactive, web-based documents that provide users with a medium to communicate a complete computational analysis
OnRamp: a Galaxy-based platform for collaborative annotation of eukaryotic genomes
G-OnRamp provides a user-friendly, web-based platform for collaborative, end-to-end annotation of eukaryotic genomes using UCSC Assembly Hubs and JBrowse/Apollo genome browsers with evidence tracks derived from sequence alignments, ab initio gene predictors, RNA-Seq data and repeat finders. G-OnRamp can be used to visualize large genomics datasets and to perform collaborative genome annotation projects in both research and educational settings
Comportamentos constituintes da classe geral de comportamentos Ler Textos Acadêmicos
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Filosofia e Ciências Humanas, Programa de Pós-Graduação em Psicologia, Florianópolis, 2011No ensino universitário, "ler textos" é um comportamento que, com muita freqüência, é requisitado a estudantes. Por meio desse comportamento é possível desenvolver outros comportamentos profissionais relevantes para qualquer profissional de nível superior. Contudo, esse comportamento de ler textos acadêmicos vem sendo realizado por estudantes universitários de maneira apropriada? Estudos desenvolvidos a respeito do comportamento de "ler textos acadêmicos" apresentam resultados que indicam que o repertório de leitura de textos acadêmicos apresentado por estudantes universitários parece ser insuficiente em comparação ao repertório de leitura necessário a ser apresentado por estudantes de nível superior. Que decorrências podem estar relacionadas a repertórios de leitura pouco desenvolvidos por estudantes universitários? Estudos indicam que sujeitos cujos repertórios de leitura são pouco desenvolvidos têm menor probabilidade de questionar informações apresentadas em textos acadêmicos, de relacionar informações apresentadas em textos com informações conhecidas por esses estudantes e, ainda, tem menor probabilidade de elaborar conceitos a partir de informações apresentadas em textos acadêmicos. A partir desses estudos é perceptível que o comportamento de "ler textos acadêmicos" é constituído por outros comportamentos de menor abrangência. Que comportamentos de menor abrangência constituem essa classe geral de comportamentos "ler textos acadêmicos"? Desde as descobertas iniciais de Skinner é reconhecido que qualquer comportamento é constituído por relações entre o que um organismo faz, a situação que antecede esse fazer e o que decorre desse fazer. Além disso, conhecimento produzido pela Análise do Comportamento possibilita identificar classes de comportamentos em variados graus de abrangência. Isso se aplica ao comportamento de "ler textos acadêmicos" que é constituído por outros comportamentos de menor abrangência, os quais, em conjunto, constituem a classe mais geral de comportamentos "ler textos acadêmicos". Por meio das sete etapas do procedimento desenvolvido foram identificados ou derivados 151 comportamentos constituintes da classe geral "ler textos acadêmicos". Esses 151 comportamentos foram organizados em 11 classes de comportamentos, que são: "caracterizar locais que aumentam a probabilidade de ler textos acadêmicos"; "classificar textos acadêmicos"; "distinguir objetivos de ler textos acadêmicos elaborados por diferentes sujeitos"; "avaliar títulos de textos acadêmicos"; "avaliar subtítulos de textos acadêmicos"; "avaliar informações identificadas ao ler textos acadêmicos"; "caracterizar informações desconhecidas pelo leitor ao ler textos acadêmicos"; "caracterizar informações relevantes acerca de fenômenos identificadas ao ler textos acadêmicos"; "relacionar informações identificadas em textos acadêmicos com informações conhecidas pelo leitor"; "avaliar textos elaborados a partir de informações lidas em textos acadêmicos"; e "derivar comportamentos a serem apresentados a partir da primeira leitura de um texto acadêmico". Essas 11 classes apresentam comportamentos antecedentes ao processo de "ler textos acadêmicos", comportamentos constituintes do processo de "ler textos acadêmicos" propriamente dito e comportamentos decorrentes do processo de "ler textos acadêmicos". A identificação de comportamentos constituintes da classe geral denominada "ler textos acadêmicos" aumenta o grau de clareza acerca desse fenômeno e a partir da identificação de comportamentos constituintes da classe geral de comportamentos denominada "ler textos acadêmicos" é possível elaborar um programa de ensino a partir de tais comportamentos identificados ou derivados. Esses resultados apresentados podem ser relevantes tanto para estudantes universitários, uma vez que essa classe de comportamentos possibilita desenvolver outros comportamentos profissionais relevantes para profissionais de nível superior, como para professores universitários, os quais, a partir dos resultados apresentados podem desenvolver programas de ensino de tais comportamentos
DIP-RL: Demonstration-Inferred Preference Learning in Minecraft
In machine learning for sequential decision-making, an algorithmic agent
learns to interact with an environment while receiving feedback in the form of
a reward signal. However, in many unstructured real-world settings, such a
reward signal is unknown and humans cannot reliably craft a reward signal that
correctly captures desired behavior. To solve tasks in such unstructured and
open-ended environments, we present Demonstration-Inferred Preference
Reinforcement Learning (DIP-RL), an algorithm that leverages human
demonstrations in three distinct ways, including training an autoencoder,
seeding reinforcement learning (RL) training batches with demonstration data,
and inferring preferences over behaviors to learn a reward function to guide
RL. We evaluate DIP-RL in a tree-chopping task in Minecraft. Results suggest
that the method can guide an RL agent to learn a reward function that reflects
human preferences and that DIP-RL performs competitively relative to baselines.
DIP-RL is inspired by our previous work on combining demonstrations and
pairwise preferences in Minecraft, which was awarded a research prize at the
2022 NeurIPS MineRL BASALT competition, Learning from Human Feedback in
Minecraft. Example trajectory rollouts of DIP-RL and baselines are located at
https://sites.google.com/view/dip-rl.Comment: Paper accepted at The Many Facets of Preference Learning Workshop at
the International Conference on Machine Learning (ICML), Honolulu, Hawaii,
USA, 202
- …