13,782 research outputs found

    Deep Visual Foresight for Planning Robot Motion

    Full text link
    A key challenge in scaling up robot learning to many skills and environments is removing the need for human supervision, so that robots can collect their own data and improve their own performance without being limited by the cost of requesting human feedback. Model-based reinforcement learning holds the promise of enabling an agent to learn to predict the effects of its actions, which could provide flexible predictive models for a wide range of tasks and environments, without detailed human supervision. We develop a method for combining deep action-conditioned video prediction models with model-predictive control that uses entirely unlabeled training data. Our approach does not require a calibrated camera, an instrumented training set-up, nor precise sensing and actuation. Our results show that our method enables a real robot to perform nonprehensile manipulation -- pushing objects -- and can handle novel objects not seen during training.Comment: ICRA 2017. Supplementary video: https://sites.google.com/site/robotforesight

    Agent-based modeling of perishable inventory management using calibrated model-based deep reinforcement learning

    Get PDF
    Vivimos en un mundo en el que cerca de un 10 % de la población global sufre desnutrición mientras, al mismo tiempo, el 17 % de los alimentos producidos acaban en la basura. La catástrofe ecológica, social y médica que produce este desperdicio es devastadora, y por ello, desde este trabajo queremos aportar nuestro granito de arena para contribuir a paliar esta situación. Parte de esa comida se desperdicia directamente en los supermercados, sin que acabe llegando al consumidor final, provocado por una gestión de inventario ineficiente. Este trabajo ha desarrollado un gestor de inventario de productos perecederos que sea capaz de encargar los pedidos para el día siguiente reduciendo lo máximo posible tanto la comida desperdiciada como las roturas de stock. Para ello se ha modelado un sistema basado en agentes apoyado por sistemas de aprendizaje por refuerzo profundo basado en modelos. Para minimizar el error de este sistema, se han calibrado las incertidumbres de la red neuronal bayesiana que utiliza, usando la técnica de calibración cuantil para regresión
    corecore