5 research outputs found
Using Convolutional Neural Networks in Robots with Limited Computational Resources: Detecting NAO Robots while Playing Soccer
The main goal of this paper is to analyze the general problem of using
Convolutional Neural Networks (CNNs) in robots with limited computational
capabilities, and to propose general design guidelines for their use. In
addition, two different CNN based NAO robot detectors that are able to run in
real-time while playing soccer are proposed. One of the detectors is based on
the XNOR-Net and the other on the SqueezeNet. Each detector is able to process
a robot object-proposal in ~1ms, with an average number of 1.5 proposals per
frame obtained by the upper camera of the NAO. The obtained detection rate is
~97%.Comment: Accepted in the RoboCup Symposium 2017. Final version will be
published at Springe
Toward Real-Time Decentralized Reinforcement Learning using Finite Support Basis Functions
This paper addresses the design and implementation of complex Reinforcement
Learning (RL) behaviors where multi-dimensional action spaces are involved, as
well as the need to execute the behaviors in real-time using robotic platforms
with limited computational resources and training times. For this purpose, we
propose the use of decentralized RL, in combination with finite support basis
functions as alternatives to Gaussian RBF, in order to alleviate the effects of
the curse of dimensionality on the action and state spaces respectively, and to
reduce the computation time. As testbed, a RL based controller for the in-walk
kick in NAO robots, a challenging and critical problem for soccer robotics, is
used. The reported experiments show empirically that our solution saves up to
99.94% of execution time and 98.82% of memory consumption during execution,
without diminishing performance compared to classical approaches.Comment: Accepted in the RoboCup Symposium 2017. Final version will be
published at Springe
Aplicaciones del aprendizaje reforzado en robótica móvil
Ingeniero Civil EléctricoEn la última década se ha observado un aumento importante en las aplicaciones relacio-
nadas a la robótica a nivel mundial. Adicionalmente, estas aplicaciones ya no se encuentran
únicamente en laboratorios o en fábricas, donde se pueden mantener condiciones controladas,
sino que también se presentan en distintas situaciones cotidianas. Entre las distintas catego-
rías de robots, destaca fuertemente la robótica móvil, debido a su alto potencial de impacto
social. Aquellos robots que forman parte de esta categoría, potencialmente pueden resolver
una cantidad muy variada de problemas, debido a su capacidad de realizar interacciones
complejas con un entorno dinámico, el cual puede incluir interacciones con seres humanos
u otros agentes robóticos. Sin embargo, la capacidad de resolver problemas por parte de
un agente robótico suele estar limitada por el conocimiento y las habilidades del diseñador.
Se identifica entones la necesidad de incorporar metodologías generales que permitan a los
agentes robóticos adquirir las habilidades necesarias para poder realizar las labores que les
son asignadas.
En el presente trabajo se estudia el uso del Aprendizaje Reforzado como herramienta de
uso general para que los agentes robóticos adquieran las habilidades necesarias para reali-
zar su labor. Son objetivo de especial interés, no solo la capacidad de resolver problemas
particulares, sino que además estudiar la capacidad de generalización de las soluciones, y la
escalabilidad de ésta herramienta.
La metodología propuesta consiste en el uso del fútbol robótico como caso de estudio,
debido a su complejidad como problema, al mismo tiempo de su facilidad de evaluación.
Se identifican problemas de diversa complejidad y naturaleza en este contexto, identificando
cuales son las características que son generales a distintos problemas, permitiendo extraer re-
sultados de interés a otras aplicaciones. Para resolver los problemas identificados, se utilizan
distintos algoritmos del Aprendizaje Reforzado, tanto tradicionales como modernos, haciendo
hincapié en los beneficios de cada uno.
Los resultados permiten perfilar al Aprendizaje Reforzado como una herramienta útil en el
contexto de la robótica móvil. Algoritmos tradicionales son capaces de solucionar problemas
sencillos de manera altamente eficiente y utilizando bajos recursos. Por otro lado, las técni-
cas modernas permiten abordar problemas mucho más complejos, previamente considerados
intratables de manera directa. Finalmente, el uso de esta metodología presenta un potencial
todavía no explorado a profundidad, sin conocer todavía el límite en sus aplicaciones. Se
identifica entonces un amplio campo de desarrollo para futuros trabajos e investigación
Accelerating decentralized reinforcement learning of complex individual behaviors
Many Reinforcement Learning (RL) real-world applications have multi-dimensional action spaces which suffer from the combinatorial explosion of complexity. Then, it may turn infeasible to implement Centralized RL (CRL) systems due to the exponential increasing of dimensionality in both the state space and the action space, and the large number of training trials. In order to address this, this paper proposes to deal with these issues by using Decentralized Reinforcement Learning (DRL) to alleviate the effects of the curse of dimensionality on the action space, and by transferring knowledge to reduce the training episodes so that asymptotic converge can be achieved. Three DRL schemes are compared: DRL with independent learners and no prior-coordination (DRL-Ind); DRL accelerated-coordinated by using the Control Sharing (DRL+CoSh) Knowledge Transfer approach; and a proposed DRL scheme using the CoSh-based variant Nearby Action Sharing to include a measure of the uncertainty into the CoSh procedure (DRL+NeASh). These three schemes are analyzed through an extensive experimental study and validated through two complex real-world problems, namely the inwalk-kicking and the ball-dribbling behaviors, both performed with humanoid biped robots. Obtained results show (empirically): (i) the effectiveness of DRL systems which even without prior-coordination are able to achieve asymptotic convergence throughout indirect coordination; (ii) that by using the proposed knowledge transfer methods, it is possible to reduce the training episodes and to coordinate the DRL process; and (iii) obtained learning times are between 36% and 62% faster than the DRL-Ind schemes in the case studies