4 research outputs found
Abstracting Multidimensional Concepts for Multilevel Decision Making in Multirobot Systems
Multirobot control architectures often require robotic tasks to be well defined before allocation. In complex missions, it is often difficult to decompose an objective into a set of well defined tasks; human operators generate a simplified representation based on experience and estimation. The result is a set of robot roles, which are not best suited to accomplishing those objectives. This thesis presents an alternative approach to generating multirobot control algorithms using task abstraction. By carefully analysing data recorded from similar systems a multidimensional and multilevel representation of the mission can be abstracted, which can be subsequently converted into a robotic controller.
This work, which focuses on the control of a team of robots to play the complex game of football, is divided into three sections: In the first section we investigate the use of spatial structures in team games. Experimental results show that cooperative teams beat groups of individuals when competing for space and that controlling space is important in the game of robot football. In the second section, we generate a multilevel representation of robot football based on spatial structures measured in recorded matches. By differentiating between spatial configurations appearing in desirable and undesirable situations, we can abstract a strategy composed of the more desirable structures. In the third section, five partial strategies are generated, based on the abstracted structures, and a suitable controller is devised. A set of experiments shows the success of the method in reproducing those key structures in a multirobot system. Finally, we compile our methods into a formal architecture for task abstraction and control.
The thesis concludes that generating multirobot control algorithms using task abstraction is appropriate for problems which are complex, weakly-defined, multilevel, dynamic, competitive, unpredictable, and which display emergent properties
Recommended from our members
Discovering relevant sensor data by Q-analysis
This paper proposes a novel method for supervised classification based on the methodology of Q-analysis. The classification is based on finding 'relevant' structures in the features describing the data, and using them to define each of the classes. The features not included in the structural definition of a class are considered as 'irrelevant'. The paper uses three different data-sets to experimentally validate the method
Robots capaces de aprender y adaptarse al entorno a partir de sus propias experiencias
Entre los objetivos reconocidos en la robótica actual destaca la necesidad de
disponer de robots adaptables, capaces de aprender del usuario y de la propia
experiencia. Esta adaptación se debe extender a todo el tiempo de vida del robot, los
errores y aciertos del robot deben permitir que éste pueda modificar su
comportamiento futuro. En este sentido, el paradigma de aprendizaje por refuerzo
resulta muy prometedor en la medida en que permite que un robot aprenda sin más
información que un refuerzo extrínseco que indica cuando las acciones realizadas son
correctas o no.
Los algoritmos tradicionales de aprendizaje por refuerzo se limitan a
comportamientos reactivos simples y rara vez se aplican al aprendizaje directo en
robots moviéndose en entornos reales. De hecho, el aprendizaje por refuerzo suele
ser lento y requerir un proceso de exploración costoso. Por otra parte, el tiempo de
aprendizaje se incrementa de forma exponencial con el número de estados
(situaciones significativamente diferentes) que puede encontrar el robot.
Con el objetivo de superar estas limitaciones en esta tesis se abordaron cuatro
grandes objetivos:
a) Algoritmos más interpretables y con menos parámetros: los algoritmos clásicos de
aprendizaje por refuerzo intentan predecir el refuerzo futuro que el robot va a
recibir. Esta información es difícilmente interpretable, lo que hace difícil corroborar
si el proceso de aprendizaje se está llevando a cabo de forma correcta. Se ha
desarrollado un nuevo algoritmo, llamado I_Tbf, capaz de aprender a predecir
“cuándo el robot va a cometer un fallo”. La discrepancia entre lo que el sistema
predice y lo que realmente sucede nos permite detectar problemas y corregirlos
durante el propio proceso de aprendizaje. Las ventajas obtenidas con este algoritmo
son: buenos tiempos de aprendizaje, un reducido número de parámetros y mayor
interpretabilidad del proceso de aprendizaje.
b) Aprendizaje simultáneo de percepción y acción: hemos creado un sistema capaz de
aprender al mismo tiempo el espacio de estados y la acción a ejecutar en cada uno de
estos estados. Partiendo de nuestro algoritmo I_Tbf, el sistema itera la política de
control tratando de maximizar el tiempo a fallo. El espacio de estados se crea de
forma dinámica: partiendo de un conjunto vacío se añaden nuevos estados a medida
que el robot encuentra nuevas situaciones que no ha visto antes. La creación
dinámica del espacio de estados evita el proceso de creación y evaluación de
representaciones de estados ad hoc. Para lograr la generación dinámica de estados
hemos recurrido a la Teoría de Resonancia Adaptativa (ART) adaptándola a nuestro
problema.
c) Reducción del tiempo de aprendizaje a través de la creación de comités de
aprendedores: para acelerar los procesos de aprendizaje resulta conveniente recurrir
a estrategias habituales en el campo de las redes neuronales artificiales dirigidas a
evitar el “sobre-aprendizaje” y la falta de generalización. Por este motivo, el uso de
comités de “aprendedores” que, mediante diferentes estrategias de voto ponderado,
son capaces de seleccionar la acción que debe ejecutar el robot en cada instante,
permiten acelerar el proceso de aprendizaje mientras se mantiene una buena
generalización. Gracias al incremento de estabilidad proporcionado por el comité, se
puede introducir el concepto de aprendizaje continuo, donde el sistema es capaz de
aprender durante todo el ciclo de vida del robot, sin que el comportamiento sufra
grandes inestabilidades. Se han realizado pruebas donde la señal de refuerzo era
proporcionada por un usuario humano. Pese a que dicha señal tenía una gran
componente no determinista, gracias a la estabilidad proporcionada por el comité de
aprendedores el sistema es capaz de alcanzar la convergencia en pocos minutos.
d) Determinación de la relevancia sensorial: muchas de las entradas sensoriales
proporcionadas por los modernos sensores de alta resolución son irrelevantes para la
tarea que el robot está intentando aprender. Estas dimensiones irrelevantes pueden
provocar errores en las estrategias de clustering. Esto es algo conocido como la
maldición de las dimensiones. En esta tesis se ha investigado el uso de criterios
estadísticos basados en la teoría de la información, y la información mutua, para
determinar, de forma dinámica, el subconjunto de sensores que es realmente
relevante para lo que el robot quiere aprender. El uso de este subconjunto de
sensores proporciona una reducción significativa del tiempo de aprendizaje, así como
un aumento de la robustez de los comportamientos
Discovering relevant sensor data by q-analysis
Abstract. This paper proposes a novel method for supervised classification based on the methodology of Q-analysis. The classification is based on finding ‘relevant ’ structures in the features describing the data, and using them to define each of the classes. The features not included in the structural definition of a class are considered as ‘irrelevant’. The paper uses three different data-sets to experimentally validate the method.