4 research outputs found

    Abstracting Multidimensional Concepts for Multilevel Decision Making in Multirobot Systems

    Get PDF
    Multirobot control architectures often require robotic tasks to be well defined before allocation. In complex missions, it is often difficult to decompose an objective into a set of well defined tasks; human operators generate a simplified representation based on experience and estimation. The result is a set of robot roles, which are not best suited to accomplishing those objectives. This thesis presents an alternative approach to generating multirobot control algorithms using task abstraction. By carefully analysing data recorded from similar systems a multidimensional and multilevel representation of the mission can be abstracted, which can be subsequently converted into a robotic controller. This work, which focuses on the control of a team of robots to play the complex game of football, is divided into three sections: In the first section we investigate the use of spatial structures in team games. Experimental results show that cooperative teams beat groups of individuals when competing for space and that controlling space is important in the game of robot football. In the second section, we generate a multilevel representation of robot football based on spatial structures measured in recorded matches. By differentiating between spatial configurations appearing in desirable and undesirable situations, we can abstract a strategy composed of the more desirable structures. In the third section, five partial strategies are generated, based on the abstracted structures, and a suitable controller is devised. A set of experiments shows the success of the method in reproducing those key structures in a multirobot system. Finally, we compile our methods into a formal architecture for task abstraction and control. The thesis concludes that generating multirobot control algorithms using task abstraction is appropriate for problems which are complex, weakly-defined, multilevel, dynamic, competitive, unpredictable, and which display emergent properties

    Robots capaces de aprender y adaptarse al entorno a partir de sus propias experiencias

    Get PDF
    Entre los objetivos reconocidos en la robótica actual destaca la necesidad de disponer de robots adaptables, capaces de aprender del usuario y de la propia experiencia. Esta adaptación se debe extender a todo el tiempo de vida del robot, los errores y aciertos del robot deben permitir que éste pueda modificar su comportamiento futuro. En este sentido, el paradigma de aprendizaje por refuerzo resulta muy prometedor en la medida en que permite que un robot aprenda sin más información que un refuerzo extrínseco que indica cuando las acciones realizadas son correctas o no. Los algoritmos tradicionales de aprendizaje por refuerzo se limitan a comportamientos reactivos simples y rara vez se aplican al aprendizaje directo en robots moviéndose en entornos reales. De hecho, el aprendizaje por refuerzo suele ser lento y requerir un proceso de exploración costoso. Por otra parte, el tiempo de aprendizaje se incrementa de forma exponencial con el número de estados (situaciones significativamente diferentes) que puede encontrar el robot. Con el objetivo de superar estas limitaciones en esta tesis se abordaron cuatro grandes objetivos: a) Algoritmos más interpretables y con menos parámetros: los algoritmos clásicos de aprendizaje por refuerzo intentan predecir el refuerzo futuro que el robot va a recibir. Esta información es difícilmente interpretable, lo que hace difícil corroborar si el proceso de aprendizaje se está llevando a cabo de forma correcta. Se ha desarrollado un nuevo algoritmo, llamado I_Tbf, capaz de aprender a predecir “cuándo el robot va a cometer un fallo”. La discrepancia entre lo que el sistema predice y lo que realmente sucede nos permite detectar problemas y corregirlos durante el propio proceso de aprendizaje. Las ventajas obtenidas con este algoritmo son: buenos tiempos de aprendizaje, un reducido número de parámetros y mayor interpretabilidad del proceso de aprendizaje. b) Aprendizaje simultáneo de percepción y acción: hemos creado un sistema capaz de aprender al mismo tiempo el espacio de estados y la acción a ejecutar en cada uno de estos estados. Partiendo de nuestro algoritmo I_Tbf, el sistema itera la política de control tratando de maximizar el tiempo a fallo. El espacio de estados se crea de forma dinámica: partiendo de un conjunto vacío se añaden nuevos estados a medida que el robot encuentra nuevas situaciones que no ha visto antes. La creación dinámica del espacio de estados evita el proceso de creación y evaluación de representaciones de estados ad hoc. Para lograr la generación dinámica de estados hemos recurrido a la Teoría de Resonancia Adaptativa (ART) adaptándola a nuestro problema. c) Reducción del tiempo de aprendizaje a través de la creación de comités de aprendedores: para acelerar los procesos de aprendizaje resulta conveniente recurrir a estrategias habituales en el campo de las redes neuronales artificiales dirigidas a evitar el “sobre-aprendizaje” y la falta de generalización. Por este motivo, el uso de comités de “aprendedores” que, mediante diferentes estrategias de voto ponderado, son capaces de seleccionar la acción que debe ejecutar el robot en cada instante, permiten acelerar el proceso de aprendizaje mientras se mantiene una buena generalización. Gracias al incremento de estabilidad proporcionado por el comité, se puede introducir el concepto de aprendizaje continuo, donde el sistema es capaz de aprender durante todo el ciclo de vida del robot, sin que el comportamiento sufra grandes inestabilidades. Se han realizado pruebas donde la señal de refuerzo era proporcionada por un usuario humano. Pese a que dicha señal tenía una gran componente no determinista, gracias a la estabilidad proporcionada por el comité de aprendedores el sistema es capaz de alcanzar la convergencia en pocos minutos. d) Determinación de la relevancia sensorial: muchas de las entradas sensoriales proporcionadas por los modernos sensores de alta resolución son irrelevantes para la tarea que el robot está intentando aprender. Estas dimensiones irrelevantes pueden provocar errores en las estrategias de clustering. Esto es algo conocido como la maldición de las dimensiones. En esta tesis se ha investigado el uso de criterios estadísticos basados en la teoría de la información, y la información mutua, para determinar, de forma dinámica, el subconjunto de sensores que es realmente relevante para lo que el robot quiere aprender. El uso de este subconjunto de sensores proporciona una reducción significativa del tiempo de aprendizaje, así como un aumento de la robustez de los comportamientos

    Discovering relevant sensor data by q-analysis

    No full text
    Abstract. This paper proposes a novel method for supervised classification based on the methodology of Q-analysis. The classification is based on finding ‘relevant ’ structures in the features describing the data, and using them to define each of the classes. The features not included in the structural definition of a class are considered as ‘irrelevant’. The paper uses three different data-sets to experimentally validate the method.
    corecore