12 research outputs found

    Jahresbericht Forschung und Entwicklung 2004

    Get PDF
    Forschungsjahresbericht 2004 der Fachhochschule Konstan

    MULTI-RATE VISUAL FEEDBACK ROBOT CONTROL

    Full text link
    [EN] This thesis deals with two characteristic problems in visual feedback robot control: 1) sensor latency; 2) providing suitable trajectories for the robot and for the measurement in the image. All the approaches presented in this work are analyzed and implemented on a 6 DOF industrial robot manipulator or/and a wheeled robot. Focusing on the sensor latency problem, this thesis proposes the use of dual-rate high order holds within the control loop of robots. In this sense, the main contributions are: - Dual-rate high order holds based on primitive functions for robot control (Chapter 3): analysis of the system performance with and without the use of this multi-rate technique from non-conventional control. In addition, as consequence of the use of dual-rate holds, this work obtains and validates multi-rate controllers, especially dual-rate PIDs. - Asynchronous dual-rate high order holds based on primitive functions with time delay compensation (Chapter 3): generalization of asynchronous dual-rate high order holds incorporating an input signal time delay compensation component, improving thus the inter-sampling estimations computed by the hold. It is provided an analysis of the properties of such dual-rate holds with time delay compensation, comparing them with estimations obtained by the equivalent dual-rate holds without this compensation, as well as their implementation and validation within the control loop of a 6 DOF industrial robot manipulator. - Multi-rate nonlinear high order holds (Chapter 4): generalization of the concept of dual-rate high order holds with nonlinear estimation models, which include information about the plant to be controlled, the controller(s) and sensor(s) used, obtained from machine learning techniques. Thus, in order to obtain such a nonlinear hold, it is described a methodology non dependent of the machine technique used, although validated using artificial neural networks. Finally, an analysis of the properties of these new holds is carried out, comparing them with their equivalents based on primitive functions, as well as their implementation and validation within the control loop of an industrial robot manipulator and a wheeled robot. With respect to the problem of providing suitable trajectories for the robot and for the measurement in the image, this thesis presents the novel reference features filtering control strategy and its generalization from a multi-rate point of view. The main contributions in this regard are: - Reference features filtering control strategy (Chapter 5): a new control strategy is proposed to enlarge significantly the solution task reachability of robot visual feedback control. The main idea is to use optimal trajectories proposed by a non-linear EKF predictor-smoother (ERTS), based on Rauch-Tung-Striebel (RTS) algorithm, as new feature references for an underlying visual feedback controller. In this work it is provided both the description of the implementation algorithm and its implementation and validation utilizing an industrial robot manipulator. - Dual-rate Reference features filtering control strategy (Chapter 5): a generalization of the reference features filtering approach from a multi-rate point of view, and a dual Kalman-smoother step based on the relation of the sensor and controller frequencies of the reference filtering control strategy is provided, reducing the computational cost of the former algorithm, as well as addressing the problem of the sensor latency. The implementation algorithms, as well as its analysis, are described.[ES] La presente tesis propone soluciones para dos problemas característicos de los sistemas robóticos cuyo bucle de control se cierra únicamente empleando sensores de visión artificial: 1) la latencia del sensor; 2) la obtención de trayectorias factibles tanto para el robot así como para las medidas obtenidas en la imagen. Todos los métodos propuestos en este trabajo son analizados, validados e implementados utilizando brazo robot industrial de 6 grados de libertad y/o en un robot con ruedas. Atendiendo al problema de la latencia del sensor, esta tesis propone el uso de retenedores bi-frequencia de orden alto dentro de los lazos de control de robots. En este aspecto las principales contribuciones son: -Retenedores bi-frecuencia de orden alto basados en funciones primitivas dentro de lazos de control de robots (Capítulo 3): análisis del comportamiento del sistema con y sin el uso de esta técnica de control no convencional. Además, como consecuencia del empleo de los retenedores, obtención y validación de controladores multi-frequencia, concretamente de PIDs bi-frecuencia. -Retenedores bi-frecuencia asíncronos de orden alto basados en funciones primitivas con compensación de retardos (Capítulo 3): generalización de los retenedores bi-frecuencia asíncronos de orden alto incluyendo una componente de compensación del retardo en la señal de entrada, mejorando así las estimaciones inter-muestreo calculadas por el retenedor. Se proporciona un análisis de las propiedades de los retenedores con compensación del retardo, comparándolas con las obtenidas por sus predecesores sin compensación, así como su implementación y validación en un brazo robot de 6 grados de libertad. -Retenedores multi-frecuencia no lineales de orden alto (Capítulo 4): generalización del concepto de retenedor bi-frecuencia de orden alto con modelos de estimación no lineales, los cuales incluyen información tanto de la planta a controlar, como del controlador(es) y sensor(es) empleado(s), obtenida a partir de técnicas de aprendizaje. Así pues, para obtener dicho retenedor no lineal, se describe una metodología independiente de la herramienta de aprendizaje utilizada, aunque validada con el uso de redes neuronales artificiales. Finalmente se realiza un análisis de las propiedades de estos nuevos retenedores, comparándolos con sus predecesores basados en funciones primitivas, así como su implementación y validación en un brazo robot de 6 grados de libertad y en un robot móvil con ruedas. Por lo que respecta al problema de generación de trayectorias factibles para el robot y para la medida en la imagen, esta tesis propone la nueva estrategia de control basada en el filtrado de la referencia y su generalización desde el punto de vista multi-frecuencial. -Estrategia de control basada en el filtrado de la referencia (Capítulo 5): una nueva estrategia de control se propone para ampliar significativamente el espacio de soluciones de los sistemas robóticos realimentados con sensores de visión artificial. La principal idea es utilizar las trayectorias óptimas obtenidas por una trayectoria predicha por un filtro de Kalman seguido de un suavizado basado en el algoritmo Rauch-Tung-Striebel (RTS) como nuevas referencias para un controlador dado. En este trabajo se proporciona tanto la descripción del algoritmo como su implementación y validación empleando un brazo robótico industrial. -Estrategia de control bi-frecuencia basada en el filtrado de la referencia (Capítulo 5): generalización de la estrategia de control basada en filtrado de la referencia desde un punto de vista multi-frecuencial, con un filtro de Kalman multi-frecuencia y un Kalman-smoother dual basado en la relación existente entre las frecuencias del sensor y del controlador, reduciendo así el coste computacional del algoritmo y, al mismo tiempo, dando solución al problema de la latencia del sensor. La validación se realiza utilizando un barzo robot industria asi[CA] La present tesis proposa solucions per a dos problemes característics dels sistemes robòtics el els que el bucle de control es tanca únicament utilitzant sensors de visió artificial: 1) la latència del sensor; 2) l'obtenció de trajectòries factibles tant per al robot com per les mesures en la imatge. Tots els mètodes proposats en aquest treball son analitzats, validats e implementats utilitzant un braç robot industrial de 6 graus de llibertat i/o un robot amb rodes. Atenent al problema de la latència del sensor, esta tesis proposa l'ús de retenidors bi-freqüència d'ordre alt a dins del llaços de control de robots. Al respecte, les principals contribucions son: - Retenidors bi-freqüència d'ordre alt basats en funcions primitives a dintre dels llaços de control de robots (Capítol 3): anàlisis del comportament del sistema amb i sense l'ús d'aquesta tècnica de control no convencional. A més a més, com a conseqüència de l'ús dels retenidors, obtenció i validació de controladors multi-freqüència, concretament de PIDs bi-freqüència. - Retenidors bi-freqüència asíncrons d'ordre alt basats en funcions primitives amb compensació de retards (Capítol 3): generalització dels retenidors bi-freqüència asíncrons d'ordre alt inclouen una component de compensació del retràs en la senyal d'entrada al retenidor, millorant així les estimacions inter-mostreig calculades per el retenidor. Es proporciona un anàlisis de les propietats dels retenidors amb compensació del retràs, comparant-les amb les obtingudes per el seus predecessors sense la compensació, així com la seua implementació i validació en un braç robot industrial de 6 graus de llibertat. - Retenidors multi-freqüència no-lineals d'ordre alt (Capítol 4): generalització del concepte de retenidor bi-freqüència d'ordre alt amb models d'estimació no lineals, incloent informació tant de la planta a controlar, com del controlador(s) i sensor(s) utilitzat(s), obtenint-la a partir de tècniques d'aprenentatge. Així doncs, per obtindre el retenidor no lineal, es descriu una metodologia independent de la ferramenta d'aprenentatge utilitzada, però validada amb l'ús de rets neuronals artificials. Finalment es realitza un anàlisis de les propietats d'aquestos nous retenidors, comparant-los amb els seus predecessors basats amb funcions primitives, així com la seua implementació i validació amb un braç robot de 6 graus de llibertat i amb un robot mòbil de rodes. Per el que respecta al problema de generació de trajectòries factibles per al robot i per la mesura en la imatge, aquesta tesis proposa la nova estratègia de control basada amb el filtrat de la referència i la seua generalització des de el punt de vista multi-freqüència. - Estratègia de control basada amb el filtrat de la referència (Capítol 5): una nova estratègia de control es proposada per ampliar significativament l'espai de solucions dels sistemes robòtics realimentats amb sensors de visió artificial. La principal idea es la d'utilitzar les trajectòries optimes obtingudes per una trajectòria predita per un filtre de Kalman seguit d'un suavitzat basat en l'algoritme Rauch-Tung-Striebel (RTS) com noves referències per a un control donat. En aquest treball es proporciona tant la descripció del algoritme així com la seua implementació i validació utilitzant un braç robòtic industrial de 6 graus de llibertat. - Estratègia de control bi-freqüència basada en el filtrat (Capítol 5): generalització de l'estratègia de control basada am filtrat de la referència des de un punt de vista multi freqüència, amb un filtre de Kalman multi freqüència i un Kalman-Smoother dual basat amb la relació existent entre les freqüències del sensor i del controlador, reduint així el cost computacional de l'algoritme i, al mateix temps, donant solució al problema de la latència del sensor. L'algoritme d'implementació d'aquesta tècnica, així com la seua validaciSolanes Galbis, JE. (2015). MULTI-RATE VISUAL FEEDBACK ROBOT CONTROL [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/57951TESI

    Estrategia de enrutamiento para la maniobra del enlace a un convoy de vehículos en entornos urbanos, robusta a la incertidumbre en los tiempos de recorrido

    Get PDF
    Esta tesis propone una estrategia de enrutamiento óptima para unidades de transporte inteligente que se mueven de manera autónoma por un entorno urbano conocido. El entorno está definido por un conjunto de calles y cruces (nodos), y en su interior un grupo de unidades móviles independientes se encuentran realizando tareas específicas. Dicho entorno está rodeado por una ruta periférica por la que se mueve continuamente un convoy compuesto por un líder y un número determinado de unidades seguidoras, sin enlace mecánico entre ellos. La misión del convoy es concentrar las unidades independientes antes y después de que hayan realizado, de forma independiente, su tarea. Básicamente, el trabajo se centra en dar solución a la maniobra de enlace consistente en lograr que la unidad independiente (perseguidora), partiendo de su ubicación actual en el interior del mapa, logre alcanzar el nodo periférico idóneo para unirse al convoy. Considerando que este último está limitado a circular por la ruta externa y por tanto no tiene acceso al interior del entorno, el enlace se realizará en uno de los nodos periféricos. El convoy sigue indefinidamente su trayectoria, por lo que la maniobra se considera exitosa siempre que la unidad independiente alcance el nodo de enlace antes que el convoy. El primer objetivo es resolver la maniobra de enlace considerando conocidos los tiempos de recorrido entre los nodos del mapa. Objetivo que incluye dos fases: cálculo del nodo óptimo de enlace y de la ruta que lleve a la unidad perseguidora hasta el mismo. Se entiende por nodo óptimo de enlace aquél que garantiza un tiempo mínimo de maniobra. Además, se ha diseñado un algoritmo de enrutamiento que explora el menor número de nodos posibles lo que garantiza su eficiencia computacional y su idoneidad para su ejecución en tiempo real, de especial interés en entornos complejos. El segundo objetivo es extender estos algoritmos a un entorno donde los tiempos de recorrido entre nodos no son conocidos. Esta incertidumbre, inherente a los tiempos de recorrido de todas las unidades, es propia de escenarios de transporte reales y tiene su origen en diversas fuentes como densidad variable de tráfico, condiciones meteorológicas, momento del día, etc. Para caracterizarla se ha propuesto un modelo gaussiano, donde los tiempos de recorrido son tratados como variables aleatorias parametrizadas por su valor medio y varianza. Por otra parte, este comportamiento no determinista impide garantizar de forma absoluta el éxito seguridad la maniobra de enlace. Por ello, se introduce el parámetro de diseño "Factor de Riesgo", que limita la probabilidad de fallo de la maniobra de enlace. Este factor condiciona además el tiempo de maniobra y el número de re-planificaciones intermedias hasta llegar al nodo final. En la solución propuesta se incluye un centro remoto al que están conectadas de forma inalámbrica todas las unidades de transporte. En el centro remoto se registran los tiempos de recorrido entre nodos consecutivos proporcionados por las unidades de transporte y se estiman los parámetros estadísticos temporales entre nodos no consecutivos mediante técnicas recursivas de Programación Dinámica. Finalmente, se ha procedido a la validación experimental de la propuesta global. En una primera fase se ha recurrido a la herramienta Player/Stage para validar mediante simulación los cálculos desarrollados a partir de un mapa diseñado al efecto. Superada esta, se ha utilizado un demostrador real donde la función de unidad líder y unidad perseguidora ha sido desarrollada por robots Pioneer P3-DX

    Estrategia de enrutamiento para la maniobra del enlace a un convoy de vehículos en entornos urbanos, robusta a la incertidumbre en los tiempos de recorrido

    Get PDF
    Esta tesis propone una estrategia de enrutamiento óptima para unidades de transporte inteligente que se mueven de manera autónoma por un entorno urbano conocido. El entorno está definido por un conjunto de calles y cruces (nodos), y en su interior un grupo de unidades móviles independientes se encuentran realizando tareas específicas. Dicho entorno está rodeado por una ruta periférica por la que se mueve continuamente un convoy compuesto por un líder y un número determinado de unidades seguidoras, sin enlace mecánico entre ellos. La misión del convoy es concentrar las unidades independientes antes y después de que hayan realizado, de forma independiente, su tarea. Básicamente, el trabajo se centra en dar solución a la maniobra de enlace consistente en lograr que la unidad independiente (perseguidora), partiendo de su ubicación actual en el interior del mapa, logre alcanzar el nodo periférico idóneo para unirse al convoy. Considerando que este último está limitado a circular por la ruta externa y por tanto no tiene acceso al interior del entorno, el enlace se realizará en uno de los nodos periféricos. El convoy sigue indefinidamente su trayectoria, por lo que la maniobra se considera exitosa siempre que la unidad independiente alcance el nodo de enlace antes que el convoy. El primer objetivo es resolver la maniobra de enlace considerando conocidos los tiempos de recorrido entre los nodos del mapa. Objetivo que incluye dos fases: cálculo del nodo óptimo de enlace y de la ruta que lleve a la unidad perseguidora hasta el mismo. Se entiende por nodo óptimo de enlace aquél que garantiza un tiempo mínimo de maniobra. Además, se ha diseñado un algoritmo de enrutamiento que explora el menor número de nodos posibles lo que garantiza su eficiencia computacional y su idoneidad para su ejecución en tiempo real, de especial interés en entornos complejos. El segundo objetivo es extender estos algoritmos a un entorno donde los tiempos de recorrido entre nodos no son conocidos. Esta incertidumbre, inherente a los tiempos de recorrido de todas las unidades, es propia de escenarios de transporte reales y tiene su origen en diversas fuentes como densidad variable de tráfico, condiciones meteorológicas, momento del día, etc. Para caracterizarla se ha propuesto un modelo gaussiano, donde los tiempos de recorrido son tratados como variables aleatorias parametrizadas por su valor medio y varianza. Por otra parte, este comportamiento no determinista impide garantizar de forma absoluta el éxito seguridad la maniobra de enlace. Por ello, se introduce el parámetro de diseño "Factor de Riesgo", que limita la probabilidad de fallo de la maniobra de enlace. Este factor condiciona además el tiempo de maniobra y el número de re-planificaciones intermedias hasta llegar al nodo final. En la solución propuesta se incluye un centro remoto al que están conectadas de forma inalámbrica todas las unidades de transporte. En el centro remoto se registran los tiempos de recorrido entre nodos consecutivos proporcionados por las unidades de transporte y se estiman los parámetros estadísticos temporales entre nodos no consecutivos mediante técnicas recursivas de Programación Dinámica. Finalmente, se ha procedido a la validación experimental de la propuesta global. En una primera fase se ha recurrido a la herramienta Player/Stage para validar mediante simulación los cálculos desarrollados a partir de un mapa diseñado al efecto. Superada esta, se ha utilizado un demostrador real donde la función de unidad líder y unidad perseguidora ha sido desarrollada por robots Pioneer P3-DX

    Optical tracking control of a differentially-driven wheeled robot

    Get PDF
    Mobile robotics has become an increasingly ubiquitous technology in modern times. A typical example is the wheeled mobile robot (WMR). In order for a WMR to function effectively, it must demonstrate excellent tracking control and localisation capabilities. This is achieved by having accurate and responsive control algorithms as well as high-precision sensor systems. However, this often requires complicated algorithms and expensive equipment. This thesis proposes a system to show that good tracking performance can be achieved with moderately simple control algorithm and relatively inexpensive hardware. The platform used in this research was a differentially-driven wheeled robot constructed using the Lego MindstormsNXT system. Positional tracking was provided by two Avago optical laser sensors commonly found on the computer mouse. The main programming environments were MATLAB and Simulink, along with several other open-source applications. In the first part of the thesis, a PID-based system is presented along with the two control schemes. The first is a purely kinematic model and the second includes dynamic constraints. For both versions, a cascaded PID design was employed and settings were manually tuned. The final mathematical models were computationally simulated and their respective results were analysed and compared. Hardware validation was not conducted for this phase of the research as the simulation results suggested that the PID-based system may not produce the desired level of tracking performance. The second part of the thesis explores a model reference adaptive control system. Lyapunov's direct method was used to achieve stability and convergence in the system. In contrast to the PID-based model, a vastly more accurate geometric localisation technique was applied. The research identified a number of shortcomings in current geometric localisation methods and suggested ways to mitigate them. In addition, a novel approach for detecting faulty sensor readings was introduced in conjunction with the development of a semi-redundant system. The eventual theoretical model was tested using computer simulation, and the outcome was contrasted with the results of the PID-based system. This was followed by the construction of a prototype in order to verify the validity of the proposed model. Various configurations of the adaptive model were tested and compared: the two localisation methods, use of single and dual sensors, and application of semi-redundancy. The thesis concludes with the analysis of results of the prototype testing. The theoretical propositions in the thesis were shown to be amply validated. Suggestions for future research work are also presented

    Robot Manipulators

    Get PDF
    Robot manipulators are developing more in the direction of industrial robots than of human workers. Recently, the applications of robot manipulators are spreading their focus, for example Da Vinci as a medical robot, ASIMO as a humanoid robot and so on. There are many research topics within the field of robot manipulators, e.g. motion planning, cooperation with a human, and fusion with external sensors like vision, haptic and force, etc. Moreover, these include both technical problems in the industry and theoretical problems in the academic fields. This book is a collection of papers presenting the latest research issues from around the world

    Modelização cinzenta aplicada à síntese de controladores com baixa complexidade

    Get PDF
    Doutoramento em Engenharia ElectrotécnicaNas últimas décadas tem-se assistido à automatização generalizada da maioria dos sistemas e equipamentos que nos rodeiam no dia-a-dia, desde os sistemas industriais, de transporte, até aos pequenos electrodomésticos. A automatização dos sistemas torna-os mais inteligentes, no sentido de maior capacidade de adaptação operacional e maior eficácia, facilitando e simplificando a sua utilização. O problema que serviu de motivação ao desenvolvimento deste trabalho foi precisamente a automatização de um equipamento de aquecimento de água a gás, conhecido por esquentador doméstico. Neste sentido, o presente trabalho propõe novas estratégias de automatização inteligentes para o controlo de um esquentador, adaptadas à execução em sistemas embutidos de baixo poder de cálculo. Este trabalho suporta a tese de que a utilização de modelos com um elevado nível de interpretabilidade propicia a construção de estruturas com baixa complexidade matemática, potenciando a simplicidade das malhas de controlo. A interpretabilidade dos modelos deste tipo, tipicamente classificados como de caixa cinzenta ou cinzentos, depende do tipo de conhecimentos utilizados e incorporados na sua construção. Existindo, desde modelos construídos e identificados com base em dados de entrada e saída que apresentam baixos níveis de interpretabilidade, passando por modelos baseados em conhecimentos experimentais com níveis de interpretabilidade intermédios até modelos baseados em conhecimentos fenomenológicos que apresentam elevados níveis de interpretabilidade. Com o objectivo de construir modelos para o esquentador com um razoável nível de interpretabilidade são neste trabalho apresentados e explorados três métodos de modelização neuro-difusa (modelização cinzenta escura) orientada por blocos (modelização cinzenta) e híbrida (modelização cinzenta clara). Neste âmbito, são propostos como modelos para o esquentador: o modelo neuro-difuso, Hammerstein adaptativo polinomial/neuro-difuso e híbrido série polinomial/neuro-difuso. Utilizando os referidos modelos são propostas três malhas de controlo baseadas no controlador Smith preditivo, com algumas simplificações que resultam da interpretabilidade dos respectivos modelos, tal como a linearização do esquentador relativamente ao fluxo de gás. Finalmente, os desempenhos dos vários controladores assim como os respectivos níveis de interpretabilidade e de complexidade matemática são comparados. Este trabalho apresenta diversas contribuições ao nível das diferentes abordagens de modelização e da definição de algoritmos de controlo a aplicar num esquentador doméstico: · Definição e identificação do modelo neuro-difuso, dos modelos Hammerstein adaptativo polinomial/neuro-difuso e dos modelos híbridos série polinomial/neuro-difuso, que exploram as várias metodologias de combinação de conhecimentos a priori na sua construção (modelização cinzenta); · Proposta de definição da equação de balanço de energias de um esquentador doméstico; · Proposta de alteração da malha de controlo Smith preditivo de forma a linearizar o sistema relativamente a uma dada variável de entrada; · Apresentação da malha de controlo Smith preditivo para sistemas com múltiplas entradas com diferentes tempos mortos; · Aplicação dos vários modelos cinzentos no controlo automático de um esquentador doméstico, obtendo controladores adaptativos e não adaptativos de complexidade matemática relativamente baixa. Este trabalho disponibiliza uma gama diversificada de soluções de controlo automático para o esquentador com semelhantes níveis de desempenho, mas com diferentes níveis de interpretabilidade e de complexidade matemática. De referir que os testes e as avaliações das soluções de controlo apresentadas, além de simuladas antecipadamente num computador, foram efectuados com dados reais

    Desarrollo y validación de un modelo dinámico para una pila de combustible tipo PEM

    Get PDF
    JORNADAS DE AUTOMÁTICA (27) (27.2006.ALMERÍA)El objetivo de este trabajo es realizar un modelo dinámico detallado de una pila de combustible tipo PEM de 1.2 kW de potencia nominal. El modelo desarrollado incluye efectos como el ’flooding’ y la dinámica de la temperatura y es de utilidad para poder diseñar y ensayar controles tanto de la válvula de purga como de la refrigeración de la pila mediante un ventilador. Se ha desarrollado un novedoso tratamiento de la ecuación experimental que modela la curva de polarización que simplifica considerablemente su caracterización. Por último el modelo realizado ha sido validado con datos tomados de una pila real

    Robots capaces de aprender y adaptarse al entorno a partir de sus propias experiencias

    Get PDF
    Entre los objetivos reconocidos en la robótica actual destaca la necesidad de disponer de robots adaptables, capaces de aprender del usuario y de la propia experiencia. Esta adaptación se debe extender a todo el tiempo de vida del robot, los errores y aciertos del robot deben permitir que éste pueda modificar su comportamiento futuro. En este sentido, el paradigma de aprendizaje por refuerzo resulta muy prometedor en la medida en que permite que un robot aprenda sin más información que un refuerzo extrínseco que indica cuando las acciones realizadas son correctas o no. Los algoritmos tradicionales de aprendizaje por refuerzo se limitan a comportamientos reactivos simples y rara vez se aplican al aprendizaje directo en robots moviéndose en entornos reales. De hecho, el aprendizaje por refuerzo suele ser lento y requerir un proceso de exploración costoso. Por otra parte, el tiempo de aprendizaje se incrementa de forma exponencial con el número de estados (situaciones significativamente diferentes) que puede encontrar el robot. Con el objetivo de superar estas limitaciones en esta tesis se abordaron cuatro grandes objetivos: a) Algoritmos más interpretables y con menos parámetros: los algoritmos clásicos de aprendizaje por refuerzo intentan predecir el refuerzo futuro que el robot va a recibir. Esta información es difícilmente interpretable, lo que hace difícil corroborar si el proceso de aprendizaje se está llevando a cabo de forma correcta. Se ha desarrollado un nuevo algoritmo, llamado I_Tbf, capaz de aprender a predecir “cuándo el robot va a cometer un fallo”. La discrepancia entre lo que el sistema predice y lo que realmente sucede nos permite detectar problemas y corregirlos durante el propio proceso de aprendizaje. Las ventajas obtenidas con este algoritmo son: buenos tiempos de aprendizaje, un reducido número de parámetros y mayor interpretabilidad del proceso de aprendizaje. b) Aprendizaje simultáneo de percepción y acción: hemos creado un sistema capaz de aprender al mismo tiempo el espacio de estados y la acción a ejecutar en cada uno de estos estados. Partiendo de nuestro algoritmo I_Tbf, el sistema itera la política de control tratando de maximizar el tiempo a fallo. El espacio de estados se crea de forma dinámica: partiendo de un conjunto vacío se añaden nuevos estados a medida que el robot encuentra nuevas situaciones que no ha visto antes. La creación dinámica del espacio de estados evita el proceso de creación y evaluación de representaciones de estados ad hoc. Para lograr la generación dinámica de estados hemos recurrido a la Teoría de Resonancia Adaptativa (ART) adaptándola a nuestro problema. c) Reducción del tiempo de aprendizaje a través de la creación de comités de aprendedores: para acelerar los procesos de aprendizaje resulta conveniente recurrir a estrategias habituales en el campo de las redes neuronales artificiales dirigidas a evitar el “sobre-aprendizaje” y la falta de generalización. Por este motivo, el uso de comités de “aprendedores” que, mediante diferentes estrategias de voto ponderado, son capaces de seleccionar la acción que debe ejecutar el robot en cada instante, permiten acelerar el proceso de aprendizaje mientras se mantiene una buena generalización. Gracias al incremento de estabilidad proporcionado por el comité, se puede introducir el concepto de aprendizaje continuo, donde el sistema es capaz de aprender durante todo el ciclo de vida del robot, sin que el comportamiento sufra grandes inestabilidades. Se han realizado pruebas donde la señal de refuerzo era proporcionada por un usuario humano. Pese a que dicha señal tenía una gran componente no determinista, gracias a la estabilidad proporcionada por el comité de aprendedores el sistema es capaz de alcanzar la convergencia en pocos minutos. d) Determinación de la relevancia sensorial: muchas de las entradas sensoriales proporcionadas por los modernos sensores de alta resolución son irrelevantes para la tarea que el robot está intentando aprender. Estas dimensiones irrelevantes pueden provocar errores en las estrategias de clustering. Esto es algo conocido como la maldición de las dimensiones. En esta tesis se ha investigado el uso de criterios estadísticos basados en la teoría de la información, y la información mutua, para determinar, de forma dinámica, el subconjunto de sensores que es realmente relevante para lo que el robot quiere aprender. El uso de este subconjunto de sensores proporciona una reducción significativa del tiempo de aprendizaje, así como un aumento de la robustez de los comportamientos
    corecore