5 research outputs found

    Learning Utility Surfaces for Movement Selection

    Get PDF
    Humanoid robots are highly redundant systems with respect to the tasks they are asked to perform. This redundancy manifests itself in the number of degrees of freedom of the robot exceeding the dimensionality of the task. Traditionally this redundancy has been utilised through optimal control in the null-space. Some cost function is defined that encodes secondary movement goals and movements are optimised with respect to this functio

    Learning Nonlinear Multi-Variate Motion Dynamics for Real- Time Position and Orientation Control of Robotic Manipulators

    Get PDF
    We present a generic framework that allows learning non- linear dynamics of motion in manipulation tasks and generating dynamical laws for control of position and orientation. This work follows a recent trend in Programming by Demonstration in which the dynamics of an arm motion is learned: position and orientation control are learned as multivariate dynamical systems to preserve correlation within the signals. The strength of the method is three-fold: i) it extracts dynamical control laws from demonstrations, and subsequently provides concurrent smooth control of both position and orientation; ii) it allows to generalize a motion to unseen context; iii) it guarantees on-line adaptation of the motion in the face of spatial and temporal perturbations. The method is validated to control a four degree of freedom humanoid arm and an industrial six degree of freedom robotic arm

    Learning control policies from constrained motion

    Get PDF
    Many everyday human skills can be framed in terms of performing some task subject to constraints imposed by the task or the environment. Constraints are usually unobservable and frequently change between contexts. In this thesis, we explore the problem of learning control policies from data containing variable, dynamic and non-linear constraints on motion. We show that an effective approach for doing this is to learn the unconstrained policy in a way that is consistent with the constraints. We propose several novel algorithms for extracting these policies from movement data, where observations are recorded under different constraints. Furthermore, we show that, by doing so, we are able to learn representations of movement that generalise over constraints and can predict behaviour under new constraints. In our experiments, we test the algorithms on systems of varying size and complexity, and show that the novel approaches give significant improvements in performance compared with standard policy learning approaches that are naive to the effect of constraints. Finally, we illustrate the utility of the approaches for learning from human motion capture data and transferring behaviour to several robotic platforms

    Combining Model-Based with Learning-Based Approaches for Autonomous Manipulation

    Get PDF
    Kollaboration zwischen Menschen und Robotern gewinnt zunehmend an Bedeutung in der Industrie und Forschung. Manipulation ist eine Grundvoraussetzung fĂŒr eine erfolgreiche Kollaboration und deshalb eine grundlegende Forschungsfrage in der Robotik. Bei der Manipulation von Objekten, zum Beispiel beim Greifen eines Bohrers, mĂŒssen Roboter mit einer dynamischen Umgebungen, partieller Wahrnehmung, Model- und AusfĂŒhrungsunsicherheit zurechtkommen. In dieser Arbeit identifizieren wir EinschrĂ€nkungen von modellbasierten AnsĂ€tzen des gegenwĂ€rtigen Standes der Technik fĂŒr Manipulationsaufgaben und untersuchen wie man diese mit Lernverfahren kombinieren und verbessern kann, um autonome Manipulation zu ermöglichen. Maschinelle Lernverfahren wie neuronale Netze\textit{neuronale Netze}, die mithilfe von großen Datenmengen ein gutes Modell lernen, sind sehr geeignet fĂŒr die Robotik, da Roboter ihre Umgebung mithilfe von einer Vielzahl an Sensoren wahrnehmen und dadurch eine FĂŒlle von Daten erzeugen. Im Gegensatz zu anderen Forschungsgebieten, wie zum Beispiel Sprach- und Bildverarbeitung, interagieren Roboter mit ihrer Umgebung, sodass Vorhersagen einen physikalischen Einfluss auf die Umgebung haben. Aufgrund der Interaktion mit der Umgebung und der kontinuierlichen Wahrnehmung ergibt sich eine RĂŒckkopplungsschleife die neue Herangehensweisen erfordert um Sicherheitsbedenken und Geschwindigkeitsanforderungen zu erfĂŒllen. Das Ziel dieser Dissertation ist es zu untersuchen, wie man bestehende modellbasierte\textit{modellbasierte} Robotersysteme mithilfe von Lernverfahren\textit{Lernverfahren} verbessern kann. Dabei ist es wichtig das vorhandene domĂ€nenspezifische Wissen nicht zu vernachlĂ€ssigen, sondern in die Lernverfahren\textit{Lernverfahren} zu integrieren. Die Ergebnisse dieser Arbeit zeigen, dass lernbasierte\textit{lernbasierte} AnsĂ€tze modellbasierte\textit{modellbasierte} Methoden sehr gut ergĂ€nzen und es ermöglichen Probleme, die ansonsten unlösbar wĂ€ren, zu lösen. Wir zeigen, wie man bestehende Modelle zum Trainieren von Lernverfahren verwenden kann. Dadurch wird problemspezifisches Expertenwissen in den Datengenerierungsprozess integriert und somit an das gelernte Modell weitergegeben. Wir entwickeln außerdem ein neues Optimierungsverfahren, das wĂ€hrend der Optimierung etwas ĂŒber den Vorgang an sich lernt. Ein solches Verfahren ist sehr relevant fĂŒr eine Vielzahl von Problemen in der Robotik, da autonome\textit{autonome} Manipulationssysteme kontinuierlich neue Aufgaben lösen mĂŒssen. Im Folgenden stellen wir die HauptbeitrĂ€ge dieser Dissertation vor, eingebettet in den Kontext von Manipulationsaufgaben. Visuelle Wahrnehmung in Echtzeit trifft auf reaktive Bewegungsplanung\textbf{Visuelle Wahrnehmung in Echtzeit trifft auf reaktive Bewegungsplanung} Der Hauptbeitrag dieser Arbeit ist ein voll integriertes Manipulationssystem das erste einheitliche Experimente und dadurch empirische Ergebnisse ermöglicht. Diese zeigen eindeutig, dass kontinuierliche, zeitnahe Wahrnehmung und die Integration mit schnellen Verfahren zur Erzeugung von reaktiven Bewegungen essenziell fĂŒr erfolgreiche Manipulation in dynamischen Szenarien ist. Wir vergleichen drei verschiedene Systeme, welche die gĂ€ngigsten Architekturen im Bereich Robotik fĂŒr Manipulation reprĂ€sentieren: (i) Ein traditioneller Sense-Plan-Act\textit{Sense-Plan-Act} Ansatz (aktuell am weitesten verbreitet), (ii) einen myopischen Regelungsansatz, der nur auf lokale VerĂ€nderungen reagiert und (iii) ein reaktives Planungsverfahren, das auf Änderungen der Umgebung reagiert diese in die Bewegungsplanung einbezieht und den aktuellen Plan transparent an einen schnelleres lokales Regelungsverfahren ĂŒbergibt. Unser Gesamtsystem ist rein modellbasiert\textit{modellbasiert} und umfangreich auf einer realen Roboterplattform in vier Szenarien empirisch evaluiert worden. Unsere experimentellen Szenarien beinhalten anspruchsvolle Geometrien im Arbeitsraum des Roboters, dynamische Umgebungen und Objekte mit denen der Roboter interagieren muss. Diese Arbeit zeigt den aktuellen Stand der Forschung, der mit einem \textit{modellbasierten} Manipulationssystem im Bereich der Robotik unter Verwendung von schnellen RĂŒckkopplungen und langsamerer reaktiver Planung möglich ist. Angesichts des Interesses in der Robotikforschung modellbasierte\textit{modellbasierte} Systeme mit Ende-zu-Ende Lernansaštzen\textit{Ende-zu-Ende LernansĂ€tzen} ganzheitlich zu ersetzen, ist es wichtig ein performantes modellbasiertes\textit{modellbasiertes} Referenzsystem zu haben um neue Methoden qualitativ in Hinblick auf ihre FĂ€higkeiten und ihre Generalisierbarkeit zu vergleichen. Weiterhin erlaubt ein solches System Probleme mit modellbasierten\textit{modellbasierten} AnsĂ€tzen zu identifizieren und diese mithilfe von learnbasierten\textit{learnbasierten} Methoden zu verbessern. Online Entscheidungsfindung fušr Manipulation\textbf{Online Entscheidungsfindung fĂŒr Manipulation} Die meisten Robotermanipulationssysteme verfĂŒgen ĂŒber viele Sensoren mit unterschiedlichen ModalitĂ€ten und Rauschverhalten. Die Entwicklung von Modellen\textit{Modellen} fĂŒr alle Sensoren ist nicht trivial und die resultierende Modelle zu komplex fĂŒr Echtzeitverarbeitung in modellbasierten\textit{modellbasierten} Manipulationssystem. Planen mit vielen SensormodalitĂ€ten ist besonders komplex aufgrund der vielen Modellunsicherheiten. Dies ist besonders ausgeprĂ€gt fĂŒr Manipulationsaufgaben bei denen Kontakte zwischen Roboter und Objekten von Bedeutung sind. Eine der Hauptherausforderung fĂŒr autonome Manipulation ist daher die Erzeugung geeigneter multimodaler Referenztrajektorien, die es ermöglichen Steuerbefehle fĂŒr Regelungssysteme zu berechnen die nicht modellierte Störungen kompensieren und damit die ErfĂŒllung der gestellten Manipulationsaufgabe ermöglichen. In dieser Arbeit stellen wir einen lernbasierten\textit{lernbasierten} Ansatz zur inkrementellen Erfassung von Referenzsignalen vor, der in Echtzeit entscheidet wann\textit{wann} ein Verhalten abgebrochen und zu welchem\textit{welchem} Verhalten gewechselt werden sollte, um eine erfolgreiche AusfĂŒhrung zu gewĂ€hrleisten. Wir formulieren dieses Online-Entscheidungsproblem als zwei miteinander verbundene Klassifikationsprobleme. Beide verarbeiten die aktuellen Sensormesswerte, zusammengesetzt aus mehreren SensormodalitĂ€ten, in Echtzeit (in 30 Hz). Dieser Ansatz basiert auf unserem domĂ€nenspezifischen ProblemverstĂ€ndnis, dass stereotypische Bewegungsgenerierung Ă€hnliche Sensordaten erzeugt. Unsere Experimente zeigen, dass dieser Ansatz es ermöglicht schwierige kontextbasierte Aufgaben zu erlernen, die prĂ€zise Manipulation von relativ kleinen Objekten voraussetzen. Um eine solche Aufgabe zu erlernen, benötigt ein Benutzer unseres Systems kein Expertenwissen. Das System benötigt nur kinĂ€sthetische Demonstrationen und Unterbrechungen in Fehlersituationen. Die gelernte AufgabenausfĂŒhrung ist robust gegen StöreinflĂŒsse und Sensorrauschen, da unsere Methode online entscheidet, ob sie aufgrund von unerwarteter sensorischer Signale zu einer anderen AusfĂŒhrung wechseln sollte oder nicht. Big-Data Greifen\textbf{Big-Data Greifen} Greifen ist ein wichtiges Forschungsproblem in der Robotik, da es eine Grundvoraussetzung fĂŒr Manipulation darstellt. In dieser Arbeit konzentrieren wir uns auf das Problem der Vorhersage von Position und Orientierung bevor ein Kontakt zwischen Objekt und Endeffektor eintritt. FĂŒr diesen grundlegenden Schritt um “erfolgreich zu greifen” stehen nur visuelle Sensordaten wie 2D-Bilder und/oder 3D-Punktwolken zur VerfĂŒgung. Die Verwendung von modellbasierten\textit{modellbasierten} Greifplanern ist in solchen Situationen nicht optimal, da prĂ€zise Simulationen zu rechenintensiv sind und alle Objekte bekannt, erkannt und visuell verfolgt werden mĂŒssen. Lernbasierte\textit{Lernbasierte} Verfahren die direkt von visuellen Sensordaten stabile Griffe vorhersagen sind sehr effizient in der Auswertung jedoch benötigen die aktuell vielversprechendsten Verfahren, neuronale Netze, eine Vielzahl von annotierten Beispielen um diese Abbildung zu lernen. Im Rahmen dieser Arbeit stellen wir eine umfangreichen Datenbank mit einer Vielzahl von Objekten aus sehr unterschiedlichen Kategorien vor. Auf Basis dieser Datenbank analysieren wir drei Aspekte: (i) Eine Crowdsourcing Studie zeigt, dass unsere neu vorgestellte Metrik auf Basis einer physikalischen Simulation ein besserer Indikator fĂŒr Greiferfolg im Vergleich zu der bestehenden Standard Ï”-Metrik ist. DarĂŒber hinaus deutet unsere Studie darauf hin, dass unsere Datengenerierung keine manuelle Datenannotation benötigt. (ii) Die daraus resultierende Datenbank ermöglicht die Optimierung von parametrischen Lernverfahren wie neuronale Netze. Dadurch, dass wir eine Abbildung von Sensordaten zu möglichen Griffen lernen, muss das Objekt, seine Position und Orientierung nicht bekannt sein. DarĂŒber hinaus zeigen wir, dass einfachere Methoden wie logistische Regression nicht die KapazitĂ€t haben um die KomplexitĂ€t unserer Daten zu erfassen. (iii) Roboter nehmen ein Szenario typischerweise aus einem Blickwinkel wahr und versuchen ein Objekt mit dem ersten Versuch zu greifen. Klassifikationsverfahren sind nicht speziell fĂŒr diese Verwendung optimiert, weshalb wir eine neue Formulierung erarbeiten, welche die beste, top-1\textit{top-1} Hypothese aus den jeweiligen Teilmengen auswĂ€hlt. Diese neuartige Optimierungszielsetzung ermöglicht dies selbst auf unserem binĂ€ren Datensatz, da das Lernverfahren selbst die Daten ordnet und somit einfach zu erkennende Griffe selbst auswĂ€hlen kann. Lernen von inversen Dynamikmodellen fušr Manipulationsaufgaben\textbf{Lernen von inversen Dynamikmodellen fĂŒr Manipulationsaufgaben} Sichere BewegungsausfĂŒhrung auf Basis von Regelungskreisen sind entscheidend fĂŒr Roboter die mit Menschen kollaborativ Manipulationsaufgaben lösen. Daher werden neue Methoden benötigt, die es ermöglichen inversen Dynamikmodelle zu lernen und bestehende Modelle zu verbessern, um VerstĂ€rkungsgrĂ¶ĂŸen in Regelungskreisen zu minimieren. Dies ist besonders wichtig, wenn Objekte manipuliert werden, da sich das bekannte inverse Dynamikmodell dadurch verĂ€ndert. Aktuelle Verfahren, welche Fehlermodelle zu bestehenden modellbasierten\textit{modellbasierten} Regler fĂŒr die inverse Dynamik zu lernen, werden auf Basis der erzielten Beschleunigungen und Drehmomenten optimiert. Da die tatsĂ€chlich realisierten Beschleunigungen, eine indirekte Datenquelle, jedoch nicht die gewĂŒnschten Beschleunigungen darstellen, werden hohe VerstĂ€rkungen im Regelkreis benötigt, um relevantere Daten zu erhalten die es erlauben ein gutes Modell zu lernen. Hohe VerstĂ€rkung im Regelkreis ist wiederum schlecht fĂŒr die Sicherheit. In dieser Arbeit leiten wir ein zusĂ€tzliches Trainingssignal her, das auf der gewĂŒnschten Beschleunigungen basiert und von dem RĂŒckkopplungssignal abgeleitet werden kann. Wir analysieren die Nutzung beider Datenquellen in Simulation und demonstrieren ihre Wirksamkeit auf einer realen Roboterplattform. Wir zeigen, dass das System das gelernte inverse Dynamikmodell inkrementell verbessert. Durch die Kombination beider Datenquellen kann ein neues Modell konsistenter und schneller gelernt werden und zusĂ€tzlich werden keine hohen VerstĂ€rkungen im Regelungskreis benötigt. Lernen wie man lernt, wašhrend man lernt\textbf{Lernen wie man lernt, wĂ€hrend man lernt} Menschen sind bemerkenswert gut darin, neue oder angepasste FĂ€higkeiten schnell zu erlernen. Dies ist darauf zurĂŒckzufĂŒhren, dass wir nicht jede neue FĂ€higkeit von Grund auf neu erlernen, sondern stattdessen auf den bereits gewonnenen Fertigkeiten aufbauen. Die meisten robotergestĂŒtzten Lernaufgaben wĂŒrden davon profitieren, wenn sie ein solches abstraktes Meta-Lernverfahren zur VerfĂŒgung hĂ€tten. Ein solcher Ansatz ist von großer Bedeutung fĂŒr die Robotik, da autonomes Lernen ein inhĂ€rent inkrementelles Problem ist. In dieser Arbeit stellen wir einen neuen Meta-Lernansatz\textit{Meta-Lernansatz} vor, der es erstmals ermöglicht die Roboterdynamik online zu erlernen und auf neue Probleme zu ĂŒbertragen. WĂ€hrend der Optimierung lernt unser Verfahren die Struktur der Optimierungsprobleme, welche fĂŒr neue Aufgaben verwendet werden kann, was zu einer schnelleren Konvergenz fĂŒhrt. Das vorgeschlagene Meta-Lernverfahren\textit{Meta-Lernverfahren} kann zudem mit jedem beliebigen gradientenbasierten Optimierungsansatz verwendet werden. Wir zeigen, dass unser Ansatz die Dateneffizienz fĂŒr inkrementelles Lernen erhöht. Weiterhin ist unser Verfahren fĂŒr das online Lernen\textit{online Lernen} mit korrelierten Daten geeignet, zum Beispiel fĂŒr inverse Dynamikmodelle. Der vorgestellte Ansatz eröffnet zusĂ€tzlich völlig neue Wege um in Simulation gewonnene Erfahrungen in die reale Welt zu transferieren. Dadurch kann möglicherweise bestehendes DomĂ€nenwissen in Form von modellbasierter\textit{modellbasierter} Simulation auf völlig neue Weise verwendet werden

    A unifying methodology for the control of robotic systems

    No full text
    Abstract — Recently, [1] suggested to derive tracking controllers for mechanical systems using a generalization of Gauss’ principle of least constraint. This method allows us to reformulate control problems as a special class of optimal control. We take this line of reasoning one step further and demonstrate that well-known and also several novel nonlinear robot control laws can be derived from this generic methodology. We show experimental verifications on a Sarcos Master Arm robot for some of the the derived controllers. We believe that the suggested approach offers a promising unification and simplification of nonlinear control law design for robots obeying rigid body dynamics equations, both with or without external constraints, with over-actuation or underactuation, as well as open-chain and closed-chain kinematics. Index Terms — Non-linear control, robot control, tracking control
    corecore