4,171 research outputs found

    Value Iteration Networks on Multiple Levels of Abstraction

    Full text link
    Learning-based methods are promising to plan robot motion without performing extensive search, which is needed by many non-learning approaches. Recently, Value Iteration Networks (VINs) received much interest since---in contrast to standard CNN-based architectures---they learn goal-directed behaviors which generalize well to unseen domains. However, VINs are restricted to small and low-dimensional domains, limiting their applicability to real-world planning problems. To address this issue, we propose to extend VINs to representations with multiple levels of abstraction. While the vicinity of the robot is represented in sufficient detail, the representation gets spatially coarser with increasing distance from the robot. The information loss caused by the decreasing resolution is compensated by increasing the number of features representing a cell. We show that our approach is capable of solving significantly larger 2D grid world planning tasks than the original VIN implementation. In contrast to a multiresolution coarse-to-fine VIN implementation which does not employ additional descriptive features, our approach is capable of solving challenging environments, which demonstrates that the proposed method learns to encode useful information in the additional features. As an application for solving real-world planning tasks, we successfully employ our method to plan omnidirectional driving for a search-and-rescue robot in cluttered terrain

    Planning Hybrid Driving-Stepping Locomotion for Ground Robots in Challenging Environments

    Get PDF
    Ground robots capable of navigating a wide range of terrains are needed in several domains such as disaster response or planetary exploration. Hybrid driving-stepping locomotion is promising since it combines the complementary strengths of the two locomotion modes. However, suitable platforms require complex kinematic capabilities which need to be considered in corresponding locomotion planning methods. High terrain complexities induce further challenges for the planning problem. We present a search-based hybrid driving-stepping locomotion planning approach for robots which possess a quadrupedal base with legs ending in steerable wheels allowing for omnidirectional driving and stepping. Driving is preferred on sufficiently flat terrain while stepping is considered in the vicinity of obstacles. Steps are handled in a hierarchical manner: while only the connection between suitable footholds is considered during planning, those steps in the resulting path are expanded to detailed motion sequences considering the robot stability. To enable precise locomotion in challenging terrain, the planner takes the individual robot footprint into account. The method is evaluated in simulation and in real-world applications with the robots Momaro and Centauro. The results indicate that the planner provides bounded sub-optimal paths in feasible time. However, the required fine resolution and high-dimensional robot representation result in too large state spaces for more complex scenarios exceeding computation time and memory constraints. To enable the planner to be applicable in those scenarios, the method is extended to incorporate three levels of representation. In the vicinity of the robot, the detailed representation is used to obtain reliable paths for the near future. With increasing distance from the robot, the resolution gets coarser and the degrees of freedom of the robot representation decrease. To compensate this loss of information, those representations are enriched with additional semantics increasing the scene understanding. We further present how the most abstract representation can be used to generate an informed heuristic. Evaluation shows that planning is accelerated by multiple orders of magnitude with comparable result quality. However, manually designing the additional representations and tuning the corresponding cost functions requires a high effort. Therefore, we present a method to support the generation of an abstract representation through a convolutional neural network (CNN). While a low-dimensional, coarse robot representation and corresponding action set can be easily defined, a CNN is trained on artificially generated data to represent the abstract cost function. Subsequently, the abstract representation can be used to generate a similar informed heuristic, as described above. The CNN evaluation on multiple data sets indicates that the learned cost function generalizes well to realworld scenes and that the abstraction quality outperforms the manually tuned approach. Applied to hybrid driving-stepping locomotion planning, the heuristic achieves similar performance while design and tuning efforts are minimized. Since a learning-based method turned out to be beneficial to support the search-based planner, we finally investigate if the whole planning problem can be solved by a learning-based approach. Value Iteration Networks (VINs) are known to show good generalizability and goal-directed behavior, while being limited to small state spaces. Inspired by the above-described results, we extend VINs to incorporate multiple levels of abstraction to represent larger planning problems with suitable state space sizes. Experiments in 2D grid worlds show that this extension enables VINs to solve significantly larger planning tasks. We further apply the method to omnidirectional driving of the Centauro robot in cluttered environments which indicates limitations but also emphasizes the future potential of learning-based planning methods.Planung von Hybrider Fahr-Lauf-Lokomotion für Bodenroboter in Anspruchsvollen Umgebungen Bodenroboter, welche eine Vielzahl von Untergründen überwinden können, werden in vielen Anwendungsgebieten benötigt. Beispielszenarien sind die Katastrophenhilfe oder Erkundungsmissionen auf fremden Planeten. In diesem Kontext ist hybride Fahr-/Lauf-Fortbewegung vielversprechend, da sie die sich ergänzenden Stärken der beiden Fortbewegungsarten miteinander vereint. Um dies zu realisieren benötigen entsprechende Roboter allerdings komplexe kinematische Fähigkeiten, welche auch in adäquaten Ansätzen für die Planung dieser Fortbewegung berücksichtigt werden müssen. Anspruchsvolle Umgebungen mit komplexen Untergründen erhöhen dabei zusätzlich die Anforderungen an die Bewegungsplanung. In dieser Arbeit wird ein suchbasierter Ansatz für kombinierte Fahr-/Lauf-Fortbewegungsplanung vorgestellt. Die adressierten Zielplattformen sind vierbeinige Roboter, deren Beine in lenkbaren Rädern enden, so dass sie omnidirektional fahren und laufen können. Auf ausreichend ebenem Untergrund wird generell Fahren bevorzugt, während der Planer Laufmanöver in der Nähe von Hindernissen in Erwägung zieht. Schritte werden dabei in einer hierarchischen Art undWeise realisiert: Während des Planens werden nur Verbindungen zwischen geeigneten Auftrittsflächen gesucht. Nur solche Schritte, die im Ergebnispfad enthalten sind, werden anschließend zu detaillierten Bewegungsabläufen verfeinert, welche die Balance des Roboters sicherstellen. Um präzise Fortbewegung in anspruchsvollen Umgebungen zu ermöglichen, betrachtet der Planer die spezifischen Aufstandsflächen der vier Füße. Der Ansatz wurde sowohl in simulierten als auch in realen Tests mit den Robotern Momaro und Centauro evaluiert, wobei der Planer in der Lage war, Lösungspfade von ausreichender Qualität in zulässiger Zeit zu generieren. Allerdings ergeben die benötigte feine Planungsauflösung und die hochdimensionale Roboterrepräsentation große Zustandsräumen. Diese würden für komplexere oder größere Planungsprobleme die zulässige Rechenzeit und den verfügbaren Speicher überschreiten. Damit der Planer auch eben diese komplexeren oder größeren Planungsprobleme handhaben kann, wird eine Erweiterung des Ansatzes beschrieben, welche mehrere Repräsentationslevel mit einbezieht. In unmittelbarer Umgebung des Roboters wird die zuvor beschriebene detaillierte Repräsentation genutzt, um hochwertige Pfade für die nahe Zukunft zu erzeugen. Mit zunehmendem Abstand vom Roboter wird die Auflösung gröber und die Anzahl der Freiheitsgrade in der Roboterrepräsentation sinkt. Um den mit dieser Vergröberung einhergehenden Informationsverlust zu kompensieren, werden diese Repräsentationen mit zusätzlicher Semantik ausgestattet, welche das Szenenverständnis erhöht. Darüber hinaus wird beschrieben, wie die Repräsentation mit dem höchsten Abstraktionsgrad zur Berechnung einer effektiven Heuristik genutzt werden kann. Die Evaluation in Simulationsumgebungen zeigt, dass der Planungsprozess um mehrere Größenordnungen beschleunigt werden kann, während die Ergebnisqualität vergleichbar bleibt. Allerdings sind das manuelle Gestalten der zusätzlichen Repräsentationen und das dazugehörige Parametrisieren der Kostenfunktionen sehr arbeitsintensiv. Um diesen Aufwand zu reduzieren, wird daher eine Methode beschrieben, welche die Gestaltung einer abstrakten Repräsentation durch ein Convolutional Neural Network (CNN) unterstützt. Während eine grobe, niedrigdimensionale Roboterrepräsentation und ein dazugehöriges Aktionsset einfach definiert werden können, wird ein CNN auf künstlich erzeugten Daten trainiert, um die abstrakte Kostenfunktion zu lernen. Anschließend kann die so erzeugte abstrakte Repräsentation genutzt werden, um die bereits zuvor erwähnte effektive Heuristik zu berechnen. In der Evaluation des CNNs auf verschiedenen Datensätzen zeigt sich, dass die gelernte Kostenfunktion auch mit Daten aus realen Umgebungen funktioniert und dass die generelle Ergebnisqualität oberhalb der Ergebnisse mit manuell erzeugten Repräsentationen liegt. Die Anwendnung der Methode zur Planung hybrider Fahr-/Lauf-Fortbewegung zeigt, dass die so erzeugte Heuristik gleichwertige Ergebnisse wie die Heuristik auf Basis manuell erzeugter Repräsentation liefert, während der Aufwand zur Gestaltung und Parametrisierung deutlich verringert wurde. Da sich gezeigt hat, dass eine lernbasierte Methode den klassischen suchbasierten Ansatz effektiv unterstützen kann, wird in dieser Arbeit abschließend untersucht, ob das gesamte Planungsproblem durch eine lernbasierte Methode gelöst werden kann. Value Iteration Networks (VINs) sind in diesem Zusammenhang ein vielversprechender Ansatz, da sie bekanntlich ein gutes zielorientiertes Planungsverhalten lernen und das Gelernte auf unbekannte Situationen verallgemeinern können. Allerdings ist ihre bisherige Anwendung auf kleine Zustandsräume begrenzt. Durch die zuvor beschriebenen Ergebnisse motiviert, wird eine Erweiterung von VINs beschrieben, so dass diese auf verschiedenen Abstraktionsleveln planen, um größere Planungsprobleme in Zustandsräumen entsprechender Größe darzustellen. Experimente in 2D-Rasterumgebungen zeigen, dass die beschriebene Methode VINs in die Lage versetzt, deutlich größere Planungsprobleme zu lösen. Darüber hinaus wird die beschriebene Methode benutzt, um omnidirektionale Fahrmanöver für den Centauro-Roboter in anspruchsvollen Umgebungen zu planen. Gleichzeitig werden hier aber auch die momentanen, hardware-bedingten Grenzen rein lernbasierter Ansätze sowie ihr zukünftiges Potential aufgezeigt

    Reasoning with Latent Diffusion in Offline Reinforcement Learning

    Full text link
    Offline reinforcement learning (RL) holds promise as a means to learn high-reward policies from a static dataset, without the need for further environment interactions. However, a key challenge in offline RL lies in effectively stitching portions of suboptimal trajectories from the static dataset while avoiding extrapolation errors arising due to a lack of support in the dataset. Existing approaches use conservative methods that are tricky to tune and struggle with multi-modal data (as we show) or rely on noisy Monte Carlo return-to-go samples for reward conditioning. In this work, we propose a novel approach that leverages the expressiveness of latent diffusion to model in-support trajectory sequences as compressed latent skills. This facilitates learning a Q-function while avoiding extrapolation error via batch-constraining. The latent space is also expressive and gracefully copes with multi-modal data. We show that the learned temporally-abstract latent space encodes richer task-specific information for offline RL tasks as compared to raw state-actions. This improves credit assignment and facilitates faster reward propagation during Q-learning. Our method demonstrates state-of-the-art performance on the D4RL benchmarks, particularly excelling in long-horizon, sparse-reward tasks
    corecore