568 research outputs found
Conflict-driven learning in AI planning state-space search
Many combinatorial computation problems in computer science can be cast as a reachability problem in an implicitly described, potentially huge, graph: the state space. State-space search is a versatile and widespread method to solve such reachability problems, but it requires some form of guidance to prevent exploring that combinatorial space exhaustively. Conflict-driven learning is an indispensable search ingredient for solving constraint satisfaction problems (most prominently, Boolean satisfiability). It guides search towards solutions by identifying conflicts during the search, i.e., search branches not leading to any solution, learning from them knowledge to avoid similar conflicts in the remainder of the search. This thesis adapts the conflict-driven learning methodology to more general classes of reachability problems. Specifically, our work is placed in AI planning. We consider goal-reachability objectives in classical planning and in planning under uncertainty. The canonical form of "conflicts" in this context are dead-end states, i.e., states from which the desired goal property cannot be reached. We pioneer methods for learning sound and generalizable dead-end knowledge from conflicts encountered during forward state-space search. This embraces the following core contributions: When acting under uncertainty, the presence of dead-end states may make it impossible to satisfy the goal property with absolute certainty. The natural planning objective then is MaxProb, maximizing the probability of reaching the goal. However, algorithms for MaxProb probabilistic planning are severely underexplored. We close this gap by developing a large design space of probabilistic state-space search methods, contributing new search algorithms, admissible state-space reduction techniques, and goal-probability bounds suitable for heuristic state-space search. We systematically explore this design space through an extensive empirical evaluation. The key to our conflict-driven learning algorithm adaptation are unsolvability detectors, i.e., goal-reachability overapproximations. We design three complementary families of such unsolvability detectors, building upon known techniques: critical-path heuristics, linear-programming-based heuristics, and dead-end traps. We develop search methods to identify conflicts in deterministic and probabilistic state spaces, and we develop suitable refinement methods for the different unsolvability detectors so to recognize these states. Arranged in a depth-first search, our techniques approach the elegance of conflict-driven learning in constraint satisfaction, featuring the ability to learn to refute search subtrees, and intelligent backjumping to the root cause of a conflict. We provide a comprehensive experimental evaluation, demonstrating that the proposed techniques yield state-of-the-art performance for finding plans for solvable classical planning tasks, proving classical planning tasks unsolvable, and solving MaxProb in probabilistic planning, on benchmarks where dead-end states abound.Viele kombinatorisch komplexe Berechnungsprobleme in der Informatik lassen sich als Erreichbarkeitsprobleme in einem implizit dargestellten, potenziell riesigen, Graphen - dem Zustandsraum - verstehen. Die Zustandsraumsuche ist eine weit verbreitete Methode, um solche Erreichbarkeitsprobleme zu lösen. Die Effizienz dieser Methode hängt aber maßgeblich von der Verwendung strikter Suchkontrollmechanismen ab. Das konfliktgesteuerte Lernen ist eine essenzielle Suchkomponente für das Lösen von Constraint-Satisfaction-Problemen (wie dem Erfüllbarkeitsproblem der Aussagenlogik), welches von Konflikten, also Fehlern in der Suche, neue Kontrollregeln lernt, die ähnliche Konflikte zukünftig vermeiden. In dieser Arbeit erweitern wir die zugrundeliegende Methodik auf Zielerreichbarkeitsfragen, wie sie im klassischen und probabilistischen Planen, einem Teilbereich der Künstlichen Intelligenz, auftauchen. Die kanonische Form von „Konflikten“ in diesem Kontext sind sog. Sackgassen, Zustände, von denen aus die Zielbedingung nicht erreicht werden kann. Wir präsentieren Methoden, die es ermöglichen, während der Zustandsraumsuche von solchen Konflikten korrektes und verallgemeinerbares Wissen über Sackgassen zu erlernen. Unsere Arbeit umfasst folgende Beiträge: Wenn der Effekt des Handelns mit Unsicherheiten behaftet ist, dann kann die Existenz von Sackgassen dazu führen, dass die Zielbedingung nicht unter allen Umständen erfüllt werden kann. Die naheliegendste Planungsbedingung in diesem Fall ist MaxProb, das Maximieren der Wahrscheinlichkeit, dass die Zielbedingung erreicht wird. Planungsalgorithmen für MaxProb sind jedoch wenig erforscht. Um diese Lücke zu schließen, erstellen wir einen umfangreichen Bausatz für Suchmethoden in probabilistischen Zustandsräumen, und entwickeln dabei neue Suchalgorithmen, Zustandsraumreduktionsmethoden, und Abschätzungen der Zielerreichbarkeitswahrscheinlichkeit, wie sie für heuristische Suchalgorithmen gebraucht werden. Wir explorieren den resultierenden Gestaltungsraum systematisch in einer breit angelegten empirischen Studie. Die Grundlage unserer Adaption des konfliktgesteuerten Lernens bilden Unerreichbarkeitsdetektoren. Wir konzipieren drei Familien solcher Detektoren basierend auf bereits bekannten Techniken: Kritische-Pfad Heuristiken, Heuristiken basierend auf linearer Optimierung, und Sackgassen-Fallen. Wir entwickeln Suchmethoden, um Konflikte in deterministischen und probabilistischen Zustandsräumen zu erkennen, sowie Methoden, um die verschiedenen Unerreichbarkeitsdetektoren basierend auf den erkannten Konflikten zu verfeinern. Instanziiert als Tiefensuche weisen unsere Techniken ähnliche Eigenschaften auf wie das konfliktgesteuerte Lernen für Constraint-Satisfaction-Problemen. Wir evaluieren die entwickelten Methoden empirisch, und zeigen dabei, dass das konfliktgesteuerte Lernen unter gewissen Voraussetzungen zu signifikanten Suchreduktionen beim Finden von Plänen in lösbaren klassischen Planungsproblemen, Beweisen der Unlösbarkeit von klassischen Planungsproblemen, und Lösen von MaxProb im probabilistischen Planen, führen kann
Analysis of Ant Colony Optimization and Population-Based Evolutionary Algorithms on Dynamic Problems
FLATLAND: A study of Deep Reinforcement Learning methods applied to the vehicle rescheduling problem in a railway environment
In the field of Reinforcement Learning the task is learning how agents should take sequences of actions in an environment in order to maximize a numerical reward signal. This learning process employed in combination with neural networks has given rise to Deep Reinforcement Learning (DRL), that is nowadays applied in many domains, from video games to robotics and self-driving cars.
This work investigates possible DRL approaches applied to Flatland, a multi-agent railway simulation where the main task is to plan and reschedule train routes in order to optimize the traffic flow within the network. The tasks introduced in Flatland are based on the Vehicle Rescheduling Problem, for which determining an optimal solution is a NP-complete problem in combinatorial optimization and determining acceptably good solutions using heuristics and deterministic methods is not feasible in realistic railway systems.
In particular, we analyze the tasks of navigation of a single agent inside a map, that from a starting position has to reach a target station in the minimum number of time steps and the generalization of this task to a multi-agent setting, with the new issue of conflicts avoidance and resolution between agents.
To solve the problem we developed specific observations of the environment, so as to capture the necessary information for the network, trained with Deep Q-Learning and variants, to learn the best action for each agent, that leads to the solution that maximizes the total reward.
The positive results obtained on small environments offer ideas for various interpretations and possible future developments, showing that Reinforcement Learning has the potential to solve the problem under a new perspective
Evolution of networks
We review the recent fast progress in statistical physics of evolving
networks. Interest has focused mainly on the structural properties of random
complex networks in communications, biology, social sciences and economics. A
number of giant artificial networks of such a kind came into existence
recently. This opens a wide field for the study of their topology, evolution,
and complex processes occurring in them. Such networks possess a rich set of
scaling properties. A number of them are scale-free and show striking
resilience against random breakdowns. In spite of large sizes of these
networks, the distances between most their vertices are short -- a feature
known as the ``small-world'' effect. We discuss how growing networks
self-organize into scale-free structures and the role of the mechanism of
preferential linking. We consider the topological and structural properties of
evolving networks, and percolation in these networks. We present a number of
models demonstrating the main features of evolving networks and discuss current
approaches for their simulation and analytical study. Applications of the
general results to particular networks in Nature are discussed. We demonstrate
the generic connections of the network growth processes with the general
problems of non-equilibrium physics, econophysics, evolutionary biology, etc.Comment: 67 pages, updated, revised, and extended version of review, submitted
to Adv. Phy
Verified multi-robot planning under uncertainty
Multi-robot systems are being increasingly deployed to solve real-world problems, from warehouses to autonomous fleets for logistics, from hospitals to nuclear power plants and emergency search and rescue scenarios. These systems often need to operate in uncertain environments which can lead to robot failure, uncertain action durations or the inability to complete assigned tasks. In many scenarios, the safety or reliability of these systems is critical to their deployment. Therefore there is a need for robust multi-robot planning solutions that offer guarantees on the performance of the robot team. In this thesis we develop techniques for robust multi-robot task allocation and planning under uncertainty by building on techniques from formal verification.
We present three algorithms that solve the problem of task allocation and planning for a multi-robot team operating under uncertainty. These algorithms are able to calculate the expected maximum number of tasks the multi-robot team can achieve, considering the possibility of robot failure. They are also able to reallocate tasks when robots fail. We formalise the problem of task allocation and robust planning for a multi-robot team using Linear Temporal Logic to specify the team's mission and Markov decision processes to model the robots. Our first solution method is a sampling based approach to simultaneous task allocation and planning. Our second solution method separates task allocation and planning for the same problem using auctioning for the former. Our final solution lies midway between the first two using simultaneous task allocation and planning in a sequential team model. We evaluate all solution approaches extensively using a set of tests inspired by existing benchmarks in related fields with a focus on scalability
Statistical Inference for Propagation Processes on Complex Networks
Die Methoden der Netzwerktheorie erfreuen sich wachsender Beliebtheit, da sie die Darstellung von komplexen Systemen durch Netzwerke erlauben. Diese werden nur mit einer Menge von Knoten erfasst, die durch Kanten verbunden werden. Derzeit verfügbare Methoden beschränken sich hauptsächlich auf die deskriptive Analyse der Netzwerkstruktur. In der hier vorliegenden Arbeit werden verschiedene Ansätze für die Inferenz über Prozessen in komplexen Netzwerken vorgestellt. Diese Prozesse beeinflussen messbare Größen in Netzwerkknoten und werden durch eine Menge von Zufallszahlen beschrieben. Alle vorgestellten Methoden sind durch praktische Anwendungen motiviert, wie die Übertragung von Lebensmittelinfektionen, die Verbreitung von Zugverspätungen, oder auch die Regulierung von genetischen Effekten. Zunächst wird ein allgemeines dynamisches Metapopulationsmodell für die Verbreitung von Lebensmittelinfektionen vorgestellt, welches die lokalen Infektionsdynamiken mit den netzwerkbasierten Transportwegen von kontaminierten Lebensmitteln zusammenführt. Dieses Modell ermöglicht die effiziente Simulationen verschiedener realistischer Lebensmittelinfektionsepidemien. Zweitens wird ein explorativer Ansatz zur Ursprungsbestimmung von Verbreitungsprozessen entwickelt. Auf Grundlage einer netzwerkbasierten Redefinition der geodätischen Distanz können komplexe Verbreitungsmuster in ein systematisches, kreisrundes Ausbreitungsschema projiziert werden. Dies gilt genau dann, wenn der Ursprungsnetzwerkknoten als Bezugspunkt gewählt wird. Die Methode wird erfolgreich auf den EHEC/HUS Epidemie 2011 in Deutschland angewandt. Die Ergebnisse legen nahe, dass die Methode die aufwändigen Standarduntersuchungen bei Lebensmittelinfektionsepidemien sinnvoll ergänzen kann. Zudem kann dieser explorative Ansatz zur Identifikation von Ursprungsverspätungen in Transportnetzwerken angewandt werden. Die Ergebnisse von umfangreichen Simulationsstudien mit verschiedenstensten Übertragungsmechanismen lassen auf eine allgemeine Anwendbarkeit des Ansatzes bei der Ursprungsbestimmung von Verbreitungsprozessen in vielfältigen Bereichen hoffen. Schließlich wird gezeigt, dass kernelbasierte Methoden eine Alternative für die statistische Analyse von Prozessen in Netzwerken darstellen können. Es wurde ein netzwerkbasierter Kern für den logistischen Kernel Machine Test entwickelt, welcher die nahtlose Integration von biologischem Wissen in die Analyse von Daten aus genomweiten Assoziationsstudien erlaubt. Die Methode wird erfolgreich bei der Analyse genetischer Ursachen für rheumatische Arthritis und Lungenkrebs getestet. Zusammenfassend machen die Ergebnisse der vorgestellten Methoden deutlich, dass die Netzwerk-theoretische Analyse von Verbreitungsprozessen einen wesentlichen Beitrag zur Beantwortung verschiedenster Fragestellungen in unterschiedlichen Anwendungen liefern kann
Evolutionary Optimization Techniques for 3D Simultaneous Localization and Mapping
Mención Internacional en el título de doctorMobile robots are growing up in applications to move through indoors and outdoors environments,
passing from teleoperated applications to autonomous applications like exploring
or navigating. For a robot to move through a particular location, it needs to gather information
about the scenario using sensors. These sensors allow the robot to observe, depending on the
sensor data type. Cameras mostly give information in two dimensions, with colors and pixels
representing an image. Range sensors give distances from the robot to obstacles. Depth
Cameras mix both technologies to expand their information to three-dimensional information.
Light Detection and Ranging (LiDAR) provides information about the distance to the sensor
but expands its range to planes and three dimensions alongside precision. So, mobile robots
use those sensors to scan the scenario while moving. If the robot already has a map, the sensors
measure, and the robot finds features that correspond to features on the map to localize
itself. Men have used Maps as a specialized form of representing the environment for more
than 5000 years, becoming a piece of important information in today’s daily basics. Maps are
used to navigate from one place to another, localize something inside some boundaries, or as
a form of documentation of essential features. So naturally, an intuitive way of making an
autonomous mobile robot is to implement geometrical information maps to represent the environment.
On the other hand, if the robot does not have a previous map, it should build it while
moving around. The robot computes the sensor information with the odometer sensor information
to achieve this task. However, sensors have their own flaws due to precision, calibration,
or accuracy. Furthermore, moving a robot has its physical constraints and faults that may occur
randomly, like wheel drifting or mechanical miscalibration that may make the odometers fail
in the measurement, causing misalignment during the map building. A novel technique was
presented in the mid-90s to solve this problem and overpass the uncertainty of sensors while
the robot is building the map, the Simultaneous Localization and Mapping algorithm (SLAM).
Its goal is to build a map while the robot’s position is corrected based on the information of
two or more consecutive scans matched together or find the rigid registration vector between
them. This algorithm has been broadly studied and developed for almost 25 years. Nonetheless,
it is highly relevant in innovations, modifications, and adaptations due to the advances in new
sensors and the complexity of the scenarios in emerging mobile robotics applications. The scan
matching algorithm aims to find a pose vector representing the transformation or movement
between two robot observations by finding the best possible value after solving an equation
representing a good transformation. It means searching for a solution in an optimum way. Typically
this optimization process has been solved using classical optimization algorithms, like
Newton’s algorithm or solving gradient and second derivatives formulations, yet this requires
an initial guess or initial state that helps the algorithm point in the right direction, most of the
time by getting this information from the odometers or inertial sensors. Although, it is not always possible to have or trust this information, as some scenarios are complex and reckon
sensors fail. In order to solve this problem, this research presents the uses of evolutionary optimization
algorithms, those with a meta-heuristics definition based on iterative evolution that
mimics optimization processes that do not need previous information to search a limited range
for solutions to solve a fitness function. The main goal of this dissertation is to study, develop
and prove the benefits of evolutionary optimization algorithms in simultaneous localization and
mapping for mobile robots in six degrees of freedom scenarios using LiDAR sensor information.
This work introduces several evolutionary algorithms for scan matching, acknowledge a
mixed fitness function for registration, solve simultaneous localization and matching in different
scenarios, implements loop closure and error relaxation, and proves its performance at indoors,
outdoors and underground mapping applications.Los robots móviles están creciendo en aplicaciones para moverse por entornos interiores
y exteriores, pasando de aplicaciones teleoperadas a aplicaciones autónomas como explorar o
navegar. Para que un robot se mueva a través de una ubicación en particular, necesita recopilar
información sobre el escenario utilizando sensores. Estos sensores permiten que el robot observe,
según el tipo de datos del sensor. Las cámaras en su mayoría brindan información en
dos dimensiones, con colores y píxeles que representan una imagen. Los sensores de rango dan
distancias desde el robot hasta los obstáculos. Las Cámaras de Profundidad mezclan ambas
tecnologías para expandir su información a información tridimensional. Light Detection and
Ranging (LiDAR) proporciona información sobre la distancia al sensor, pero amplía su rango a
planos y tres dimensiones así como mejora la precisión. Por lo tanto, los robots móviles usan
esos sensores para escanear el escenario mientras se mueven. Si el robot ya tiene un mapa, los
sensores miden y el robot encuentra características que corresponden a características en dicho
mapa para localizarse. La humanidad ha utilizado los mapas como una forma especializada
de representar el medio ambiente durante más de 5000 años, convirtiéndose en una pieza de
información importante en los usos básicos diarios de hoy en día. Los mapas se utilizan para
navegar de un lugar a otro, localizar algo dentro de algunos límites o como una forma de documentación
de características esenciales. Entonces, naturalmente, una forma intuitiva de hacer
un robot móvil autónomo es implementar mapas de información geométrica para representar el
entorno. Por otro lado, si el robot no tiene un mapa previo, deberá construirlo mientras se desplaza.
El robot junta la información del sensor de distancias con la información del sensor del
odómetro para lograr esta tarea de crear un mapa. Sin embargo, los sensores tienen sus propios
defectos debido a la precisión, la calibración o la exactitud. Además, mover un robot tiene sus
limitaciones físicas y fallas que pueden ocurrir aleatoriamente, como el desvío de las ruedas o
una mala calibración mecánica que puede hacer que los contadores de desplazamiento fallen en
la medición, lo que provoca una desalineación durante la construcción del mapa. A mediados
de los años 90 se presentó una técnica novedosa para resolver este problema y superar la incertidumbre
de los sensores mientras el robot construye el mapa, el algoritmo de localización y
mapeo simultáneos (SLAM). Su objetivo es construir un mapa mientras se corrige la posición
del robot en base a la información de dos o más escaneos consecutivos emparejados o encontrar
el vector de correspondencia entre ellos. Este algoritmo ha sido ampliamente estudiado y
desarrollado durante casi 25 años. No obstante, es muy relevante en innovaciones, modificaciones
y adaptaciones debido a los avances en sensores y la complejidad de los escenarios en las
aplicaciones emergentes de robótica móvil. El algoritmo de correspondencia de escaneo tiene
como objetivo encontrar un vector de pose que represente la transformación o el movimiento
entre dos observaciones del robot al encontrar el mejor valor posible después de resolver una
ecuación que represente una buena transformación. Significa buscar una solución de forma óptima. Por lo general, este proceso de optimización se ha resuelto utilizando algoritmos de
optimización clásicos, como el algoritmo de Newton o la resolución de formulaciones de gradientes
y segundas derivadas, pero esto requiere una conjetura inicial o un estado inicial que
ayude al algoritmo a apuntar en la dirección correcta, la mayoría de las veces obteniendo esta
información de los sensores odometricos o sensores de inercia, aunque no siempre es posible
tener o confiar en esta información, ya que algunos escenarios son complejos y los sensores
fallan. Para resolver este problema, esta investigación presenta los usos de los algoritmos de
optimización evolutiva, aquellos con una definición meta-heurística basada en la evolución iterativa
que imita los procesos de optimización que no necesitan información previa para buscar
dentro de un rango limitado el grupo de soluciones que resuelve una función de calidad. El
objetivo principal de esta tesis es estudiar, desarrollar y probar los usos de algoritmos de optimización
evolutiva en localización y mapeado simultáneos para robots móviles en escenarios de
seis grados de libertad utilizando información de sensores LiDAR. Este trabajo introduce varios
algoritmos evolutivos que resuelven la correspondencia entre medidas, soluciona el problema
de SLAM, implementa una fusion de funciones objetivos y demuestra sus ventajas con pruebas
en escenarios reales tanto en interiores, exteriores como mapeado de escenarios subterraneos.Programa de Doctorado en Ingeniería Eléctrica, Electrónica y Automática por la Universidad Carlos III de MadridPresidente: Gerardo Fernández López.- Secretario: María Dolores Blanco Rojas.- Vocal: David Álvarez Sánche
- …