104 research outputs found

    Hybrid Monte Carlo tree search based multi-objective scheduling

    Get PDF
    As markets demand targeted products for highly differentiated use cases, the number of variants in production increases, whilst the volume per variant decreases. Different product variants result in differences in work content on workstation level which cause takt time losses and result in a poor utilization. In this context, matrix-structured production systems with neither temporal nor spacial linkage emerged to reduce the effects of different work content on the entire production system. However, matrix-structured production systems require far more complex production control. To that end, this paper presents a scheduling approach. The proposed scheduling system considers variable process sequences and their allocation to different workstations in order to optimize scheduling objectives. This contribution presents a Monte Carlo tree search based optimizer combined with local search as post optimizer to derive schedules in a short time span to enabling reactive scheduling. The application of the scheduler to a benchmark problem and an industrial scheduling problem demonstrates the quality of the results and illustrates how the scheduler reassigns the work content dynamically

    Sheet-Metal Production Scheduling Using AlphaGo Zero

    Get PDF
    This work investigates the applicability of a reinforcement learning (RL) approach, specifically AlphaGo Zero (AZ), for optimizing sheet-metal (SM) production schedules with respect to tardiness and material waste. SM production scheduling is a complex job shop scheduling problem (JSSP) with dynamic operation times, routing flexibility and supplementary constraints. SM production systems are capable of processing a large number of highly heterogeneous jobs simultaneously. While very large relative to the JSSP literature, the SM-JSSP instances investigated in this work are small relative to the SM production reality. Given the high dimensionality of the SM-JSSP, computation of an optimal schedule is not tractable. Simple heuristic solutions often deliver bad results. We use AZ to selectively search the solution space. To this end, a single player AZ version is pretrained using supervised learning on schedules generated by a heuristic, fine-tuned using RL and evaluated through comparison with a heuristic baseline and Monte Carlo Tree Search. It will be shown that AZ outperforms the other approaches. The work’s scientific contribution is twofold: On the one hand, a novel scheduling problem is formalized such that it can be tackled using RL approaches. On the other hand, it is proved that AZ can be successfully modified to provide a solution for the problem at hand, whereby a new line of research into real-world applications of AZ is opened

    Distributed Planning for Self-Organizing Production Systems

    Get PDF
    Für automatisierte Produktionsanlagen gibt es einen fundamentalen Tradeoff zwischen Effizienz und Flexibilität. In den meisten Fällen sind die Abläufe nicht nur durch den physischen Aufbau der Produktionsanlage, sondern auch durch die spezielle zugeschnittene Programmierung der Anlagensteuerung fest vorgegeben. Änderungen müssen aufwändig in einer Vielzahl von Systemen nachgezogen werden. Das macht die Herstellung kleiner Stückzahlen unrentabel. In dieser Dissertation wird ein Ansatz entwickelt, um eine automatische Anpassung des Verhaltens von Produktionsanlagen an wechselnde Aufträge und Rahmenbedingungen zu erreichen. Dabei kommt das Prinzip der Selbstorganisation durch verteilte Planung zum Einsatz. Die aufeinander aufbauenden Ergebnisse der Dissertation sind wie folgt: 1. Es wird ein Modell von Produktionsanlagen entwickelt, dass nahtlos von der detaillierten Betrachtung physikalischer Produktionsprozesse bis hin zu Lieferbeziehungen zwischen Unternehmen skaliert. Im Vergleich zu existierenden Modellen von Produktionsanlagen werden weniger limitierende Annahmen gestellt. In diesem Sinne ist der Modellierungsansatz ein Kandidat für eine häufig geforderte "Theorie der Produktion". 2. Für die so modellierten Szenarien wird ein Algorithmus zur Optimierung der nebenläufigen Abläufe entwickelt. Der Algorithmus verbindet Techniken für die kombinatorische und die kontinuierliche Optimierung: Je nach Detailgrad und Ausgestaltung des modellierten Szenarios kann der identische Algorithmus kombinatorische Fertigungsfeinplanung (Scheduling) vornehmen, weltweite Lieferbeziehungen unter Einbezug von Unsicherheiten und Risiko optimieren und physikalische Prozesse prädiktiv regeln. Dafür werden Techniken der Monte-Carlo Baumsuche (die auch bei Deepminds Alpha Go zum Einsatz kommen) weiterentwickelt. Durch Ausnutzung zusätzlicher Struktur in den Modellen skaliert der Ansatz auch auf große Szenarien. 3. Der Planungsalgorithmus wird auf die verteilte Optimierung durch unabhängige Agenten übertragen. Dafür wird die sogenannte "Nutzen-Propagation" als Koordinations-Mechanismus entwickelt. Diese ist von der Belief-Propagation zur Inferenz in Probabilistischen Graphischen Modellen inspiriert. Jeder teilnehmende Agent hat einen lokalen Handlungsraum, in dem er den Systemzustand beobachten und handelnd eingreifen kann. Die Agenten sind an der Maximierung der Gesamtwohlfahrt über alle Agenten hinweg interessiert. Die dafür notwendige Kooperation entsteht über den Austausch von Nachrichten zwischen benachbarten Agenten. Die Nachrichten beschreiben den erwarteten Nutzen für ein angenommenes Verhalten im Handlungsraum beider Agenten. 4. Es wird eine Beschreibung der wiederverwendbaren Fähigkeiten von Maschinen und Anlagen auf Basis formaler Beschreibungslogiken entwickelt. Ausgehend von den beschriebenen Fähigkeiten, sowie der vorliegenden Aufträge mit ihren notwendigen Produktionsschritten, werden ausführbare Aktionen abgeleitet. Die ausführbaren Aktionen, mit wohldefinierten Vorbedingungen und Effekten, kapseln benötigte Parametrierungen, programmierte Abläufe und die Synchronisation von Maschinen zur Laufzeit. Die Ergebnisse zusammenfassend werden Grundlagen für flexible automatisierte Produktionssysteme geschaffen -- in einer Werkshalle, aber auch über Standorte und Organisationen verteilt -- welche die ihnen innewohnenden Freiheitsgrade durch Planung zur Laufzeit und agentenbasierte Koordination gezielt einsetzen können. Der Bezug zur Praxis wird durch Anwendungsbeispiele hergestellt. Die Machbarkeit des Ansatzes wurde mit realen Maschinen im Rahmen des EU-Projekts SkillPro und in einer Simulationsumgebung mit weiteren Szenarien demonstriert

    Vorausschauende und reaktive Mehrzieloptimierung fĂĽr die Produktionssteuerung einer Matrixproduktion

    Get PDF
    Ein immer vielfältigeres Produktionsprogramm mit unsicheren Stückzahlen macht es schwierig, Produktionssysteme wirtschaftlich zu betreiben. Verursacht die Produktindividualisierung unterschiedliche Bearbeitungszeiten an den Produktionsstationen, entstehen Taktzeitverluste. Schwankungen in den Anteilen der Produktvarianten können zudem zu dynamischen Engpässen führen. Das Konzept der Matrixproduktion verfolgt eine Flexibilisierung der Produktionsstruktur durch Auflösung der starren Verkettung, der Taktzeitbindung sowie durch den Einsatz redundanter Mehrzweckstationen. Diese Maßnahmen erlauben es der Produktionssteuerung, die Reihenfolge der Arbeitsvorgänge innerhalb der Grenzen des Vorranggraphs zu variieren und die Route jedes Auftrags anzupassen. Eine reaktive Mehrzielsteuerung ist erforderlich, um diese Freiheitsgrade zu nutzen und die unterschiedlichen Zielgrößen der Produktionssysteme zu erfüllen. Durch die Verwendung von Domänenwissen bei der Optimierung kann die Effizienz für spezifische Problem gesteigert werden. Aufgrund der Vielfalt der Produktionssysteme und Zielgrößen sollte sich die Produktionssteuerung jedoch selbstständig an den jeweiligen Anwendungsfall und die Zielgrößen anpassen können. Da die Dauern für Bearbeitungs-, Transport- und Rüstzeiten wichtige Eingangsgrößen für die Produktionssteuerung sind, wird eine Methode zur Ermittlung realistischer Werte benötigt. Aufgrund der Komplexität der Steuerungsentscheidung sind Heuristiken am besten geeignet. Insbesondere die Monte Carlo Tree Search (MCTS) als iteratives Suchbaumverfahren hat gute Eigenschaften für den Einsatz als reaktive Produktionssteuerung. Bisher fehlten jedoch Ansätze, die den Anforderungen an die Steuerung einer Matrixproduktion gerecht werden. In dieser Arbeit wird eine reaktive Mehrzielsteuerung auf Basis von MCTS für die Produktionssteuerung einer Matrixproduktion unter Berücksichtigung von Rüst- und Transportvorgängen entwickelt. Zusätzlich wird eine auf lokaler Suche basierende Post-Optimierung in den MCTS Ablauf integriert. Um schnell eine hohe Lösungsqualität für unterschiedliche Zielsetzungen und Produktionssysteme zu erreichen, werden zwei Methoden zur selbstständigen Anpassung der Produktionssteuerung entwickelt. Um die Genauigkeit der in der Produktionssteuerung verwendeten Dauern zu gewährleisten, wird eine Methode zur Ableitung und Aktualisierung der zugrunde liegenden Verteilungen vorgestellt. Die detaillierten Auswertungen anhand verschiedener Anwendungsfälle zeigen, dass die Produktionssteuerung in der Lage ist, verschiedene Ziele erfolgreich zu optimieren. Die Methoden zur selbstständigen Anpassung führen zudem zu einem schnelleren Anstieg der Lösungsgüte. Der Vergleich mit optimalen Referenzlösungen und mit Benchmark-Problemen aus der Literatur belegt ebenfalls die hohe Lösungsgüte. Die Anwendung auf ein reales Praxisbeispiel demonstriert das Verhalten der Produktionssteuerung bei Ausfällen und Abweichungen. Diese Arbeit untersucht detailliert das Verhalten der Produktionssteuerung und den Einfluss der entwickelten Methoden auf die Erreichbarkeit der unterschiedlichen Zielgrößen, den Anstieg der Lösungsgüte und die erreichte absolute Lösungsgüte

    Entwicklung einer Methode zum Einsatz von Reinforcement Learning fĂĽr die dynamische Fertigungsdurchlaufsteuerung

    Get PDF
    Ziel dieser Arbeit ist es, eine Methode zu entwickeln, mit der die Matrixproduktion im Falle einer Störung umgeplant werden kann. Zu diesem Zweck werden verschiedene Methoden der künstlichen Intelligenz in neuartiger Weise kombiniert. Die entwickelte Methode wird anhand eines theoretischen und einem realen Terminierungsfalles validiert

    Dynamic multi-objective optimisation using deep reinforcement learning::benchmark, algorithm and an application to identify vulnerable zones based on water quality

    Get PDF
    Dynamic multi-objective optimisation problem (DMOP) has brought a great challenge to the reinforcement learning (RL) research area due to its dynamic nature such as objective functions, constraints and problem parameters that may change over time. This study aims to identify the lacking in the existing benchmarks for multi-objective optimisation for the dynamic environment in the RL settings. Hence, a dynamic multi-objective testbed has been created which is a modified version of the conventional deep-sea treasure (DST) hunt testbed. This modified testbed fulfils the changing aspects of the dynamic environment in terms of the characteristics where the changes occur based on time. To the authors’ knowledge, this is the first dynamic multi-objective testbed for RL research, especially for deep reinforcement learning. In addition to that, a generic algorithm is proposed to solve the multi-objective optimisation problem in a dynamic constrained environment that maintains equilibrium by mapping different objectives simultaneously to provide the most compromised solution that closed to the true Pareto front (PF). As a proof of concept, the developed algorithm has been implemented to build an expert system for a real-world scenario using Markov decision process to identify the vulnerable zones based on water quality resilience in São Paulo, Brazil. The outcome of the implementation reveals that the proposed parity-Q deep Q network (PQDQN) algorithm is an efficient way to optimise the decision in a dynamic environment. Moreover, the result shows PQDQN algorithm performs better compared to the other state-of-the-art solutions both in the simulated and the real-world scenario

    Beyond Games: A Systematic Review of Neural Monte Carlo Tree Search Applications

    Full text link
    The advent of AlphaGo and its successors marked the beginning of a new paradigm in playing games using artificial intelligence. This was achieved by combining Monte Carlo tree search, a planning procedure, and deep learning. While the impact on the domain of games has been undeniable, it is less clear how useful similar approaches are in applications beyond games and how they need to be adapted from the original methodology. We review 129 peer-reviewed articles detailing the application of neural Monte Carlo tree search methods in domains other than games. Our goal is to systematically assess how such methods are structured in practice and if their success can be extended to other domains. We find applications in a variety of domains, many distinct ways of guiding the tree search using learned policy and value functions, and various training methods. Our review maps the current landscape of algorithms in the family of neural monte carlo tree search as they are applied to practical problems, which is a first step towards a more principled way of designing such algorithms for specific problems and their requirements.Comment: 38 pages, 14 figures, submitted to Springer Applied Intelligenc

    DeepACO: Neural-enhanced Ant Systems for Combinatorial Optimization

    Full text link
    Ant Colony Optimization (ACO) is a meta-heuristic algorithm that has been successfully applied to various Combinatorial Optimization Problems (COPs). Traditionally, customizing ACO for a specific problem requires the expert design of knowledge-driven heuristics. In this paper, we propose DeepACO, a generic framework that leverages deep reinforcement learning to automate heuristic designs. DeepACO serves to strengthen the heuristic measures of existing ACO algorithms and dispense with laborious manual design in future ACO applications. As a neural-enhanced meta-heuristic, DeepACO consistently outperforms its ACO counterparts on eight COPs using a single neural model and a single set of hyperparameters. As a Neural Combinatorial Optimization method, DeepACO performs better than or on par with problem-specific methods on canonical routing problems. Our code is publicly available at https://github.com/henry-yeh/DeepACO.Comment: Accepted at NeurIPS 202
    • …
    corecore