Der Einfluss von Explorationsstrategien auf die Leistungsfähigkeit von Q-Learning

Abstract

Diese Arbeit untersucht den Einfluss verschiedener Explorationsstrategien auf die Leistung eines Q-Learning-Algorithmus bei der Lösung von Labyrinth-Aufgaben. Obwohl Q-Learning eine weit verbreitete Methode des Reinforcement Learnings für diskrete Umgebungen ist, kann die Art und Weise, wie ein Agent seine Umgebung erkundet, die Lern­geschwindigkeit, Stabilität und Qualität der finalen Strategie maßgeblich beeinflussen. Verglichen werden drei Explorationsstrategien: Epsilon-Greedy, Decaying Epsilon und Softmax-Exploration. Jede dieser Strategien wird in einem modular aufgebauten Q-Learning-Agenten implementiert und sowohl in statischen als auch dynamischen Labyrinth-Umgebungen getestet. Um eine faire Vergleichbarkeit sicherzustellen, werden für alle Strategien dieselben Algorithmus- und Umgebungs­konfigurationen verwendet. Die Experimente konzentrieren sich auf zentrale Leistungskennzahlen wie Lernzeit (Anzahl der Episoden bis zur Konvergenz), Pfadlänge (Effizienz der Lösung) und Rechenzeit. Die Ergebnisse werden analysiert und visualisiert, um zu zeigen, wie sich jede Strategie an unterschiedliche Komplexitäts- und Änderungsgrade der Umgebung anpasst. Ziel der Arbeit ist es, praktische Erkenntnisse darüber zu liefern, welche Strategie unter welchen Bedingungen am besten funktioniert und wie sich Explorationsdynamiken auf die Lernergebnisse in Labyrinth-Umgebungen auswirken.This thesis investigates the impact of different exploration strategies on the performance of a Q-learning algorithm in maze-solving tasks. While Q-learning is a widely used reinforcement learning method for discrete environments, the way in which an agent explores the environ- ment can significantly influence its learning speed, stability, and final policy quality. Three exploration strategies are compared: Epsilon-Greedy, Decaying Epsilon, and Softmax Explo- ration. Each strategy is implemented in a modular Q-learning agent and evaluated under both static and dynamic maze conditions. To ensure a fair comparison, the same Q-learning algorithm and environment configurations are used for all strategies. The experiments focus on key performance metrics such as learning time (episodes to convergence), path length (solution efficiency), and computation time. The results are analyzed and visualized to show how each strategy adapts to different levels of environmental complexity and change. The findings aim to provide practical insights into which strategy performs best under specific conditions, and how exploration dynamics affect reinforcement learning outcomes in maze environments

Similar works

Full text

thumbnail-image

Publikationsserver der Fachhochschule (FH) Campus Wien

redirect
Last time updated on 09/08/2025

Having an issue?

Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.