Diese Arbeit untersucht den Einfluss verschiedener Explorationsstrategien auf die Leistung eines Q-Learning-Algorithmus bei der Lösung von Labyrinth-Aufgaben. Obwohl Q-Learning eine weit verbreitete Methode des Reinforcement Learnings für diskrete Umgebungen ist, kann die Art und Weise, wie ein Agent seine Umgebung erkundet, die Lerngeschwindigkeit, Stabilität und Qualität der finalen Strategie maßgeblich beeinflussen.
Verglichen werden drei Explorationsstrategien: Epsilon-Greedy, Decaying Epsilon und Softmax-Exploration. Jede dieser Strategien wird in einem modular aufgebauten Q-Learning-Agenten implementiert und sowohl in statischen als auch dynamischen Labyrinth-Umgebungen getestet.
Um eine faire Vergleichbarkeit sicherzustellen, werden für alle Strategien dieselben Algorithmus- und Umgebungskonfigurationen verwendet. Die Experimente konzentrieren sich auf zentrale Leistungskennzahlen wie Lernzeit (Anzahl der Episoden bis zur Konvergenz), Pfadlänge (Effizienz der Lösung) und Rechenzeit. Die Ergebnisse werden analysiert und visualisiert, um zu zeigen, wie sich jede Strategie an unterschiedliche Komplexitäts- und Änderungsgrade der Umgebung anpasst.
Ziel der Arbeit ist es, praktische Erkenntnisse darüber zu liefern, welche Strategie unter welchen Bedingungen am besten funktioniert und wie sich Explorationsdynamiken auf die Lernergebnisse in Labyrinth-Umgebungen auswirken.This thesis investigates the impact of different exploration strategies on the performance of a
Q-learning algorithm in maze-solving tasks. While Q-learning is a widely used reinforcement
learning method for discrete environments, the way in which an agent explores the environ-
ment can significantly influence its learning speed, stability, and final policy quality. Three
exploration strategies are compared: Epsilon-Greedy, Decaying Epsilon, and Softmax Explo-
ration. Each strategy is implemented in a modular Q-learning agent and evaluated under
both static and dynamic maze conditions.
To ensure a fair comparison, the same Q-learning algorithm and environment configurations are used for all strategies. The experiments focus on key performance metrics such as learning
time (episodes to convergence), path length (solution efficiency), and computation time. The
results are analyzed and visualized to show how each strategy adapts to different levels of
environmental complexity and change. The findings aim to provide practical insights into
which strategy performs best under specific conditions, and how exploration dynamics affect
reinforcement learning outcomes in maze environments
Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.