Einsatz eines maschinellen Lernverfahrens in einem Othello-Spielprogramm

Abstract

Diese Arbeit untersucht den Einsatz eines maschinellen Lernverfahrens zum Lernen einer Bewertungsfunktion für Othello-Spielpositionen, wobei kein strategisches Wissen benutzt wird. Das Lernverfahren verwendet wie Samuels Dame-Programm eine temporale Differenz in einem Selfplay-Modus, um beim Spielen mehrmals eine Bewertungsfunktion Pz zu einer neuen Bewertungsfunktion Pz+1 zu ändern, indem es die Gewichte anpasst. In mehreren Versuchsgruppen werden gleichartige Versuche gestartet, die sich in ihren zufälligen Startgewichten unterscheiden. Für die Bewertung wird untersucht, ob das Lernverfahren in gleichartigen Versuchen ähnliche Bewertungsfunktionen produziert und ob die gelernten Bewertungsfunktionen als spielstark zu bewerten sind.This Paper is concerned with a temporal-difference method to learn an evaluation function that can be used in a MinMax search in a game called Othello. Like in Samuels checker program a temporal difference is used to learn the evaluation function by changing its weights. The described approach does not use any strategic knowledge of Othello. Main Part of the investigation concerns the question of similarity of learning results in different groups of similar experiments starting with random weights

    Similar works

    Full text

    thumbnail-image

    Available Versions