Using Inverse Reinforcement Learning Methods in Intelligent Agent Development

Salimbajevs, Askars

Using Inverse Reinforcement Learning Methods in Intelligent Agent Development

Authors: Askars Salimbajevs
Publication date: 1 January 2004
Publisher: Latvijas Universitāte

Abstract

Dota maģistra darba mērķis ir izpētīt inversās pastiprinājuma vadītas apmācīšanas metodi no intelektuālo aģentu izstrādes perspektīvas. Darba ietvaros tika izpētīti parastas pastiprinājuma vadītas apmācības teorētiskie pamati, inversās pastiprinājuma vadītas apmācības formulējums, motivācija, iespējamie risinājumi un konkrēti algoritmi. Iegūtās zināšanas tiek izmantotas darba praktiskajā daļā, kur autors izstrādājis un apmācījis intelektuālo aģentu, kas prot spēlēt Mario datorspēli. Konkrētāk, autors vairākas reizes nodemonstrēja aģentam, kā spēlēt Mario, un balstoties uz šīm demonstrācijām, aģents iemācījās to izpildīt. Mario aģenta izstrādes gaitā tika identificētas dažādas problēmas un grūtības, kuras parasti rodas, praktiski pielietojot inversās pastiprinājuma vadītas apmācīšanas algoritmus. Darba otra daļa ir veltīta autora piedāvātiem klasisko inversās pastiprinājuma vadītas apmācīšanas algoritmu uzlabojumiem, kas palīdz atrisināt vienu no šīm problēmām.The aim of this work is to study inverse reinforcement learning and apply it to develop and train intelligent agent for Mario game. In the course of this work author studies reinforcement learning theoretic basics, inverse reinforcement learning problem formulation, motivation, possible solutions and few concrete algorithms. Obtained knowledge is used in practical part of this work, where author developed and trained intelligent agent which can play Mario game. Concretely, author recorded several demonstrations of how to play Mario game, and then this demonstrations where used by agent to “understand” the task and learn how to do it. In the course of Mario agent development several difficulties and problems were identified, which usually arise when using inverse reinforcement learning algorithms in practice. In the second part of this work author offers improvements to classic inverse reinforcement learning algorithm which helps to solve one of these problems