research

PQ-learning: aprendizaje por refuerzo multiobjetivo

Abstract

En este artí culo describimos y analizamos PQ-learning, un algoritmo para problemas de aprendizaje por refuerzo multiobjetivo. El algoritmo es una extensi ón de Q-learning, un algoritmo para problemas de aprendizaje por refuerzo escalares. Al contrario que otros algoritmos, PQ-learning no requiere informaci ón de preferencias sobre los objetivos, es aplicable a problemas con fronteras de Pareto no convexas y permite recuperar a partir de los Q-valores las secuencias de acci ón correspondientes a diferentes polí ticas Pareto- óptimas. PQ-learning ha sido aplicado a dos problemas pertenecientes a un banco de pruebas propuesto en la literatura de aprendizaje por refuerzo multiobjetivoEste trabajo está parcialmente fi nanciado por el Plan Nacional de I+D+I, proyecto TIN2009-14179 (Gobierno de España, Ministerio de Ciencia e Innovaci ón) y por la Universidad de M álaga, Campus de Excelencia Internacional Andaluc ía Tech. Manuela Ruiz-Montiel disfruta de una beca FPU (Gobierno de España, Ministerio de Educación

    Similar works