PQ-learning: aprendizaje por refuerzo multiobjetivo

Mandow-Andaluz, Lorenzo; Perez-de-la-Cruz-Molina, Jose Luis; Ruiz-Montiel, Manuela

research

PQ-learning: aprendizaje por refuerzo multiobjetivo

Authors: Lorenzo Mandow-Andaluz
Jose Luis Perez-de-la-Cruz-Molina
Manuela Ruiz-Montiel
Publication date: 1 January 2013
Publisher

Abstract

En este artí culo describimos y analizamos PQ-learning, un algoritmo para problemas de aprendizaje por refuerzo multiobjetivo. El algoritmo es una extensi ón de Q-learning, un algoritmo para problemas de aprendizaje por refuerzo escalares. Al contrario que otros algoritmos, PQ-learning no requiere informaci ón de preferencias sobre los objetivos, es aplicable a problemas con fronteras de Pareto no convexas y permite recuperar a partir de los Q-valores las secuencias de acci ón correspondientes a diferentes polí ticas Pareto- óptimas. PQ-learning ha sido aplicado a dos problemas pertenecientes a un banco de pruebas propuesto en la literatura de aprendizaje por refuerzo multiobjetivoEste trabajo está parcialmente fi nanciado por el Plan Nacional de I+D+I, proyecto TIN2009-14179 (Gobierno de España, Ministerio de Ciencia e Innovaci ón) y por la Universidad de M álaga, Campus de Excelencia Internacional Andaluc ía Tech. Manuela Ruiz-Montiel disfruta de una beca FPU (Gobierno de España, Ministerio de Educación

Similar works

Full text

Open in the Core reader

Download PDF

Available Versions

Repositorio Institucional Universidad de Málaga

oai:riuma.uma.es:10630/5908

Last time updated on 17/11/2016

Repositorio Institucional de la Universidad de Málaga

oai:riuma.uma.es:10630/5908

Last time updated on 03/06/2020