En este artí culo describimos y analizamos PQ-learning, un
algoritmo para problemas de aprendizaje por refuerzo multiobjetivo. El
algoritmo es una extensi ón de Q-learning, un algoritmo para problemas
de aprendizaje por refuerzo escalares. Al contrario que otros algoritmos,
PQ-learning no requiere informaci ón de preferencias sobre los objetivos,
es aplicable a problemas con fronteras de Pareto no convexas y permite
recuperar a partir de los Q-valores las secuencias de acci ón correspondientes a diferentes polí ticas Pareto- óptimas. PQ-learning ha sido aplicado
a dos problemas pertenecientes a un banco de pruebas propuesto en la
literatura de aprendizaje por refuerzo multiobjetivoEste trabajo está parcialmente fi nanciado por el Plan Nacional de I+D+I, proyecto TIN2009-14179 (Gobierno de España, Ministerio de
Ciencia e Innovaci ón) y por la Universidad de M álaga, Campus de Excelencia
Internacional Andaluc ía Tech. Manuela Ruiz-Montiel disfruta de una beca FPU
(Gobierno de España, Ministerio de Educación