Representación y aprendizaje de procesos de decisión de markov cualitativas

Abstract

La planificación automática en problemas del mundo real se ha convertido en una disciplina de interás para la comunidad científica ya que permite establecer computacionalmente rumbos de acción en casos que, por la complejidad del problema, un humano no puede abordar adecuadamente. En particular, la planificación con incertidumbre permite generar estrategias de control en ambientes inciertos con metas multivaluadas, ponderando el costo de generación de un plan contra la ganancia de utilidad en el tiempo por ejecución del mismo (planes �utiles). Gracias a los recientes adelantos tácnológicos en procesamiento de información y al perfeccionamiento de algoritmos en materia de teoría de decisiones y razonamiento con incertidumbre, han resurgido las tácnicas basadas en los Procesos de Decisión de Markov (MDPs por sus siglas en inglás) como marco estándar para la planificación con incertidumbre. Una limitación de los MDPs es que ante problemas altamente dimensionales, con grandes espacios de acciones, y la existencia de variables continuas, se producen espacios de solución no manejables con algoritmos estándar. En este trabajo se propone una tácnica de representación de MDPs abstractos para simplificar espacios de estados muy grandes, que puede resolverse con mátodos estándar de programación dinámica. Dado que esta tácnica esta basada en restricciones cualitativas impuestas por características (ó factores) propias del mismo problema de decisión, la hemos llamado MDPs cualitativos. Aun cuando el mátodo de representación resulta novedoso y fácil de implementar, la especificación manual del modelo de decisión abstracto y sus parámetros puede volverse impráctica. En este trabajo, tal modelo se aproxima usando algoritmos de aprendizaje autómatico donde, a partir de un conjunto de datos de muestreo, se aprende una abstracción inicial del espacio de estados, y un modelo de transición sobre esta abstracción. La solución de este MDP abstracto inicial es una política de acción que en general es satisfactoria, sin embargo, para los casos donde ásta resulte insuficiente, se puede aplicar una segunda fase donde la solución es detallada o refinada. La calidad del mátodo se demuestra empíricamente usando problemas simples de planificación de movimiento en robótica, y un problema de control de procesos industriales con diferentes dimensiones y de los espacios de estados y de acciones. Los resultados muestran buenas soluciones con ahorros en el tama�no del espacio de estados, y reducciones en el tiempo de aprendizaje e inferencia al compararse con discretizaciones uniformes finas

    Similar works