3 research outputs found
Programmation dynamique avec approximation de la fonction valeur
L'utilisation d'outils pour l'approximation de la fonction de valeur est essentielle pour pouvoir traiter des problĂšmes de prise de dĂ©cisions sĂ©quentielles de grande taille. Les mĂ©thodes de programmation dynamique (PD) et d'apprentissage par renforcement (A/R) introduites aux chapitres 1 et 2 supposent que la fonction de valeur peut ĂȘtre reprĂ©sentĂ©e (mĂ©morisĂ©e) en attribuant une valeur Ă chaque Ă©tat (dont le nombre est supposĂ© fini), par exemple sous la forme d'un tableau. Ces mĂ©thodes de rĂ©solution, dites exactes, permettent de dĂ©terminer la solution optimale du problĂšme considĂ©rĂ© (ou tout au moins de converger vers cette solution optimale). Cependant, elles ne s'appliquent souvent qu'Ă des problĂšmes jouets, car pour la plupart des applications intĂ©ressantes, le nombre d'Ă©tats possibles est si grand (voire infini dans le cas d'espaces continus) qu'une reprĂ©sentation exacte de la fonction ne peut ĂȘtre parfaitement mĂ©morisĂ©e. Il devient alors nĂ©cessaire de reprĂ©senter la fonction de valeur, de maniĂšre approchĂ©e, Ă l'aide d'un nombre modĂ©rĂ© de coefficients, et de redĂ©finir et analyser des mĂ©thodes de rĂ©solution, dites approchĂ©es pour la PD et l'A/R, afin de prendre en compte les consĂ©quences de l'utilisation de telles approximations dans les problĂšmes de prise de dĂ©cisions sĂ©quentielles
Conférence Nationale d'Intelligence Artificielle Année 2020
National audienc
Processus décisionnels de Markov possibilités à observabilité mixte
International audienceLes processus dĂ©cisionnels de Markov partiellement observables possibilistes qualita- tifs (Ï-PDMPO) constituent une alternative aux PDMPO classiques (probabilistes) : ils sont utilisĂ©s dans les situations oĂč lâĂ©tat de croyance initial de lâagent et les probabilitĂ©s dĂ©finissant le problĂšme sont imprĂ©cises du fait dâun manque de connaissance ou de donnĂ©es. Cependant, tout comme les PDMPO, le calcul dâune stratĂ©gie optimale demande un grand nombre dâopĂ©- rations : le nombre dâĂ©tats de croyance grandit exponentiellement avec le nombre dâĂ©tats du systĂšme. Dans cet article, une version possibiliste des processus dĂ©cisisionnels de Markov Ă observabilitĂ© mixte est prĂ©sentĂ©e pour simplifier ce calcul : la complexitĂ© de rĂ©solution dâun Ï-PDMPO, dont certaines variables dâĂ©tat sont complĂštement observables, peut ĂȘtre consi- dĂ©rablement rĂ©duite. Un algorithme dâitĂ©ration sur les revenus optimaux pour cette nouvelle formulation est ensuite proposĂ© pour le cas de lâhorizon infini, et lâoptimalitĂ© de la stratĂ©gie calculĂ©e pour un critĂšre donnĂ© est dĂ©montrĂ©e, lorsquâil existe une action "rester" dans certains Ă©tats buts. Les expĂ©rimentations montrent finalement que ce modĂšle possibiliste est plus perfor- mant que le modĂšle PDMPO probabiliste, utilisĂ© classiquement en robotique, pour un problĂšme de reconnaissance de cible, dans certaines situations oĂč les capacitĂ©s dâobservation de lâagent ne sont pas prĂ©cises