3 research outputs found

    Programmation dynamique avec approximation de la fonction valeur

    Get PDF
    L'utilisation d'outils pour l'approximation de la fonction de valeur est essentielle pour pouvoir traiter des problĂšmes de prise de dĂ©cisions sĂ©quentielles de grande taille. Les mĂ©thodes de programmation dynamique (PD) et d'apprentissage par renforcement (A/R) introduites aux chapitres 1 et 2 supposent que la fonction de valeur peut ĂȘtre reprĂ©sentĂ©e (mĂ©morisĂ©e) en attribuant une valeur Ă  chaque Ă©tat (dont le nombre est supposĂ© fini), par exemple sous la forme d'un tableau. Ces mĂ©thodes de rĂ©solution, dites exactes, permettent de dĂ©terminer la solution optimale du problĂšme considĂ©rĂ© (ou tout au moins de converger vers cette solution optimale). Cependant, elles ne s'appliquent souvent qu'Ă  des problĂšmes jouets, car pour la plupart des applications intĂ©ressantes, le nombre d'Ă©tats possibles est si grand (voire infini dans le cas d'espaces continus) qu'une reprĂ©sentation exacte de la fonction ne peut ĂȘtre parfaitement mĂ©morisĂ©e. Il devient alors nĂ©cessaire de reprĂ©senter la fonction de valeur, de maniĂšre approchĂ©e, Ă  l'aide d'un nombre modĂ©rĂ© de coefficients, et de redĂ©finir et analyser des mĂ©thodes de rĂ©solution, dites approchĂ©es pour la PD et l'A/R, afin de prendre en compte les consĂ©quences de l'utilisation de telles approximations dans les problĂšmes de prise de dĂ©cisions sĂ©quentielles

    Processus décisionnels de Markov possibilités à observabilité mixte

    Get PDF
    International audienceLes processus dĂ©cisionnels de Markov partiellement observables possibilistes qualita- tifs (π-PDMPO) constituent une alternative aux PDMPO classiques (probabilistes) : ils sont utilisĂ©s dans les situations oĂč l’état de croyance initial de l’agent et les probabilitĂ©s dĂ©finissant le problĂšme sont imprĂ©cises du fait d’un manque de connaissance ou de donnĂ©es. Cependant, tout comme les PDMPO, le calcul d’une stratĂ©gie optimale demande un grand nombre d’opĂ©- rations : le nombre d’états de croyance grandit exponentiellement avec le nombre d’états du systĂšme. Dans cet article, une version possibiliste des processus dĂ©cisisionnels de Markov Ă  observabilitĂ© mixte est prĂ©sentĂ©e pour simplifier ce calcul : la complexitĂ© de rĂ©solution d’un π-PDMPO, dont certaines variables d’état sont complĂštement observables, peut ĂȘtre consi- dĂ©rablement rĂ©duite. Un algorithme d’itĂ©ration sur les revenus optimaux pour cette nouvelle formulation est ensuite proposĂ© pour le cas de l’horizon infini, et l’optimalitĂ© de la stratĂ©gie calculĂ©e pour un critĂšre donnĂ© est dĂ©montrĂ©e, lorsqu’il existe une action "rester" dans certains Ă©tats buts. Les expĂ©rimentations montrent finalement que ce modĂšle possibiliste est plus perfor- mant que le modĂšle PDMPO probabiliste, utilisĂ© classiquement en robotique, pour un problĂšme de reconnaissance de cible, dans certaines situations oĂč les capacitĂ©s d’observation de l’agent ne sont pas prĂ©cises
    corecore