5 research outputs found

    Recherche locale de politique dans un espace convexe

    Get PDF
    National audienceEn apprentissage par renforcement, la recherche locale de politique est une approche classique permettant de prendre en compte de grands espaces d'état. Formellement, elle consiste à chercher localement dans un espace de politiques paramétrées la solution qui va maximiser la fonction de valeur associée, moyennée selon une loi prédéfinie sur les états. La première contribution de cet article montre que si l'espace de politiques est convexe, \emph{tout optimum local} (approché) présente une \emph{garantie globale de performance}. Malheureusement, supposer la convexité de l'espace de recherche est une hypothèse forte : elle n'est pas satisfaite par les représentations usuelles des politiques et définir une paramétrisation non triviale qui satisfasse cette propriété est difficile. Une solution naturelle pour palier ce problème est d'optimiser la fonction objectif associée grâce à une montée de gradient fonctionnel, la recherche étant contrainte à l'enveloppe convexe de l'espace de politiques. Il s'avère que l'algorithme résultant est une légère généralisation du schéma d'itération conservative de la politique. Ainsi, notre seconde contribution consiste à souligner cette connexion originale entre recherche locale de politique et programmation dynamique approchée

    Quand l'optimalité locale implique une garantie globale : recherche locale de politique dans un espace convexe et algorithme d'itération sur les politiques conservatif vu comme une montée de gradient fonctionnel

    No full text
    National audienceEn apprentissage par renforcement, une approche usuelle pour traiter les grands espaces d'état est la recherche directe dans l'espace des politiques. Formellement, elle consiste à chercher localement (typiquement grâce à  une montée de gradient) dans un espace de politiques paramétrées la politique qui va maximiser l'espérance (selon une distribution prédéfinie) de la fonction de valeur associée. En général, le mieux que l'on puisse espérer d'une telle approche est l'obtention d'un maximum local du critère optimisé. Cet article commence par présenter un résultat surprenant : si l'espace de politiques est convexe, tout optimum local (approché) jouit d'une garantie de performance globale.Toutefois, cette hypothèse de convexité est forte : elle n'est pas satisfaite par les paramétrisations communément utilisées, et trouver une représentation qui satisfait cette propriété semble ardu. Une solution naturelle pour traiter ce problème consiste à adopter une approche de type \textit{boosting} (contrainte à la fermeture convexe d'un espace de politiques arbitraire). Il s'avère que l'algorithme résultant est une (légère) généralisation de la version conservative d'itération sur les politiques proposée par Kakade et Langford. Ainsi, notre seconde contribution est de mettre en lumière cette connexion originale entre recherche directe dans l'espace des politiques et programmation dynamique approchée

    Quand l'optimalité locale implique une garantie globale : recherche locale de politique dans un espace convexe et algorithme d'itération sur les politiques conservatif vu comme une montée de gradient fonctionnel

    No full text
    National audienceEn apprentissage par renforcement, une approche usuelle pour traiter les grands espaces d'état est la recherche directe dans l'espace des politiques. Formellement, elle consiste à chercher localement (typiquement grâce à  une montée de gradient) dans un espace de politiques paramétrées la politique qui va maximiser l'espérance (selon une distribution prédéfinie) de la fonction de valeur associée. En général, le mieux que l'on puisse espérer d'une telle approche est l'obtention d'un maximum local du critère optimisé. Cet article commence par présenter un résultat surprenant : si l'espace de politiques est convexe, tout optimum local (approché) jouit d'une garantie de performance globale.Toutefois, cette hypothèse de convexité est forte : elle n'est pas satisfaite par les paramétrisations communément utilisées, et trouver une représentation qui satisfait cette propriété semble ardu. Une solution naturelle pour traiter ce problème consiste à adopter une approche de type \textit{boosting} (contrainte à la fermeture convexe d'un espace de politiques arbitraire). Il s'avère que l'algorithme résultant est une (légère) généralisation de la version conservative d'itération sur les politiques proposée par Kakade et Langford. Ainsi, notre seconde contribution est de mettre en lumière cette connexion originale entre recherche directe dans l'espace des politiques et programmation dynamique approchée
    corecore