research

Mise en pratique de LSPI pour la commande linéaire quadratique adaptative d'une surface de manipulation à coussin d'air actif.

Abstract

National audienceCet article présente l'application de l'algorithme LSPI de Lagoudakis & Parr (2003) à la commande d'un système linéaire avec coût quadratique selon le protocole initialement proposé par Bradtke (1993). Le dispositif contrôlé est une surface active capable de mouvoir un objet sur un coussin d'air et dont la dynamique varie fortement en fonction de l'objet utilisé. La méthode d'apprentissage est validée en simulation avant d'être appliquée au système réel. Les résultats expérimentaux mettent en évidence la nécessité de formater les commandes générées par l'algorithme. Ce formatage a pour objectif d'éviter la génération de commandes irréalisables qui introduisent un biais dans la mise à jour de la fonction de valeur. L'apprentissage converge alors vers la même solution que la commande linéaire quadratique

    Similar works

    Full text

    thumbnail-image

    Available Versions