9 research outputs found

    Market-based reinforcement learning in partially observable worlds

    No full text
    Unlike traditional reinforcement learning (RL), market-based RL is in principle applicable to worlds described by partially observable Markov Decision Processes (POMDPs), where an agent needs to learn short-term memories of relevant previous events in order to execute optimal actions. Most previous work, however, has focused on reactive settings (MDPs) instead of POMDPs. Here we reimplement a recent approach to market-based RL and for the first time evaluate it in a toy POMDP setting.This work was supported by SNF grants 21-55409.98 and 2000-61847.0

    Universal Learning of Repeated Matrix Games

    Full text link
    We study and compare the learning dynamics of two universal learning algorithms, one based on Bayesian learning and the other on prediction with expert advice. Both approaches have strong asymptotic performance guarantees. When confronted with the task of finding good long-term strategies in repeated 2x2 matrix games, they behave quite differently.Comment: 16 LaTeX pages, 8 eps figure

    不完全知覚環境のための複素強化学習に基づく学習分類子システム

    Get PDF
    本研究では,難解なPOMDPs環境において最適な方策を獲得するために,複素強化学習に基づく学習分類子システムとしてComplex-Valued Classifier System(CVCS)およびその改良であるAdjustment-Population-size-based CVCS(AP-CVCS)を提案する.提案システムを用いた手法は,POMDPs環境に適用可能な強化学習手法である複素強化学習(Complex-Valued Reinforcement Learning : CVRL)と比較して,1)方策(分類子)を進化計算より探索し,不要な分類子を淘汰することで,最適な方策を効率よく探索可能である.また,POMDPs環境に適用可能な学習分類子システム(Learning Classifier System : LCS)である進化型メモリベース法を組み込んだZCSM(Zeroth level Classifier System with Memory)と比較して,2)方策に内部メモリを用いず,行動履歴のみを用いることで,少ない計算リソースでPOMDPs環境における不完全知覚問題を解決することが可能である.提案手法の有効性を検証するための計算機実験として,a) 標準的な不完全知覚環境,およびに,従来手法が適用困難なPOMDPs環境としてb) 状態空間が大きい環境,c) 不完全知覚の特性が異なる環境に提案手法を適用したところ,次の知見を得た.まず,1)提案手法は,従来手法(Q. -learning とZCSM)よりも少ない学習回数で高い学習性能を実現し,2)不完全知覚に対して必要なパラメータについて適切な値が設定できないために従来手法では学習不可能な環境においても学習が可能であり,3)従来手法が最適な方策を獲得不可能な初期状態が不完全知覚となる問題においても,提案手法は最適な方策を獲得可能であることを明らかにした.また, AP-CVCSに関しては,1)CVCSや従来手法と比較してより安定した最適方策の獲得を達成できる一方,2)初期状態が不完全知覚状態となるような環境では従来手法と同等に安定した性能を発揮することを確認した.また,さらなる展開として,実問題への適用可能性について調査するため, 1)不完全知覚に対して必要なパラメータについて環境に合わせて適用的に変化させる機構の考案および評価実験を行った結果,事前にパラメータを設定することなく,不完全知覚問題を解決することができた.また, 2) 知覚入力に外乱の発生する環境下での評価実験を行った.その結果として,Q. -learning と比較してCVCSの枠組がノイズに対して頑強性があることを示す一方,AP-CVCSでは安定した学習が困難となることを明らかにした.電気通信大学201

    Reinforcement Learning in Robotic Task Domains with Deictic Descriptor Representation

    Get PDF
    In the field of reinforcement learning, robot task learning in a specific environment with a Markov decision process backdrop has seen much success. But, extending these results to learning a task for an environment domain has not been as fruitful, even for advanced methodologies such as relational reinforcement learning. In our research into robot learning in environment domains, we utilize a form of deictic representation for the robot’s description of the task environment. However, the non-Markovian nature of the deictic representation leads to perceptual aliasing and conflicting actions, invalidating standard reinforcement learning algorithms. To circumvent this difficulty, several past research studies have modified and extended the Q-learning algorithm to the deictic representation case with mixed results. Taking a different tact, we introduce a learning algorithm which searches deictic policy space directly, abandoning the indirect value based methods. We apply the policy learning algorithm to several different tasks in environment domains. The results compare favorably with value based learners and existing literature results
    corecore