CORE
CO
nnecting
RE
positories
Services
Services overview
Explore all CORE services
Access to raw data
API
Dataset
FastSync
Content discovery
Recommender
Discovery
OAI identifiers
OAI Resolver
Managing content
Dashboard
Bespoke contracts
Consultancy services
Support us
Support us
Membership
Sponsorship
Research partnership
About
About
About us
Our mission
Team
Blog
FAQs
Contact us
Community governance
Governance
Advisory Board
Board of supporters
Research network
Innovations
Our research
Labs
research
獲得免疫系に基づいた強化学習による制御器設計に関する研究
Authors
Shu Hosokawa
細川 嵩
Publication date
2 September 2016
Publisher
Abstract
生産工程などあらかじめ作業内容や環境が固定された状況で用いられる産業用ロボットに対し,最近では人間の代わりに日常環境で用いられる家の中の掃除を行う家庭用ロボットや,介護用ロボット,警備を行うロボットなどが数多く登場している.産業用ロボットなどでは目標や動作環境が固定されているので,通常の最適制御などにより最適な行動を設定することができる.しかし,今後導入が見込まれる家庭用のロボットは運用先によって目標とする状態や目標達成に必要な行動セット(政策)が異なるため,それぞれの運用先に合わせた適切な政策を設定しなければならないが,われわれが多種多様なロボットに対して,また考えうる環境条件すべてを考慮して適切な政策を設定するのは大きな負荷となる.本研究では,ロボットコントローラの容易な構築を実現するために強化学習による手法を取り扱う.強化学習はロボットの内部状態や詳細な環境情報を与えなくとも,ロボット自身による試行錯誤の結果より自動的に適切なコントローラを学習することが可能である.一般的に目標達成に最適な政策を得るためには膨大な学習時間を必要とするため,特にロボットのコントローラへの応用では最適な政策を得ることよりも学習時間の短縮が重要となる.しかし,強化学習では“ 次元の呪い”と呼ばれる環境認識に関する問題や,報酬や内部パラメータの初期値によっては学習がなかなか進まない,といった問題がある.一方,生物の持つ生態機構や進化の仕組みなどを工学モデル化し,最適解探索や学習などの分野に応用する試みが盛んに行われている.その一つに免疫機構の振る舞いに着目し,その働きをモデル化した免疫型強化学習がある.免疫型強化学習法は従来の強化学習法と比べ,特定環境において準最適解を高速な学習収束速度で得ることができる.しかし,免疫型強化学習は動作環境が連続値で表現される場合では従来の強化学習法と同じく次元の呪いによる影響を受けてしまう.これは免疫型強化学習法のアルゴリズムにおいて環境情報を離散値へ変換する必要があるためである.この変換方式として動作環境の連続値表現を一定の間隔で区切ることによって離散値表現に置き換えを行うタイルコーディングが多く用いられている.この際,状態を区切る間隔によって学習の収束速度および得られる解の質のトレードオフが発生するが,多くの場合において事前に適切な間隔を知ることはできない上,学習途中で離散化の間隔を変更することもできない.このため,事前に適切な離散化間隔を設定する必要のあるタイルコーディングによらない状態表現方法が必要となる.さらに,制御工学で重要な安定状態を維持するといった課題においても十分な解を得ることができない.免疫型強化学習やProfit Sharing をはじめとした一部の強化学習法では,タスクの達成のための最適解を得るのではなく,実用的な解を短時間で得ることを目標に主眼をおいてアルゴリズムが構築されているからである.またその制約条件として,報酬は正の値を使用しなければならないこともあげられる.安定化制御問題では報酬を与える明確なタイミングとして安定状態から不安定状態へ遷移した時が考えられる.この場合においては望ましくない状態へ遷移したため罰報酬を与える必要があるが,これまでの手法では正しく罰を取り扱うことができない.このため,安定化制御を考慮した報酬の処理法が必要となる.本研究ではこれらの問題を解決する手法を提案し,実ロボットへ適用できる学習によるコントローラの構築法を確立することが目的である.連続値環境を前提とした免疫型強化学習法の拡張方法を提案する.拡張したアルゴリズムが従来の離散型免疫型強化学習法の更新方式と等価であることを示し,さらに連続値環境に用いる際に利点となる状態の取り扱い方法について述べる.この提案手法を倒立振子の振り上げ制御シミュレーション例などに適用し,従来の代表的な強化学習法と比較をおこない,その有効性を示す.従来の報酬割り当て関数が安定化制御問題へ適用できないことを示し,安定化制御問題へ適用する際の条件の検討を行う.得られた条件からProfit Sharing 及び免疫型強化学習において有効な報酬割り当て関数の一例を提案する.提案する報酬関数を用いて倒立振子の安定化制御およびRoboCup サッカーシミュレーションリーグのサブ問題であるKeepaway のシミュレーションに適用し,その有効性を示す.電気通信大学201
Similar works
Full text
Open in the Core reader
Download PDF
Available Versions
C-RECS (Creative Repository of Electro-Communications)
See this paper in CORE
Go to the repository landing page
Download from data provider
oai:uec.repo.nii.ac.jp:0000089...
Last time updated on 09/02/2018
C-RECS (Creative Repository of Electro-Communications)
See this paper in CORE
Go to the repository landing page
Download from data provider
oai:uec.repo.nii.ac.jp:0000134...
Last time updated on 09/02/2018