Processing math: 100%


機械学習

概要

  • ロボットって教科学習っぽい

参考

  • http://yamaimo.hatenablog.jp/entry/2015/10/18/200000?

用語定義

  • t回目に状態stにいる時に行動atを行って、状態st+1になると報酬rt+1がもらえる。
  • 表現がconfusingすぎる
数式用語
rtRt回目に、エージェントが実際に得る報酬の確率変数。これは状態s, 状態s, 行動aの3次元の自由度がある。実際には、以下のP,Rの確率-報酬、状態が確定する。
Pas,sR状態sから状態sに行動aで移動する、確率。確定値。これは環境がそうなっている。
Ras,sR状態sから状態sに行動aで移動した時の、報酬。確定値。これは人が設計する
Rt=infi=t+1γit1ri収益。t回目に行動atを選択した時に、最終的に得られる報酬の和の確率変数
πt(s,a):S×A[0,1], aπt(s,a)=1t回目に、状態sで行動aを取る確率
Qt(s,a):S×AR状態sで行動aを取った時に得られる報酬の期待値
Qπs,a=E[Rt;st,at]RS×A状態sで行動a取ったあと、方策πで遷移した時の収益の期待値
Vπs=E[Rt;st]=aA(s)π(s,a)Qπs,aRS状態sから方策πで遷移した時の収益の期待値
  • グリーディ
    • π(s,a)が確率ではない=状態sに対する最適な行動aが一意に決まる

分類

  • まとめ
  • 状態モデルがわかっている場合
    • Bellman方程式に関して、動的計画法を行う
    • グリーディ、すなわち方策π(s,a)=π(s)としても問題ないことが証明できるらしい。
    1. 方策反復
    2. 価値反復(細かく更新できる)
  • 状態モデルがわからない場合(モンテカルロ)
    • ES(開始点探査)を前提する場合
      • モンテカルロ-ES(方策π(s,a)はグリーディ)
    • ESを前提しない場合
      • 方策オン型モンテカルロ制御(方策はϵグリーディ)
      • 方策オフ型モンテカルロ制御(推定方策π(s,a)はグリーディ、挙動方策π(s,a)ϵグリーディ)
  • 状態モデルがわからない場合(TD法)
    • 方策オン型制御: Sarsa法
    • 方策オフ型制御: Q-learning
    • nステップ先まで見ることで、TD法とモンテカルロ法の間を取る方法: TD(λ)法というのがある(Sarsa(λ)や、Q(λ))
      • WatkinsのQ(λ)については、あまり適格度トレースの恩恵を受けること出来ないみたいで、学習速度はQ学習からあまり改善されないらしい。一方、PengのQ(λ)はSarsa(λ)法と同程度の性能は出るものの、実装が複雑らしい

疑問

  • Rass はなんで期待値なの?rt+1って確率変数ではなく、確定しないのでは?(これ)→確率変数です
    • ここでも、報酬は期待値として表現されてはいない
    • n本椀バンディットを想定すると、「状態Sで、i番目のバンディットを試して、状態Sになった時に得られる報酬」は、エージェントから見るとスロットはランダムなので、rt+1は確率変数である。(n本椀バンディットでは、状態は1個しかない。これをSと表している。)
  • 「方策が決定論的だと、探査が行われない状態行動対が出てきてしまうことが考えられる。そこで、知識利用と探査をバランス良く行うために、工夫が必要になってくる。」の意味は?
  • 終端状態についてはどうするの?

ポリシーの作り方

  • πt(s,a):S×A[0,1]は、Qt(s,a):S×ARによって恣意的に決める
    • グリーディ: Qt(s,a)が最も高い行動aのみ選ぶ
    • ϵグリーディ: Qt(s,a)が最も高い行動aのみ選ぶ
    • soft max: Qt(s,a)を温度で重み付けした確率で選ぶ

Tips

  • Q学習の方は推定方策と挙動方策が分かれているので、理論的には解析がしやすいらしい。そういった意味で、Q学習は重要とのこと。

トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS