強化学習のバックアップ(No.3)

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
強化学習へ行く。
- 1 (2017-04-11 (火) 18:13:25)
- 2 (2017-04-11 (火) 21:12:03)
- 3 (2017-04-11 (火) 22:25:08)

機械学習

概要 †

ロボットって教科学習っぽい

↑

参考 †

↑

用語定義 †

\( t \)回目に状態\( s_t \)にいる時に行動\( a_t \)を行って、状態\( s_{t+1} \)になると報酬\( r_{t+1} \)がもらえる。
表現がconfusingすぎる

数式	用語
\( r_t \in \mathbb{R} \)	t回目に、エージェントが実際に得る報酬の確率変数。これは状態\( s \), 状態\( s' \), 行動\( a \)の3次元の自由度がある。実際には、以下の\( \mathcal{P}, \mathcal{R} \)の確率-報酬、状態が確定する。
\( \mathcal{P}_{s, s'}^{a} \in \mathbb{R} \)	状態\( s \)から状態\( s' \)に行動\( a \)で移動する、確率。確定値。これは環境がそうなっている。
\( \mathcal{R}_{s, s'}^{a} \in \mathbb{R} \)	状態\( s \)から状態\( s' \)に行動\( a \)で移動した時の、報酬。確定値。これは人が設計する
\( \mathcal{R}_t = \sum_{i=t+1}^{\inf} \gamma^{i-t-1} r_{i} \)	収益。t回目に行動\( a_t \)を選択した時に、最終的に得られる報酬の和の確率変数。
\( \pi_t(s, a) : \mathcal{S} \times \mathcal{A} \rightarrow [0, 1] \), \( \sum_{a} \pi_t(s, a) = 1 \)	t回目に、状態\( s \)で行動\( a \)を取る確率
\( Q_t(s, a) : \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R} \)	状態\( s \)で行動\( a \)を取った時に得られる報酬の期待値
\( \mathbf{Q}_{s, a}^\pi = E[R_t ; s_t, a_t] \in \mathbb{R}^{\mathcal{S} \times \mathcal{A}} \)	状態\( s \)で行動\( a \)取ったあと、方策\( \pi \)で遷移した時の収益の期待値
\( \mathbf{V}_s^\pi = E[R_t ; s_t] = \sum_{a \in \mathcal{A}(s)} \pi(s, a) Q^\pi_{s, a} \in \mathbb{R}^{\mathcal{S}} \)	状態\( s \)から方策\( \pi \)で遷移した時の収益の期待値

グリーディ
- \( \pi(s, a) \)が確率ではない＝状態\( s \)に対する最適な行動\( a \)が一意に決まる

↑

分類 †

まとめ
状態モデルがわかっている場合
- Bellman方程式に関して、動的計画法を行う
- グリーディ、すなわち方策\( \pi(s, a)=\pi(s) \)としても問題ないことが証明できるらしい。
1. 方策反復
2. 価値反復（細かく更新できる）
状態モデルがわからない場合（モンテカルロ）
- ES(開始点探査)を前提する場合
  - モンテカルロ-ES（方策\( \pi(s, a) \)はグリーディ）
- ESを前提しない場合
  - 方策オン型モンテカルロ制御（方策は\( \epsilon \)グリーディ）
  - 方策オフ型モンテカルロ制御（推定方策\( \pi(s, a) \)はグリーディ、挙動方策\( \pi'(s, a) \)は\( \epsilon \)グリーディ）
状態モデルがわからない場合（TD法）
- 方策オン型制御: Sarsa法
- 方策オフ型制御: Q-learning
- nステップ先まで見ることで、TD法とモンテカルロ法の間を取る方法: TD(λ)法というのがある（Sarsa(λ)や、Q(λ)）
  - WatkinsのQ(λ)については、あまり適格度トレースの恩恵を受けること出来ないみたいで、学習速度はQ学習からあまり改善されないらしい。一方、PengのQ(λ)はSarsa(λ)法と同程度の性能は出るものの、実装が複雑らしい

↑

疑問 †

\( \mathcal{R}^{a}_{ss'} \) はなんで期待値なの？\( r_{t+1} \)って確率変数ではなく、確定しないのでは？(これ)→確率変数です
- ここでも、報酬は期待値として表現されてはいない
- n本椀バンディットを想定すると、「状態Sで、i番目のバンディットを試して、状態Sになった時に得られる報酬」は、エージェントから見るとスロットはランダムなので、\( r_{t+1} \)は確率変数である。(n本椀バンディットでは、状態は1個しかない。これをSと表している。)
「方策が決定論的だと、探査が行われない状態行動対が出てきてしまうことが考えられる。そこで、知識利用と探査をバランス良く行うために、工夫が必要になってくる。」の意味は？
終端状態についてはどうするの？
- ただし、s′が終端状態の場合、Qs′,a′は0とする。
終端条件とは
- そもそも状態モデルがわかっている学習系（モンテカルロ, Sarsa, Q-learning）は、終端条件を明示的に与えているはずなので問題ない。
- 動的計画法系は？→仮説：終端条件にはアクションがない
なんでモンテカルロには割引率があったりなかったりするの？
- そもそも割引率は無限回足しあわせの発散を含む目的だったから。
このモンテカルロ法、Tの幅が一定ではないように見えるけど大丈夫？？
- なんか短いものも入ってくる、と考えると、「勝手に最近のものを重視するように重み付けされている」と解釈することもできそう

↑

ポリシーの作り方 †

\( \pi_t(s, a): \mathcal{S} \times \mathcal{A} \rightarrow [0, 1] \)は、\( Q_t(s, a): \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R} \)によって恣意的に決める
- グリーディ: \( Q_t(s, a) \)が最も高い行動\( a \)のみ選ぶ
- \( \epsilon \)グリーディ: \( Q_t(s, a) \)が最も高い行動\( a \)のみ選ぶ
- soft max: \( Q_t(s, a) \)を温度で重み付けした確率で選ぶ

↑

勉強 †

開始点探索の前提
- 決定論的方策の学習で、状態行動対作成のためにそれ自身を使ってしまうと、ループしたりして出てこない状態が現れる
- なので、状態行動対作成の時だけ、ソフトを使う必要がある。

↑

Tips †

Q学習の方は推定方策と挙動方策が分かれているので、理論的には解析がしやすいらしい。そういった意味で、Q学習は重要とのこと。

強化学習 のバックアップ(No.3)

検索

メモ

僕の経験

生活

常識

金銭

旅行

健康

美術

学業

国

言語

エンジニアリング

統合システム

ハード

ソフト

管理

制御

趣味

嗜好品

鑑賞

習得

情報発信

デザイン

情報発信

文章

ビジネス

事業

会計

商談

投資

遂行

情報・知的財産

研究

研究基本

研究課題発見

研究方法

研究表現

研究発表参加

研究哲学

研究室運営

最新の70件

概要 †

参考 †

用語定義 †

分類 †

疑問 †

ポリシーの作り方 †

勉強 †

Tips †

強化学習のバックアップ(No.3)