機械学習
概要 †
参考 †
用語定義 †
- \( t \)回目に状態\( s_t \)にいる時に行動\( a_t \)を行って、状態\( s_{t+1} \)になると報酬\( r_{t+1} \)がもらえる。
- 表現がconfusingすぎる
数式 | 用語 | \( r_t \in \mathbb{R} \) | t回目に、エージェントが実際に得る報酬の確率変数。これは状態\( s \), 状態\( s' \), 行動\( a \)の3次元の自由度がある。実際には、以下の\( \mathcal{P}, \mathcal{R} \)の確率-報酬、状態が確定する。 | \( \mathcal{P}_{s, s'}^{a} \in \mathbb{R} \) | 状態\( s \)から状態\( s' \)に行動\( a \)で移動する、確率。確定値。これは環境がそうなっている。 | \( \mathcal{R}_{s, s'}^{a} \in \mathbb{R} \) | 状態\( s \)から状態\( s' \)に行動\( a \)で移動した時の、報酬。確定値。これは人が設計する | \( \mathcal{R}_t = \sum_{i=t+1}^{\inf} \gamma^{i-t-1} r_{i} \) | 収益。t回目に行動\( a_t \)を選択した時に、最終的に得られる報酬の和の確率変数。 | \( \pi_t(s, a) : \mathcal{S} \times \mathcal{A} \rightarrow [0, 1] \), \( \sum_{a} \pi_t(s, a) = 1 \) | t回目に、状態\( s \)で行動\( a \)を取る確率 | \( Q_t(s, a) : \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R} \) | 状態\( s \)で行動\( a \)を取った時に得られる報酬の期待値 | \( \mathbf{Q}_{s, a}^\pi = E[R_t ; s_t, a_t] \in \mathbb{R}^{\mathcal{S} \times \mathcal{A}} \) | 状態\( s \)で行動\( a \)取ったあと、方策\( \pi \)で遷移した時の収益の期待値 | \( \mathbf{V}_s^\pi = E[R_t ; s_t] = \sum_{a \in \mathcal{A}(s)} \pi(s, a) Q^\pi_{s, a} \in \mathbb{R}^{\mathcal{S}} \) | 状態\( s \)から方策\( \pi \)で遷移した時の収益の期待値 |
- グリーディ
- \( \pi(s, a) \)が確率ではない=状態\( s \)に対する最適な行動\( a \)が一意に決まる
分類 †
- まとめ
- 状態モデルがわかっている場合
- Bellman方程式に関して、動的計画法を行う
- グリーディ、すなわち方策\( \pi(s, a)=\pi(s) \)としても問題ないことが証明できるらしい。
- 方策反復
- 価値反復(細かく更新できる)
- 状態モデルがわからない場合(モンテカルロ)
- ES(開始点探査)を前提する場合
- モンテカルロ-ES(方策\( \pi(s, a) \)はグリーディ)
- ESを前提しない場合
- 方策オン型モンテカルロ制御(方策は\( \epsilon \)グリーディ)
- 方策オフ型モンテカルロ制御(推定方策\( \pi(s, a) \)はグリーディ、挙動方策\( \pi'(s, a) \)は\( \epsilon \)グリーディ)
- 状態モデルがわからない場合(TD法)
- 方策オン型制御: Sarsa法
- 方策オフ型制御: Q-learning
- nステップ先まで見ることで、TD法とモンテカルロ法の間を取る方法: TD(λ)法というのがある(Sarsa(λ)や、Q(λ))
- WatkinsのQ(λ)については、あまり適格度トレースの恩恵を受けること出来ないみたいで、学習速度はQ学習からあまり改善されないらしい。一方、PengのQ(λ)はSarsa(λ)法と同程度の性能は出るものの、実装が複雑らしい
疑問 †
- \( \mathcal{R}^{a}_{ss'} \) はなんで期待値なの?\( r_{t+1} \)って確率変数ではなく、確定しないのでは?(これ)→確率変数です
- ここでも、報酬は期待値として表現されてはいない
- n本椀バンディットを想定すると、「状態Sで、i番目のバンディットを試して、状態Sになった時に得られる報酬」は、エージェントから見るとスロットはランダムなので、\( r_{t+1} \)は確率変数である。(n本椀バンディットでは、状態は1個しかない。これをSと表している。)
- 「方策が決定論的だと、探査が行われない状態行動対が出てきてしまうことが考えられる。そこで、知識利用と探査をバランス良く行うために、工夫が必要になってくる。」の意味は?
- 終端状態についてはどうするの?
- 終端条件とは
- そもそも状態モデルがわかっている学習系(モンテカルロ, Sarsa, Q-learning)は、終端条件を明示的に与えているはずなので問題ない。
- 動的計画法系は?→仮説:終端条件にはアクションがない
- なんでモンテカルロには割引率があったりなかったりするの?
- そもそも割引率は無限回足しあわせの発散を含む目的だったから。
- このモンテカルロ法、Tの幅が一定ではないように見えるけど大丈夫??
- なんか短いものも入ってくる、と考えると、「勝手に最近のものを重視するように重み付けされている」と解釈することもできそう
ポリシーの作り方 †
- \( \pi_t(s, a): \mathcal{S} \times \mathcal{A} \rightarrow [0, 1] \)は、\( Q_t(s, a): \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R} \)によって恣意的に決める
- グリーディ: \( Q_t(s, a) \)が最も高い行動\( a \)のみ選ぶ
- \( \epsilon \)グリーディ: \( Q_t(s, a) \)が最も高い行動\( a \)のみ選ぶ
- soft max: \( Q_t(s, a) \)を温度で重み付けした確率で選ぶ
勉強 †
- 開始点探索の前提
- 決定論的方策の学習で、状態行動対作成のためにそれ自身を使ってしまうと、ループしたりして出てこない状態が現れる
- なので、状態行動対作成の時だけ、ソフトを使う必要がある。
Tips †
- Q学習の方は推定方策と挙動方策が分かれているので、理論的には解析がしやすいらしい。そういった意味で、Q学習は重要とのこと。
|