Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[GunosyDM研究会]これからの強化学習 2.1 / future-RL-2-1

ysekky
May 12, 2017

[GunosyDM研究会]これからの強化学習 2.1 / future-RL-2-1

ysekky

May 12, 2017
Tweet

More Decks by ysekky

Other Decks in Research

Transcript

  1. 関数近似器を用いたTD(λ)法 • λ=1, T=∞ -> モンテカルロ法と一致し、収束が保証される • 1 > λ

    -> 方策オン + 線形近似ではなければ収束が保証されない 更新則を前方観測の見方でみると理解しやすい
  2. 操作変数法 • 入力変数と相関するが、ノイズと相関のない変数wを導入する • 理想的なパラメータより、第2項の文だけ異なる。 ◦ w^T m の期待値が0であれば良い ◦

    wがないと、x^T mになる ▪ x(サンプル)とm(ノイズ)が相関していると期待値は 0にならない ◦ 相関していないので期待値は 0にできる
  3. LSTD法の他の解釈 • Πは射影オペレータ ◦ 理想的な価値観数を射影して線形近似した価値観数にする • C_PBはベルマン残差の射影の2乗 ◦ 射影ベルマン残差と呼ぶ •

    LSTD法は2重サンプル法を用いることなく射影ベルマン残差を最小化できる ◦ θ_IVは停留点 • バッチ型のLSTD法は方策オフ型でも解を得ることができる ◦ TD(0)法では収束の保証がない • LSTD法はモデルベースの解と一致する
  4. 方策オフ型のLSTD法 • 方策オフ型 ◦ ある方策πを評価改善しようとしている時に、別の方策 π’を使って改善する方法 • 内側の期待値は一致するが外側の期待値は一致しない ◦ C_PBのMの変更と解釈できる

    • 重点重みを恒等式を用いることで省いて計算できるが、重点重みを含めたほうがロ バスト性が高まる ◦ 報酬とパラメータの相関が強く、それぞれの分散が大きい場合に精度が下がる • GTD2, TDC, iLSTDなどでもρを用いることで、方策オフ型の学習ができる 重点重みρを用いて変換 =>
  5. greedy-GQ法 • 目標方策と行動方策を区別して考えると、目的関数は変わる ◦ 目標方策: π_θ, 行動方策 π_b ▪ 期待値μは行動方策bのものでの期待値

    ◦ greedy方策を考えると目的関数が微分不可能になる ◦ 劣勾配をとる => Greedy GQ ▪ 期待値は異なるが、 GQとよく似たアルゴリズムになる ▪ 収束の保証のためには行動方策が固定されている必要がある ▪ 目的関数が非線形なので、大域的な解が得られるわけではない
  6. Fitted Q • LSPE法と同様な方法で行動価値関数を推定する ◦ 一方のパラメータを固定し、 w(s_t, a_t)を導入して、最適化問題を分割する • 関数近似器にニューラルネットを用いるものをneural

    fitted Qと呼ぶ • Fitted Qは行動方策を固定し、線形関数近似器を用いたとしても収束しない可能性 がある • 理論的な収束の保証を求めることは難しいが、DQNで用いられるなど注目されて いる
  7. 2.1.4 セミパラメトリック統計学習による定式化 • 方策評価の問題をセミパラメトリック統計学習問題として定式化 • セミパラメトリックモデル ◦ 興味のあるパラメータと知る必要のないパラメータ (撹乱パラメータ)の2種類のパラメータ ◦

    撹乱パラメータを知ることなく、知りたいパラメータのみを知りたい • 価値関数はパラメトリックな関数で必ず表現できるという強い仮定をおく • 方策πを固定したマルコフ報酬過程(MRP)を考える