Upgrade to Pro — share decks privately, control downloads, hide ads and more …

『これからの強化学習』3.7

hasewo
June 17, 2017

 『これからの強化学習』3.7

Gunosyデータマイニング研究会 #123 で用いたスライドです。
内容:DQNとAlphaGoについてのまとめ

hasewo

June 17, 2017
Tweet

More Decks by hasewo

Other Decks in Technology

Transcript

  1. 学習則の安定化のためのターゲットの固定化 (neural fitted Q) 強化学習では多くの場合最適Q関数は不明なので、TD誤差を使 う 7.# + γ max

    IJKL Q(7.# , 7.# ; ) − Q(7.# , 7.# ; ) しかし、TD誤差はパラメータに依存するターゲットとなり、収束が安定しない ↓ Neural fitted Qを⽤いる
  2. その他の実装 • ゲームごとに得点の範囲がバラバラ →報酬は+1, 0, -1に固定 • エージェントの⾏動⽅策:ε-greedy • Nature版DQN:TD誤差が[-1,

    1]の範囲を超えないように切り 上げ → = [(7 9 Q 7 , 7 ; )? ]が[-1, 1]の範囲を超えたところ で、より⽬的関数の増加が緩やかな絶対値誤差 に切り替え
  3. AlphaGoが出現するまでのコンピュータ囲碁の歴史 • UCT法 • モンテカルロ⽊探索を効率化するための⼿法 • あまり探索されていないノードや評価の⾼い盤⾯に⾄る確率の⾼いと 思われる⾒込みのあるノードを優先的に探索する • 2006年のコンピュタ囲碁の⼤会で優勝、2008年には9×9マスの縮⼩

    版囲碁でプロ棋⼠に1勝をあげる • ニューラルネットワークを⽤いた盤⾯評価 • 盤⾯の状態を⼊⼒とし、勝敗や次の⼀⼿を予測する教師あり学習 • モンテカルロ⽊ベースの⼿法には遠く及ばなかった
  4. AlphaGoの登場 • 2016.1 ヨーロッパチャンピオン Fan Hui⽒に対し5戦5勝 • 2016.3 世界トップレベル Lee

    Sedol⽒に5戦4勝 • 三つの技術を使⽤ • 教師あり学習 • 強化学習 • モンテカルロ⽊探索
  5. 三つの技術を使⽤ • 教師あり学習 • 過去の棋⼠の膨⼤な対戦結果をもとに適切な⼿や盤⾯評価を学習 • 強化学習 • 教師データで学習したエージェント同⼠を戦わせて学習を進⾏ •

    モンテカルロ⽊探索 • 関数近似した学習では近似誤差がつきまとう • 近似誤差を含んだままの推定では、最適⼿候補が多い場合に不適切な判 断をする可能性が⾼い • ↑が勝敗を左右する可能性があるため、現在の状態から各候補の着⼿の 結果をモンテカルロ⽊探索で判断
  6. Selection 7 = arg max I∈[ \J 7 , +

    7 , 7 , = S`a7 P , ∑ d , e 1 + d , 未探索の⼿を 選択しやすくする項
  7. Expansion • 訪問回数が閾値を超えたら有望な⼦ノードを展開 • 新たなノードsʼに対して定義される変数の値を、 g h i, ′ =

    d i, ′ = 0 h i, ′ = d i, ′ = 0 i, ′ ∝ pn シミュレーションによる 訪問回数 状態価値ネットワークで 評価した回数 状態価値関数で勝ちと判断した回数 シミュレーションで 価値と判断した回数
  8. Backup • 状態価値ネットワークの評価が終わったとき 各t≦Lに対して p h 7 , 7 ←

    h 7 , 7 + 1 h 7 , 7 ← h 7 , 7 + 1 上記とは⾮同期に、各t≦Lに対して p d 7 , 7 ← d 7 , 7 + 1 d 7 , 7 ← d 7 , 7 + 7
  9. Backup • ⾏動価値関数Q(s7 , 7 )は、これらを⽤いて計算される。 Q(s7 , 7 )

    = 1 − uv \J, IJ wv \J, IJ + ux \J, IJ wx \J, IJ • また、selectionにおいてすでに選択されたノードの中で、 ⼀時的に何回か評価して負けたことにする p d 7 , 7 ← d 7 , 7 + nz- d 7 , 7 ← d 7 , 7 − z- シミュレーション後にまた増やす p d 7 , 7 ← d 7 , 7 − nz- d 7 , 7 ← d 7 , 7 + z-
  10. AlphaGoの学習法 名前 記号 何で学習? 何を出⼒? どんな構成? 探索展開⽤⽅策 p| 教師付き学習 多値関数

    ソフトマックス関数 教師付き学習⽅策ネットワーク pn 教師付き学習 多値関数 多層ニューラルネットワーク 状態価値ネットワーク 教師付き学習 スカラー関数 多層ニューラルネットワーク 強化学習⽤⽅策ネットワーク p} 強化学習 多値関数 多層ニューラルネットワーク