Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Rustで強化学習アルゴリズムを実装する vol3

Rustで強化学習アルゴリズムを実装する vol3

Transcript

  1. 1 今回、実装するアルゴリズム • Proximal Policy Optimization (PPO) ◦ Actor-Critic系に分類される⼿法 ◦

    効率的かつ安定した学習が可能で、オンポリシーな強化学習アルゴリズム ではデファクトスタンダード的な存在 ※論⽂(https://arxiv.org/abs/1707.06347) ※git (https://github.com/kakky-hacker/reinforcex) ※参考資料 →https://jp.mathworks.com/content/dam/mathworks/ebook/gated/jp-reinfor cement-learning-ebook-all-chapters.pdf
  2. 2 価値ベースと⽅策ベースの違い • 価値ベース ◦ ある状態において、ある⾏動を選択する価値を推定する ▪ 連続⾏動空間に対応できないという弱点がある • ⽅策ベース

    ← PPOはこっちに属する ◦ ある状態において、選択すべき⾏動の確率分布を推定する ▪ 連続⾏動空間に対応可能
  3. 3 ⽅策ベースの弱点 • 状態 → ⾏動の関数を直接モデル化するために選択する⾏動が⼤胆に変わりや すい ◦ → 学習が不安定

    • PPOでは⾏動の選択確率が重みの更新前後で⼤きく変わらないようにclipする 仕組みを導⼊して上記の問題を解決している! ◦ 実装 https://github.com/kakky-hacker/reinforcex/blob/master/src/agents/p po.rs#L91