Rustで強化学習アルゴリズムを実装する vol3

0 2025-05-09 第121回NearMe技術勉強会 Takuma KAKINOUE Rustで強化学習アルゴリズムを実装する vol3

1 今回、実装するアルゴリズム • Proximal Policy Optimization (PPO) ◦ Actor-Critic系に分類される⼿法 ◦
効率的かつ安定した学習が可能で、オンポリシーな強化学習アルゴリズムではデファクトスタンダード的な存在 ※論⽂（https://arxiv.org/abs/1707.06347） ※git (https://github.com/kakky-hacker/reinforcex) ※参考資料 →https://jp.mathworks.com/content/dam/mathworks/ebook/gated/jp-reinfor cement-learning-ebook-all-chapters.pdf

2 価値ベースと⽅策ベースの違い • 価値ベース ◦ ある状態において、ある⾏動を選択する価値を推定する ▪ 連続⾏動空間に対応できないという弱点がある • ⽅策ベース
← PPOはこっちに属する ◦ ある状態において、選択すべき⾏動の確率分布を推定する ▪ 連続⾏動空間に対応可能

3 ⽅策ベースの弱点 • 状態 → ⾏動の関数を直接モデル化するために選択する⾏動が⼤胆に変わりやすい ◦ → 学習が不安定
• PPOでは⾏動の選択確率が重みの更新前後で⼤きく変わらないようにclipする仕組みを導⼊して上記の問題を解決している！ ◦ 実装 https://github.com/kakky-hacker/reinforcex/blob/master/src/agents/p po.rs#L91

4 実装する上で詰まったところ • softmaxのlogitのスケールが⼤きすぎた ◦ logitのスケールが⼤きいほど決定論的な⾏動選択になり、探索が促進されにくくなる • logitを⼩さくするだけでは、逆に⾏動の確率分布の分散が中々⼩さくならず、学習の収束が遅い
◦ ⽬的関数に⾏動の確率分布のエントロピーも⼊れて、同時に最⼩化した ◦ https://github.com/kakky-hacker/reinforcex/blob/master/src/agents/p po.rs#L97

5 今後の展望 • 汎⽤的なよく使われるアルゴリズム（REINFORCE, DQN, PPO, SAC）は実装できたので、並列化の実装を進める • 並列化は、Rustを使う⼀番のメリットが出てくるポイント

6 Thank you

Rustで強化学習アルゴリズムを実装する vol3

Rustで強化学習アルゴリズムを実装する vol3

NearMeの技術発表資料です PRO

More Decks by NearMeの技術発表資料です

Featured

Transcript

0 2025-05-09 第121回NearMe技術勉強会 Takuma KAKINOUE Rustで強化学習アルゴリズムを実装する vol3

1 今回、実装するアルゴリズム • Proximal Policy Optimization (PPO) ◦ Actor-Critic系に分類される⼿法 ◦

2 価値ベースと⽅策ベースの違い • 価値ベース ◦ ある状態において、ある⾏動を選択する価値を推定する ▪ 連続⾏動空間に対応できないという弱点がある • ⽅策ベース

3 ⽅策ベースの弱点 • 状態 → ⾏動の関数を直接モデル化するために選択する⾏動が⼤胆に変わりやすい ◦ → 学習が不安定

5 今後の展望 • 汎⽤的なよく使われるアルゴリズム（REINFORCE, DQN, PPO, SAC）は実装できたので、並列化の実装を進める • 並列化は、Rustを使う⼀番のメリットが出てくるポイント

6 Thank you