強化学習アルゴリズムPPOの改善案を考えてみた

0 強化学習アルゴリズムPPOの改善案を考えてみた 2025-08-22 第128回NearMe技術勉強会 Takuma KAKINOUE

1 概要 • 強化学習の従来のオンポリシーアルゴリズムの⽋点 ◦ 良い⾏動軌跡を⾒つけて⼀度学習しても、探索するうちに忘れてしまう • 提案⼿法 ◦ 報酬が⾼かったエピソードの各ステップの⾏動確率分布を記録する
◦ “記録した分布”と”現在の⽅策が出⼒した分布”のKLダイバージェンスを計算 ◦ 算出したKLダイバージェンスを最⼩化する項を⽬的関数に加える

2 提案⼿法の実装詳細 • ベースはProximal Policy Optimization（PPO）で⽬的関数のみ以下のように変更した ※提案⼿法は、Anchored Policy Optimization（APO）と名付けた
• KLダイバージェンスの計算⽅向は、best→θとした ◦ bestな分布を含むように（再現できるように）θが最適化される ◦ 逆向きだとbestな分布に含まれるようになるため縛りが強くなる

3 CartPole-v1での実験結果 • 横軸：エピソード、縦軸：報酬（100エピソード移動平均） • オレンジ：従来⼿法（PPO）、⻘：提案⼿法（APO）初期の立ち上がりは遅い（bestな分布に縛られるため）
良い軌跡が得られたら、その軌跡にアンカーされるため安定する

4 今後の展望 • 複数エージェントで並列化訓練させる仕組みと組み合わせてみる ◦ どれか1つのエージェントが良い⾏動軌跡を発⾒したら、他のエージェントにも共有して、良い⾏動軌跡にアンカーすることで学習の安定性と効率を向上させる狙い • スーパーマリオなどの滅多にゴールに辿り着けない環境で真価を発揮するのでは
ないかと考えているので実験してみる

5 Thank you

強化学習アルゴリズムPPOの改善案を考えてみた

強化学習アルゴリズムPPOの改善案を考えてみた

NearMeの技術発表資料です PRO

More Decks by NearMeの技術発表資料です

Featured

Transcript

0 強化学習アルゴリズムPPOの改善案を考えてみた 2025-08-22 第128回NearMe技術勉強会 Takuma KAKINOUE

1 概要 • 強化学習の従来のオンポリシーアルゴリズムの⽋点 ◦ 良い⾏動軌跡を⾒つけて⼀度学習しても、探索するうちに忘れてしまう • 提案⼿法 ◦ 報酬が⾼かったエピソードの各ステップの⾏動確率分布を記録する

2 提案⼿法の実装詳細 • ベースはProximal Policy Optimization（PPO）で⽬的関数のみ以下のように変更した ※提案⼿法は、Anchored Policy Optimization（APO）と名付けた

3 CartPole-v1での実験結果 • 横軸：エピソード、縦軸：報酬（100エピソード移動平均） • オレンジ：従来⼿法（PPO）、⻘：提案⼿法（APO）初期の立ち上がりは遅い（bestな分布に縛られるため）

5 Thank you

強化学習アルゴリズムPPOの改善案を考えてみた

強化学習アルゴリズムPPOの改善案を考えてみた

NearMeの技術発表資料です PRO

More Decks by NearMeの技術発表資料です

Featured

Transcript

0 強化学習アルゴリズムPPOの改善案を考えてみた 2025-08-22 第128回NearMe技術勉強会 Takuma KAKINOUE

1 概要 • 強化学習の従来のオンポリシーアルゴリズムの⽋点 ◦ 良い⾏動軌跡を⾒つけて⼀度学習しても、探索するうちに忘れてしまう • 提案⼿法 ◦ 報酬が⾼かったエピソードの各ステップの⾏動確率分布を記録する

2 提案⼿法の実装詳細 • ベースはProximal Policy Optimization（PPO）で⽬的関数のみ以下のよう に変更した ※提案⼿法は、Anchored Policy Optimization（APO）と名付けた

3 CartPole-v1での実験結果 • 横軸：エピソード、縦軸：報酬（100エピソード移動平均） • オレンジ：従来⼿法（PPO）、⻘：提案⼿法（APO） 初期の立ち上が りは遅い（bestな 分布に縛られる ため）

5 Thank you

2 提案⼿法の実装詳細 • ベースはProximal Policy Optimization（PPO）で⽬的関数のみ以下のように変更した ※提案⼿法は、Anchored Policy Optimization（APO）と名付けた

3 CartPole-v1での実験結果 • 横軸：エピソード、縦軸：報酬（100エピソード移動平均） • オレンジ：従来⼿法（PPO）、⻘：提案⼿法（APO）初期の立ち上がりは遅い（bestな分布に縛られるため）