Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習アルゴリズムPPOの改善案を考えてみた
Search
NearMeの技術発表資料です
PRO
August 22, 2025
0
69
強化学習アルゴリズムPPOの改善案を考えてみた
NearMeの技術発表資料です
PRO
August 22, 2025
Tweet
Share
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
初めてのmarimo (ハンズオン)
nearme_tech
PRO
0
15
ローカルLLM
nearme_tech
PRO
0
27
LlamaIndex Workflow: Build Practical AI Agents Fast
nearme_tech
PRO
0
15
Box-Muller法
nearme_tech
PRO
1
30
Kiro触ってみた
nearme_tech
PRO
0
200
今だからこそ入門する Server-Sent Events (SSE)
nearme_tech
PRO
4
480
ReactNative のアップグレード作業が (意外に)楽しかった話
nearme_tech
PRO
2
110
Apple Containerについて調べて触ってみた
nearme_tech
PRO
0
770
Rust 並列強化学習
nearme_tech
PRO
0
51
Featured
See All Featured
KATA
mclloyd
PRO
32
15k
Docker and Python
trallard
46
3.7k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.6k
RailsConf 2023
tenderlove
30
1.3k
Embracing the Ebb and Flow
colly
88
4.9k
Code Reviewing Like a Champion
maltzj
527
40k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8k
Raft: Consensus for Rubyists
vanstee
140
7.2k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.5k
The Cult of Friendly URLs
andyhume
79
6.7k
Transcript
0 強化学習アルゴリズムPPOの改善案を考えてみた 2025-08-22 第128回NearMe技術勉強会 Takuma KAKINOUE
1 概要 • 強化学習の従来のオンポリシーアルゴリズムの⽋点 ◦ 良い⾏動軌跡を⾒つけて⼀度学習しても、探索するうちに忘れてしまう • 提案⼿法 ◦ 報酬が⾼かったエピソードの各ステップの⾏動確率分布を記録する
◦ “記録した分布”と”現在の⽅策が出⼒した分布”のKLダイバージェンスを計算 ◦ 算出したKLダイバージェンスを最⼩化する項を⽬的関数に加える
2 提案⼿法の実装詳細 • ベースはProximal Policy Optimization(PPO)で⽬的関数のみ以下のよう に変更した ※提案⼿法は、Anchored Policy Optimization(APO)と名付けた
• KLダイバージェンスの計算⽅向は、best→θとした ◦ bestな分布を含むように(再現できるように)θが最適化される ◦ 逆向きだとbestな分布に含まれるようになるため縛りが強くなる
3 CartPole-v1での実験結果 • 横軸:エピソード、縦軸:報酬(100エピソード移動平均) • オレンジ:従来⼿法(PPO)、⻘:提案⼿法(APO) 初期の立ち上が りは遅い(bestな 分布に縛られる ため)
良い軌跡が得られ たら、その軌跡にア ンカーされるため安 定する
4 今後の展望 • 複数エージェントで並列化訓練させる仕組みと組み合わせてみる ◦ どれか1つのエージェントが良い⾏動軌跡を発⾒したら、他のエージェントに も共有して、良い⾏動軌跡にアンカーすることで学習の安定性と効率を向上 させる狙い • スーパーマリオなどの滅多にゴールに辿り着けない環境で真価を発揮するのでは
ないかと考えているので実験してみる
5 Thank you