Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習アルゴリズムPPOの改善案を考えてみた
Search
NearMeの技術発表資料です
PRO
August 22, 2025
0
2
強化学習アルゴリズムPPOの改善案を考えてみた
NearMeの技術発表資料です
PRO
August 22, 2025
Tweet
Share
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
Apple Containerについて調べて触ってみた
nearme_tech
PRO
0
47
Rust 並列強化学習
nearme_tech
PRO
0
21
並列で⽣成AIにコーディングをやらせる
nearme_tech
PRO
1
130
希望休勤務を考慮したシフト作成
nearme_tech
PRO
0
34
Hub Labeling による高速経路探索
nearme_tech
PRO
0
90
Build an AI agent with Mastra
nearme_tech
PRO
0
77
Rustで強化学習アルゴリズムを実装する vol3
nearme_tech
PRO
0
43
Webアプリケーションにおけるクラスの設計再入門
nearme_tech
PRO
1
110
AIエージェント for 予約フォーム
nearme_tech
PRO
2
170
Featured
See All Featured
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3k
BBQ
matthewcrist
89
9.8k
Scaling GitHub
holman
462
140k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Adopting Sorbet at Scale
ufuk
77
9.5k
Speed Design
sergeychernyshev
32
1.1k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.4k
The World Runs on Bad Software
bkeepers
PRO
70
11k
A Tale of Four Properties
chriscoyier
160
23k
Making the Leap to Tech Lead
cromwellryan
134
9.5k
Transcript
0 強化学習アルゴリズムPPOの改善案を考えてみた 2025-08-22 第128回NearMe技術勉強会 Takuma KAKINOUE
1 概要 • 強化学習の従来のオンポリシーアルゴリズムの⽋点 ◦ 良い⾏動軌跡を⾒つけて⼀度学習しても、探索するうちに忘れてしまう • 提案⼿法 ◦ 報酬が⾼かったエピソードの各ステップの⾏動確率分布を記録する
◦ “記録した分布”と”現在の⽅策が出⼒した分布”のKLダイバージェンスを計算 ◦ 算出したKLダイバージェンスを最⼩化する項を⽬的関数に加える
2 提案⼿法の実装詳細 • ベースはProximal Policy Optimization(PPO)で⽬的関数のみ以下のよう に変更した ※提案⼿法は、Anchored Policy Optimization(APO)と名付けた
• KLダイバージェンスの計算⽅向は、best→θとした ◦ bestな分布を含むように(再現できるように)θが最適化される ◦ 逆向きだとbestな分布に含まれるようになるため縛りが強くなる
3 CartPole-v1での実験結果 • 横軸:エピソード、縦軸:報酬(100エピソード移動平均) • オレンジ:従来⼿法(PPO)、⻘:提案⼿法(APO) 初期の立ち上が りは遅い(bestな 分布に縛られる ため)
良い軌跡が得られ たら、その軌跡にア ンカーされるため安 定する
4 今後の展望 • 複数エージェントで並列化訓練させる仕組みと組み合わせてみる ◦ どれか1つのエージェントが良い⾏動軌跡を発⾒したら、他のエージェントに も共有して、良い⾏動軌跡にアンカーすることで学習の安定性と効率を向上 させる狙い • スーパーマリオなどの滅多にゴールに辿り着けない環境で真価を発揮するのでは
ないかと考えているので実験してみる
5 Thank you