Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習ライブラリ RLlibを使ってみた
Search
NearMeの技術発表資料です
December 17, 2023
0
42
強化学習ライブラリ RLlibを使ってみた
NearMeの技術発表資料です
December 17, 2023
Tweet
Share
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
Infrastructure as Code: Intro to Pulumi
nearme_tech
1
14
OR-Toolsの中⾝ -VRPの解法について-
nearme_tech
0
52
GTFSのデータを Streamlitで可視化してみた
nearme_tech
0
40
Offset / Cursor Paginationについて
nearme_tech
2
84
⼤規模⾔語モデルの拡張(RAG)が 終わったかも知れない件について
nearme_tech
23
16k
VRPを深層強化学習で解く
nearme_tech
0
73
Let’s go monorepo - intro to Nx.dev
nearme_tech
0
23
Dynamic Vehicle Routing のシミュレーションを Streamlitで作ってみた
nearme_tech
0
68
ログ監視ツールについて調べてみた
nearme_tech
0
59
Featured
See All Featured
The Pragmatic Product Professional
lauravandoore
26
5.9k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
660
120k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
126
32k
Bash Introduction
62gerente
605
210k
Building Your Own Lightsaber
phodgson
100
5.7k
The Cost Of JavaScript in 2023
addyosmani
21
3.9k
A Tale of Four Properties
chriscoyier
153
22k
How STYLIGHT went responsive
nonsquared
92
4.8k
Mobile First: as difficult as doing things right
swwweet
217
8.6k
Optimizing for Happiness
mojombo
370
69k
BBQ
matthewcrist
80
8.8k
Building Adaptive Systems
keathley
32
1.9k
Transcript
0 強化学習ライブラリ RLlibを使ってみた 2023-12-15 第71回NearMe技術勉強会 ⼤神卓也
1 エージェントが環境とのやり取りを通じて、 得られる収益を最⼤化するような⾏動を学習する 強化学習(Reinforcement Learning) 報酬 ⾏動 状態 エージェント 環境
2 • Ray(分散並列処理のライブラリ)を使って強化学習のアルゴリズム が実装されたライブラリ • 幅広いアルゴリズムが実装されてい https://docs.ray.io/en/latest/rllib/rllib-algorithms.html • マルチエージェントRL •
オフラインRL • 高機能 • 実験管理 • ハイパーパラメータ探索 RLlibとは
3 使ってみた Proximal Policy Optimization(PPO)を使ってCartPole-v1を解く
4 台を左右に動かして棒が倒れないようにがんばる 終了条件 • 棒が倒れる • 画面外に退場 • 500ステップ耐える 報酬
• つねに+1 CartPole-v1
5 Proximal Policy Optimization(PPO)を使ってCartPole-v1を解く ソースコード https://github.com/ogami334/rllib_prac 使ってみた
6 実験管理 • Weights & Biases https://docs.ray.io/en/latest/tune/examples/tune-wandb.html 他にもいろいろな実験管理ツールと • Comet
• MLflow
7 PPOのアルゴリズム(ざっくり) 1. 環境とやり取りして経験を集める 2. 経験をもとに,収益が高くなる行動をとるように方策を更新 1, 2 を繰り返す 並列訓練
8 PPOのアルゴリズム(ざっくり) 1. 環境とやり取りして経験を集める ←複数CPUで並列実行 2. 経験をもとに,収益が高くなる行動をとるように方策を更新 1, 2 を繰り返す
並列訓練
9 並列訓練 # 6CPUで並列に経験を集めることで高速化 PPOConfig().rollouts(num_rollout_workers=6)
10 感想 • 書き方の流儀が3パターンほどあり、わかりにくい • 今回紹介した以外にも便利な機能がある • tuned examples https://github.com/ray-project/ray/tree/master/rllib/tuned_examples
• 使いこなせたら手軽に幅広いRLタスクをこなせそう
11 Thank you