強化学習ライブラリ RLlibを使ってみた

0 強化学習ライブラリ RLlibを使ってみた 2023-12-15 第71回NearMe技術勉強会⼤神卓也

1 エージェントが環境とのやり取りを通じて、得られる収益を最⼤化するような⾏動を学習する強化学習(Reinforcement Learning) 報酬⾏動状態エージェント環境

2 • Ray(分散並列処理のライブラリ)を使って強化学習のアルゴリズムが実装されたライブラリ • 幅広いアルゴリズムが実装されてい https://docs.ray.io/en/latest/rllib/rllib-algorithms.html • マルチエージェントRL •
オフラインRL • 高機能 • 実験管理 • ハイパーパラメータ探索 RLlibとは

3 使ってみた Proximal Policy Optimization(PPO)を使ってCartPole-v1を解く

4 台を左右に動かして棒が倒れないようにがんばる終了条件 • 棒が倒れる • 画面外に退場 • 500ステップ耐える報酬
• つねに+1 CartPole-v1

5 Proximal Policy Optimization(PPO)を使ってCartPole-v1を解くソースコード https://github.com/ogami334/rllib_prac 使ってみた

6 実験管理 • Weights & Biases https://docs.ray.io/en/latest/tune/examples/tune-wandb.html 他にもいろいろな実験管理ツールと • Comet
• MLflow

7 PPOのアルゴリズム(ざっくり) 1. 環境とやり取りして経験を集める 2. 経験をもとに，収益が高くなる行動をとるように方策を更新 1, 2 を繰り返す並列訓練

8 PPOのアルゴリズム(ざっくり) 1. 環境とやり取りして経験を集める ←複数CPUで並列実行 2. 経験をもとに，収益が高くなる行動をとるように方策を更新 1, 2 を繰り返す
並列訓練

9 並列訓練 # 6CPUで並列に経験を集めることで高速化 PPOConfig().rollouts(num_rollout_workers=6)

10 感想 • 書き方の流儀が3パターンほどあり、わかりにくい • 今回紹介した以外にも便利な機能がある • tuned examples https://github.com/ray-project/ray/tree/master/rllib/tuned_examples
• 使いこなせたら手軽に幅広いRLタスクをこなせそう

11 Thank you

強化学習ライブラリ RLlibを使ってみた

強化学習ライブラリ RLlibを使ってみた

NearMeの技術発表資料です

More Decks by NearMeの技術発表資料です

Featured

Transcript

0 強化学習ライブラリ RLlibを使ってみた 2023-12-15 第71回NearMe技術勉強会⼤神卓也

1 エージェントが環境とのやり取りを通じて、得られる収益を最⼤化するような⾏動を学習する強化学習(Reinforcement Learning) 報酬⾏動状態エージェント環境

2 • Ray(分散並列処理のライブラリ)を使って強化学習のアルゴリズムが実装されたライブラリ • 幅広いアルゴリズムが実装されてい https://docs.ray.io/en/latest/rllib/rllib-algorithms.html • マルチエージェントRL •

3 使ってみた Proximal Policy Optimization(PPO)を使ってCartPole-v1を解く

4 台を左右に動かして棒が倒れないようにがんばる終了条件 • 棒が倒れる • 画面外に退場 • 500ステップ耐える報酬

5 Proximal Policy Optimization(PPO)を使ってCartPole-v1を解くソースコード https://github.com/ogami334/rllib_prac 使ってみた

6 実験管理 • Weights & Biases https://docs.ray.io/en/latest/tune/examples/tune-wandb.html 他にもいろいろな実験管理ツールと • Comet

7 PPOのアルゴリズム(ざっくり) 1. 環境とやり取りして経験を集める 2. 経験をもとに，収益が高くなる行動をとるように方策を更新 1, 2 を繰り返す並列訓練

8 PPOのアルゴリズム(ざっくり) 1. 環境とやり取りして経験を集める ←複数CPUで並列実行 2. 経験をもとに，収益が高くなる行動をとるように方策を更新 1, 2 を繰り返す

9 並列訓練 # 6CPUで並列に経験を集めることで高速化 PPOConfig().rollouts(num_rollout_workers=6)

10 感想 • 書き方の流儀が3パターンほどあり、わかりにくい • 今回紹介した以外にも便利な機能がある • tuned examples https://github.com/ray-project/ray/tree/master/rllib/tuned_examples

11 Thank you