Upgrade to Pro — share decks privately, control downloads, hide ads and more …

応用から学ぶ強化学習

 応用から学ぶ強化学習

More Decks by NearMeの技術発表資料です

Other Decks in Technology

Transcript

  1. 0
    応用から学ぶ強化学習
    2023-06-02 第46回NearMe技術勉強会
    大神卓也

    View Slide

  2. 1
    応用から学ぶ強化学習


    View Slide

  3. 2
    強化学習
    “相互作用を伴う 目標指向型の学習”
    • エージェントが環境との相互作用を通じて学習
    • 環境から得られる報酬の最大化を目指す

    View Slide

  4. 3
    “相互作用を伴う 目標指向型の学習” のフレームワーク
    エージェント: 意思決定(行動)を行う
    環境: 行動をもとに次状態と報酬を返す
    マルコフ決定過程(Markov Decision Process, MDP)
    報酬
    行動
    状態
    エージェント 環境

    View Slide

  5. 4
    マルコフ決定過程
    “相互作用を伴う 目標指向型の学習” のフレームワーク
    将来にわたって得られる累積報酬を最大化する
    報酬
    行動
    状態
    エージェント 環境

    View Slide

  6. 5
    教師あり学習との違い
    • nステップ連続の行動を最適化する
    • 教師データとの差ではないく,報酬を目的としている

    View Slide

  7. 6
    応用事例


    View Slide

  8. 7
    応用事例
    • ロボットの制御
    • Neural Architecture Search
    • 自動運転
    • 家のエネルギーマネジメント

    View Slide

  9. 8
    ロボットの制御
    QT-opt [Kalashnikov+, 2018]
    • さまざまな物体を掴むロボット

    View Slide

  10. 9
    ロボットの制御
    状態S
    カメラの画像
    グリッパーが開いているか
    行動A
    グリッパーの位置や角度の差分
    グリッパーを閉じる/開ける
    報酬R
    物体を掴めたら+1

    View Slide

  11. 10
    Neural Architecture Search
    • ニューラルネットワークは構造によって性能が変わる
    → 人間が試行錯誤してデザイン,高コスト
    • 強化学習で性能が高いアーキテクチャを探す[Zoph+, 2017]

    View Slide

  12. 11
    Neural Architecture Search
    状態S
    固定
    行動A
    ネットワークのアーキテクチャを表すテキスト
    報酬R
    検証セットにおける性能

    View Slide

  13. 12
    自動運転
    操縦の部分の制御に強化学習が利用

    View Slide

  14. 13
    自動運転
    状態S
    マップ上の位置,障害物,速度,レーン,信号,
    交通法規,信号の状態,履歴
    行動A
    ハンドルの角度,アクセル,ブレーキ,ギアチェンジ
    報酬R
    移動距離,速度,交通規則の遵守,安全性

    View Slide

  15. 14
    家のエネルギーマネジメント
    ソーラーパネル,電気自動車のある家庭
    電気料金や発電量が時間帯によって変わる
    家電の使用量やタイミングを制御して
    • 電気料金を削減する
    • 住人が不便にならないようにする
    (例)家電をあまり使っていない時間にEVを充電

    View Slide

  16. 15
    家のエネルギーマネジメント
    状態S
    • 電気料金
    • 太陽光パネルの発電量
    行動A
    • エアコン 強さ(1, … P)
    • EV 充電量(1, …P)
    • 洗濯機 使うか使わないか(0/1)
    報酬R
    • (家庭の電気料金) + (不便さ)
    6-9時 9-12時 …
    電気料金
    (円/kWh)
    50円 300円
    発電量
    (kWh)
    80W 200W

    View Slide

  17. 16
    教師あり学習との違い(再掲)
    • nステップ連続の行動を最適化する
    • 教師データとの差ではないく,報酬を目的としている

    View Slide

  18. 17
    マルコフ決定過程のポイント
    • エージェントと環境の境界は
    • エージェントが制御可能な限界
    • 報酬は「何を達成してほしいか」
    • ≠ 「どう達成するか」

    View Slide

  19. 18
    強化学習による信号制御


    View Slide

  20. 19
    学習前

    View Slide

  21. 20
    学習後

    View Slide

  22. 21
    強化学習の枠組み

    報酬
    行動
    状態
    エージェント
    将来的にわたって得られる報酬を最大化する

    環境

    View Slide

  23. 22
    信号制御のマルコフ決定過程
    状態S
    各方向の人数,車の速度,人の待ち時間 など
    行動A
    青にする方向(南北,東西,歩行者信号)
    報酬R
    人の待ち時間 と車の待ち時間の合計

    View Slide

  24. 23
    麻雀AI


    View Slide

  25. 24
    麻雀AIの作りかた

    1. 上級者の行動を模倣するモデルの作成

    (教師あり学習)


    2. 自己対戦によるアップデート

    (強化学習)


    View Slide

  26. 25
    麻雀AIのマルコフ決定過程
    状態S
    麻雀の盤面情報
    行動A
    どの牌を捨てるか
    報酬R
    最終的な勝敗

    View Slide

  27. 26
    26
    ネット麻雀上位1.2%の七段に到達!!

    (https://tenhou.net/
    ranking.htmlを元に作成)


    View Slide

  28. 27
    参考文献
    Dmitry Kalashnikov, Alex Irpan, Peter Pastor, Julian Ibarz, Alexander Herzog, Eric Jang, Deirdre Quillen, Ethan Holly, Mrinal Kalakrishnan, Vincent
    Vanhoucke, et al. Qt-opt: Scalable deep rein-forcement learning for vision-based robotic manipulation. arXiv preprint arXiv:1806.10293, 2018.
    Barret Zoph and Quoc Le. Neural architecture search with reinforcement learning. In International Conference on Learning Representations, 2017.
    B Ravi Kiran, Ibrahim Sobh, Victor Talpaert, Patrick Mannion, Ahmad A Al Sallab, Senthil Yo-gamani, and Patrick P´erez. Deep reinforcement learning
    for autonomous driving: A survey. IEEE Transactions on Intelligent Transportation Systems, 23(6):4909–4926, 2021.
    Xu Xu, Youwei Jia, Yan Xu, Zhao Xu, Songjian Chai, and Chun Sing Lai. A multi-agent rein-forcement learning-based data-driven method for home
    energy management. IEEE Transactions on Smart Grid, 11(4):3201–3211, 2020.
    https://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-1.pdf
    Sutton, R. S., & Barto, A. G. Reinforcement Learning, second edition: An Introduction (2018) Bradford Books. (菊池 悠太, 鮫島 和行, 陣内 佑, 高橋 将文,
    谷口 尚平, 藤田 康博, 前田 新一, 松嶋 達也, 奥村 エルネスト純, 鈴木 雅大, 松尾 豊, 三上 貞芳, 山川 宏 今井 翔太, 川尻 亮真 (訳). (2020). 強化学習 第2版 森
    北出版)
    斎藤康毅 (2022). ゼロから作るDeep Learning➍ オライリージャパン

    View Slide

  29. 28
    Thank you

    View Slide