Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Reinforcement Learning and Game Theory

Reinforcement Learning and Game Theory

study seminar @ deeplab
https://deeplab-team.github.io/

Haruka Kiyohara

May 17, 2020
Tweet

More Decks by Haruka Kiyohara

Other Decks in Research

Transcript

  1. 強化学習とゲーム理論 (MARL) Reinforcement Learning x Game Theory 東京工業大学 経営工学系 清原

    明加 Haruka Kiyohara 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 1
  2. 強化学習とは? 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 5 状態s 報酬r 行動 a

    エージェント 環境 将来的に得られる報酬を最大化するよう,エージェント が行動価値/行動方策を学習し,最適化する.
  3. 強化学習とは?-前提- • エージェントが,環境のなかで得られる報酬を最大化 する最適化問題. • ただし,報酬を得るためにどうしたらよいかというの は非自明な場合が多く,また,報酬のみではスパース で扱いにくいので,途中の過程ででてくる状態や, エージェントの行動に価値を付与し,その価値を最大 化する問題に置き換える.

    • 状態や行動の価値に関しても一概に決まるものではな いため,まずは価値を推測するところから始め,推測 した価値の最大化までをひとまとめで行うことを目標 とする. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 6
  4. 強化学習とは?-方策ベース・価値ベース- • 方策ベース 状態価値Vを推測し,以降の状態価値の現在割引和を 最大化する方策π(s,a)を決定 • 価値ベース エージェントの行動価値Qを推測し,以降の行動価値 の現在割引和を最大化する行動aを決定 •

    モデルベース 環境が分かっているという仮定のもと,価値最大化を プランニング 現在割引和..同じ報酬が得られるならなるべく早く得られる方が良い,という考え方. 数学的には,割り引くことで和を発散させたくない,という意味も. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 7
  5. 強化学習とは?-最近のトレンド- • 2014年頃から再び波が来ている.(ex. AlphaGo) • 強化学習の価値関数の推論に深層学習を組み込んだ, 深層強化学習で適応可能性が広がる. • 分散学習による効率的かつ精度の高い学習. •

    一人称視点など,環境を部分的にしか観測できない エージェントの行動(方策)最適化の研究. • 環境に複数のエージェントが存在するマルチエージェ ント環境での挙動の研究. • 近年,実応用がますます注目される. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 11
  6. 強化学習とは?-マルチエージェント化と最適- 最適化の3つの視点とトレードオフ 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 12 自律分散型最適化 個別最適化 全体最適化

    全体での利益が最大に なるよう設計. 格差が存在することも. 全体/個別での利益が両方 ともそこそこ大きい. バランス型と言える. 各個人が自分の利益を 最大化するよう行動. 過剰競争などが発生.
  7. ゲーム理論について-概要- • ゲーム理論の定義 (from Wikipedia) 社会や自然界における複数主体が関わる意思決定の 問題や行動の相互依存的状況を数学的なモデルを用 いて研究する学問である. • 起源

    1944年「ゲームの理論と経済活動」 著者:数学者 ジョン・フォン・ノイマン 経済学者 オスカー・モルゲンシュテルン 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 13
  8. 問題提起 • ゲーム的状況において,個別学習させた エージェントは周囲との協調を考えた行動 を選択できるのか? • つまり,自律分散型最適化をマルチエー ジェント環境において学習させることはで きるのか? •

    人間の行うコミュニケーションの代わりと なるものを,どのように観測環境や情報と して組み込めるか? また,コミュニケーションなく協調は可能 なのか? 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 22
  9. 場面設定 • 協力 エージェント同士が協力して行動しなければ良い報酬 が得られない,全体での報酬を大きくしたい場合. • 敵対 zero-sumゲームなどの,一方が得をすれば他方が損を する状況で敵対的にエージェントを学習させたい場合. •

    影響 必ずしもエージェント間で協力して何かを達成したい 訳ではないが,他のエージェントの行動も考慮に入れ た上で最適化をしなければならない場合. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 23
  10. 以下での参考文献 • A Review of Cooperative Multi-Agent Deep Reinforcement Learning,

    Oroojlooyjadid, Afshin, and Davood Hajinezhad , 2019 https://arxiv.org/abs/1908.03963 • Paper Collection of Multi-Agent Reinforcement Learning (MARL), https://github.com/LantaoYu/MARL-Papers と,上記紹介論文のAbstractをいくつか. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 24
  11. 研究分野 • Framework • Joint Action Learning • Cooperation and

    Competition • Coordination • Security • Self-Play • Learning to Communicate • Transfer Learning • Imitation and Inverse Reinforcement Learning • Meta Learning • Application 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 26
  12. 研究分野の概観-Framework/Joint Action- • Framework あるシチュエーションを仮定して,どのような枠組み の中で収束性を担保できるかなど,アルゴリズムの話. • Joint Action Learning

    エージェントが同時に意思決定するシチュエーション を考えて,マルコフ性など収束性に関する問題への考 察を行う. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 27
  13. 研究分野の概観-3C- • Cooperation and Competition マルチエージェント環境において,エージェント同士 に協力したり,競い合ったりする状況での方策や行動 の最適化を学習させる. • Coordination

    上記Cooperationタスクにおいて,同じタイミングで エージェントがそれぞれ適切な行動を起こさないとい けない状況設定において,探索の困難性などについて 議論する. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 28
  14. 研究分野の概観-Communicate/Transfer- • Learn to Communicate(詳しくは次ページ) マルチエージェントの特にCooperativeな場面において, 情報共有や意思伝達の機能をエージェントに学習させ る.個人的には,Competitiveな状況でCommunication によって駆け引きが学習できると面白そうと思うけど, 収束性に問題があるのかあまり研究されていなさそう.

    • Transfer Learning 他のエージェントが異なる/同じ状況で学習した記録 を,別のエージェントの学習に転用できないだろう か?という発想.学習効率の向上について議論. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 30
  15. 意思疎通・情報共有の設定 • Consensus 予め人間の手によって共有する情報と範囲を決めてお き(その意味で”合意”という),共有された情報と自分 の見れる範囲の観測を基にエージェントは意思決定す る.また,全体最適の場合エージェント間の重みにつ いても取り決められていたりする. • Communication

    エージェントに,”いつ” ”誰と” ”どのようにして”情報 を共有したり,シグナルを発信したりするのかまでも 学習・決定させる.ここで送られるメッセージはあく まで環境を変化させないものと仮定されている. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 31
  16. 研究分野の概観-Imitation/Inverse/Meta- • Imitation and Inverse Reinforcement Learning 通常は報酬を最大化するようエージェントが最適方策 (行動)を学習するが,対して,最適な方策(行動)を天下 り的に与えて,そこから報酬の推定を行う,という意

    味で逆強化学習.状態数が多く探索が困難な場合に, 優秀な人間のデータを最適方策として与えることも. • Meta Learning 学習の仕方を学習する.マルチエージェントの Competitiveな状況において,メタ学習を使って変化し ていく状況に対応し,収束性課題に取り組むなど. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 32
  17. 研究分野の概観-Application- • multiple traffic signals 交通量を最大化するように,信号機の切り替えを都市 全体で調整. • bike rebalancing

    貸し自転車の店舗間移送を効率化する. • distributed resource allocation 流通システムにおいて在庫を抱えないよう資源を分配. • liquidation of stock 株の流動性の予測やポートフォリオ最適化など. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 33
  18. モデル選択の自由度 • 使用するモデル 方策ベース?価値ベース? • 観測範囲 state, action, rewardについて, 各々local,

    neighbor, globalのどの範囲で観察できるか? • ConsensusとCommunication どの範囲での情報共有を設定するか? • 階層(ヒエラルキー) 中央集権的に行うか?どこまで自主性に任せるか? • その他 RNN, GNN, Attention, Importance Sampling, Distributed, etc. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 34
  19. 補足-観測範囲について- 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 35 Fully Observable (すべてのエージェントが) すべての状態や報酬を観測できる.

    Partially Observable 各エージェントは,自分の周りの近くの 状態や報酬のみ観測できる. 観測の共有をConsensusで決定. ・観測を全エージェント間で共有 ・観測を近傍のエージェントや,サブグ ループ内でのみ共有 ・エージェント間の共有は行わない Share? or not? globally locally individually
  20. 補足-階層について- 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 36 Centralized Decentralized 中央集権型 エージェントを統括して

    全体を見る仮想エージェ ントがいるイメージ. サブグループ型のさらに 上のエージェントなども. サブグループ型 近傍のエージェントとな どサブグループを生成し, その中を統括するリーダ ーエージェントが存在し ているイメージ. 自律分散型 各エージェントが個別に 意思決定を行い,全体を 統括するエージェントが 存在しないイメージ.
  21. 補足-その他(1)- • RNN.. 価値の推定に,自身の時系列の過去経験から内部状態 を保持・使用する.LSTM, GRUなど. • GNN.. エージェントをノード,エージェント間の関係をエッ ジとみるとグラフとして全体を把握できる.

    • Attention.. 全体でのpolicy, Qの決定を行う際に,各エージェント の持つ予測モデルの重みづけができる. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 37
  22. 補足-その他(2)- • Importance Sampling.. 重みづけをした場合など,重みに応じてSampling Rate を変えることで,優先付けしてサンプリングできる. • Distributed Learning..

    あるエージェントで学習した結果を他のエージェント でも活用できるようにすることで,分散的に学習を行 うことができ,学習効率が向上する.ただし,基本的 に他のエージェントの行動を観測できないようにして いる場合などは,経験をどこまで他のエージェントが 活用できるようにするかは議論がある. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 38
  23. ホットトピック • Off-policy MARL 他のエージェントも含めた状況で,行動方策から最適 な方策を学習する. • Safe MARL 長期的利益を最大化しつつ,決定的な打撃をさけるた

    めのリスク回避を行いたい. • Heterogeneous MARL 一様なエージェントではなく,技能などに個性を持っ たエージェントでの最適化. • Optimization in MARL マルチエージェント環境での最適化問題を解く数学. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 39
  24. 問題提起(再掲) • ゲーム的状況において,個別学習させた エージェントは周囲との協調を考えた行動 を選択できるのか?⇒できる • つまり,自律分散型最適化をマルチエー ジェント環境において学習させることはで きるのか?⇒できそう •

    人間の行うコミュニケーションの代わりと なるものを,どのように観測環境や情報と して組み込めるか? また,コミュニケーションなく協調は可能 なのか? ⇒ConsensusとCommunicationを導入できる 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 40
  25. Appendix. 強化学習ライブラリ • OpenAI Gym Atariゲームなど,強化学習の一般的なタスクについて 実装されているライブラリ. https://gym.openai.com/ • OpenSpiel

    バックギャモンや囲碁など,幅広く対戦型のゲームの タスクについて実装されているライブラリ. https://deepmind.com/research/open-source/openspiel • Arena 多くのMARLの実行環境を備え,MARLのベースライン タスクを作ろうというモチベでつくられたライブラリ. https://sites.google.com/view/arena-unity/ 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 42