Upgrade to Pro — share decks privately, control downloads, hide ads and more …

強化学習における好奇心

 強化学習における好奇心

【2020年アップデート版】
強化学習では,環境で得られる報酬がスパースである場合,うまく学習することができない.この問題を解決するための手法として,強化学習のエージェントに「好奇心」を与える研究が注目されている.本スライドでは,深層強化学習の登場以降に発表された「好奇心」を利用した強化学習の研究をまとめた.特に主要ベンチマークであるMontezuma's Revengeで高いパフォーマンスを発揮したアルゴリズムについて詳しく解説する.また,「好奇心」による探索を報酬がスパースな場合以外の強化学習に適用した場合の最新研究についても紹介する.
現在は,本資料の修正・アップデート版を以下で公開しています.
【強化学習における好奇心】
https://www.slideshare.net/ShotaImai3/curiosity-reinforcement-learning-238344056

また,強化学習や深層強化学習の基礎,主要なアルゴリズムについては以下の資料で解説を行なっています.
【強化学習の基礎と深層強化学習】
https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning

・Unifying Count-Based Exploration and Intrinsic Motivation
・Variational Information Maximisation for Intrinsically Motivated Reinforcement Learning
・#Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning
・EX2: Exploration with Exemplar Models for Deep Reinforcement Learning
・EXPLORATION BY RANDOM NETWORK DISTILLATION
・Go-Explore: a New Approach for Hard-Exploration Problems
・EPISODIC CURIOSITY THROUGH REACHABILITY
・Visceral Machines: Risk-Aversion in Reinforcement Learning with Intrinsic Physiological Rewards
・Learning Gentle Object Manipulation with Curiosity-Driven Deep Reinforcement Learning

More Decks by 今井翔太(えるエル)

Other Decks in Research

Transcript

  1. ⾃⼰紹介 今井 翔太(Shota Imai) n所属:東京⼤学 松尾研究室 n研究分野:強化学習、マルチエージェント強化学習, ゲームAI n最近の活動など -

    深層強化学習サマースクール,⾼専AIサマースクール講師 - Sutton著『Reinforcement Learning』翻訳 - メディア記事執筆 - ゲームAIに関する書籍の執筆 • Shota Imai | The University of Tokyo 4 Twitter:えるエル@lmAI_Eruel
  2. ⽬次 n強化学習・深層強化学習の基礎 n報酬がスパースな環境と好奇⼼による探索 n論⽂紹介 - 環境から得る情報量を⽤いた内発的報酬 - 疑似的な状態カウントと内発的報酬を組み合わせた探索 - 状態のハッシュ化を⽤いたカウントによる内発的報酬

    - 観測の識別器を⽤いて推定した密度を内発的報酬とする探索 - まったく報酬が与えられない環境における探索 - ⾃分に関係あるものだけに注⽬した好奇⼼による探索 - ランダム初期化したネットワークの蒸留と予測誤差による内発的報酬 - 過去に保存した良い状態に戻ってスタート地点とする探索⼿法 - その他好奇⼼による探索⼿法 n参考⽂献 nおまけ/強化学習の勉強資料紹介 5
  3. ⽬次 n強化学習・深層強化学習の基礎 n報酬がスパースな環境と好奇⼼による探索 n論⽂紹介 - 環境から得る情報量を⽤いた内発的報酬 - 疑似的な状態カウントと内発的報酬を組み合わせた探索 - 状態のハッシュ化を⽤いたカウントによる内発的報酬

    - 観測の識別器を⽤いて推定した密度を内発的報酬とする探索 - まったく報酬が与えられない環境における探索 - ⾃分に関係あるものだけに注⽬した好奇⼼による探索 - ランダム初期化したネットワークの蒸留と予測誤差による内発的報酬 - 過去に保存した良い状態に戻ってスタート地点とする探索⼿法 - その他好奇⼼による探索⼿法 n参考⽂献 nおまけ/強化学習の勉強資料紹介 6
  4. 強化学習 ⽤語 1 簡単に出てくる⽤語のみ解説します nエージェント - ⾏動の主体 n環境 - エージェントが⾏動を実⾏して試⾏錯誤を⾏い

    - 報酬を受け取る場所 n⾏動(Action) - 環境内のエージェントの⾏動 n状態(State) - エージェントが環境から受け取る観測 n報酬(Reward) - 環境内での⾏動に対し環境から与えられる評価値. - 複数⾏動の結果得る報酬和の最⼤化が強化学習の⽬的 7
  5. 強化学習 ⽤語 2 n軌道(Trajectory) - 環境における状態,⾏動,報酬の列 n⽅策(Policy) - 状態の⼊⼒に対して⾏動を返す.強化学習における学習対象 •

    決定論的⽅策:() = • 確率的⽅策:(|) = [|] n価値関数(Value function) - ある状態や⾏動に対する,将来的な報酬和を考慮した評価値 n遷移確率 - ある状態! で⾏動! を⾏った場合にある状態!"# に遷移する確率P[!"# |! , ! ] 8
  6. DQN系統のアルゴリズム 本資料で,⽐較アルゴリズムとして出てくるのは以下 nDQN(Deep-Q-Network) - 最初の深層強化学習アルゴリズム - Q値を出⼒する深層ニューラルネットを学習 - 過去の経験を貯めるExperience Replayや損失関数の教師信号を出⼒するTarget

    Networkを 導⼊ nDDQN(Double DQN) - DQNの損失関数で,ターゲットで使う⾏動価値評価を⾏うネットワークと,評価する⾏動価値 の⾏動を選択するネットワークを分離 nDueling Network - ⾏動価値関数には,⾏動による影響を受けない部分が含まれるため分離 - ⾏動による影響が⼤きいアドバンテージ関数と⾏動が関係ない状態価値関数に分ける 10
  7. 分散型深層強化学習 nA3C(Asynchronous Advantage Actor-Critic) - 複数エージェントで探索を⾏い,⾮同期に勾配情報をparameter serverに送り,本命の⽅策を - 更新 -

    ⽅策と価値関数評価のNN出⼒を分けたActor-Criticアルゴリズム - 価値関数は複数ステップ先を考慮した更新を⾏う - CPUで効率的な学習可 nGorila(General Reinforcement Learning Architecture) - Experience Replayに経験を集めるActor,ネットワークのパラメータ情報を保持するParameter Server,勾配を計算するLearnerで構成 - 複数のゲームでDQNより遥かに⾼速に⾼パフォーマンス 11
  8. ⽅策更新の安定化⼿法 ⽅策更新の際,場合によって突然⼤幅に偏った⽅向に 更新されることを防ぐため,⽅策更 新の範囲に制約を設けたアルゴリズム nTRPO(Trust Region Policy Optimization) - ⽅策の⼤幅な更新を防ぐため,ニューラルネットの

    パラメータ更新に制約を加える - 更新前と更新後のパラメータのKLダイバージェンスの値が以下(信頼区間 Trust Region)に なるよう制約 nPPO(Proximal Policy Optimization) - TRPOは実装が複雑であり,アルゴリズムのアーキテクチャによっては適応不可なので, 制約条件を改善 - 更新前と更新後のパラメータの⽐を⽅策更新量に応じてクリッピングすることで,⽅策の更新 を抑える 12
  9. Montezumaʼs Revenge 弱すぎる主⼈公 1 マリオ モンテズマ 落 下 落 下

    グシャ! ⾼所からの落下で も⼤丈夫 低所から の落下で も死亡 20
  10. Montezumaʼs Revenge 弱すぎる主⼈公 2 マリオのジャンプ モンテズマのジャンプ Ø 余裕で敵を⾶び越えられ る Ø

    空中のブロックも楽々⾶ び移れる Ø 敵を⾶び越えることすら難しい低空ジャ ンプ Ø タイミングを⾒計らってジャンプしない と激突して即死 Ø ジャンプで⾼台に⾶び移ることは不可能 21
  11. ⽬次 n強化学習・深層強化学習の基礎 n報酬がスパースな環境と好奇⼼による探索 n論⽂紹介 - 環境から得る情報量を⽤いた内発的報酬 - 疑似的な状態カウントと内発的報酬を組み合わせた探索 - 状態のハッシュ化を⽤いたカウントによる内発的報酬

    - 観測の識別器を⽤いて推定した密度を内発的報酬とする探索 - まったく報酬が与えられない環境における探索 - ⾃分に関係あるものだけに注⽬した好奇⼼による探索 - ランダム初期化したネットワークの蒸留と予測誤差による内発的報酬 - 過去に保存した良い状態に戻ってスタート地点とする探索⼿法 - その他好奇⼼による探索⼿法 n参考⽂献 nおまけ/強化学習の勉強資料紹介 24
  12. 内発的報酬による探索の例 MBIB-EB カウントによる内発的報酬 nある状態で選択した⾏動aの回数をカウントし,(, )とする n(, )の逆数を内発的報酬として与えると,(, )が少ない (新規性が⾼い)状態遷移の 価値評価が⾼まる

    内発的報酬 (, $%&'! )=4 (, ()*! )=2 (, +,-. )=4 (, /0 )=1 いままであまり選択しなかった⾏動を選択 すると,内発的報酬は, (, !" ) = 1 (, #$%& ) = 2 と⼤きくなり,⾏動価値, * , !" や * , #$%& は⾼く評価される ⼀⽅,今まで何度も選択した⾏動を選択す ると,内発的報酬は, (, '()* ) = (, +,-.& ) = 2 と⼩さくなり,⾏動価値, * , '()* や * , +,-.& は低く評価される 33
  13. ⽬次 n強化学習・深層強化学習の基礎 n報酬がスパースな環境と好奇⼼による探索 n論⽂紹介 - 環境から得る情報量を⽤いた内発的報酬 - 疑似的な状態カウントと内発的報酬を組み合わせた探索 - 状態のハッシュ化を⽤いたカウントによる内発的報酬

    - 観測の識別器を⽤いて推定した密度を内発的報酬とする探索 - まったく報酬が与えられない環境における探索 - ⾃分に関係あるものだけに注⽬した好奇⼼による探索 - ランダム初期化したネットワークの蒸留と予測誤差による内発的報酬 - 過去に保存した良い状態に戻ってスタート地点とする探索⼿法 - その他好奇⼼による探索⼿法 n参考⽂献 nおまけ/強化学習の勉強資料紹介 35
  14. 情報量の改善による内発的報酬の⽣成⽅式 37 n環境に対する情報量Iの改善を内発的報酬とみなす n情報量Iはとある状態+ における遷移確率の分布と, + から+,- に遷移した 後の分布のKLダイバージェンス(確率分布間の距離)で表す 記号

    p = {! , ! , . . . , " }:時刻までの状態と⾏動による遷移の列 p" :時刻tにおける状態 p" :時刻tでとった⾏動 p "#! " , " ; :" で⾏動" を選択したとき状態"#! に遷移する確率.θでパラメトライズ 情報量改善の式 内発的報酬そのも の
  15. 遷移確率の分布とKLダイバージェンス (|ξ! , a" , s"#$ ) (|ξ! ) ⾏動+

    ⾏動前の遷移確率は ⾚⾊の分布 ⾏動& によって状態&/0 に遷移後は⻘⾊の分布に 分布がどれだけ変形したか,状態!"# に遷移してどれだけの情報を得たかを, 確率分布間のKLダイバージェンスで測り,変化分を報酬としている 38
  16. 状態の密度推定を⽤いた疑似カウント n状態の密度を推定することで,状態の疑似カウントが可能となる n以下,必要な記号の定義と疑似カウントの導出 記号 42 :n回⽬の状態遷移後とある状態xである確率(密度) ←疑似カウントの総数,xの疑 似カウント共に1を加えるだ け :n回⽬の状態遷移後にxを観測したという前提で,n+1

    回⽬ の状態遷移後再びとある状態xを観測する確率 ここで,. を全ての状態の疑似カウントの合計, / (x)を ある 状態の疑似カウントとするすると,先ほどのと ’は, と計算可能. この⼆つの値を⽤いて式変形すると, となり,どうやら,の密度()と全状態の疑似カウントさえ求 めれば, の疑似カウントを計算できるとわかる
  17. 密度の計算法 n例えば2×2マスのブロックで,各セルが確率的に選ばれた⾊(⾚,⻘,⻩,緑)で 塗られるとする n何個かブロックを⽣成すると,以下のようになった Ø ここで,9回⽬にまたブロックを⽣成するとして,⻩緑緑緑のブロックが出る 確率は? →7回⽬に同じ組み合わせが出ている.8回中1回この組み合わせが出ているので 出現確率は直観的に1/8 Ø

    じゃあ,緑⻩⾚⾚の⽣成確率は? 同じ組み合わせはなさそうなので,確率0? →左上のセルに緑が2/8,右上のセルに⻩が3/8,左下のセルに⾚が1/8,右下の セルに⾚が3/8の頻度で発⽣しているので,2/8×3/8×1/8×3/8=18/4096= 0.004が⽣成確率(密度)と⾔えそう 生成回数 左上 右上 左下 右下 1 赤 青 黄 緑 2 赤 青 黄 青 3 黄 黄 緑 赤 4 緑 黄 緑 青 5 赤 青 青 赤 6 緑 青 赤 黄 7 黄 緑 緑 緑 8 青 黄 黄 赤 43
  18. 状態のハッシュ化を⽤いたカウントによる内発的報酬 #Exploration: A Study of Count-Based Exploration for Deep Reinforcement

    Learning[Haoran+] 論⽂概要 n⾼次元な探索空間でも,疑似カウントではない普通の状態カウントを⽤いた内発 的報酬を得るため,状態をハッシュ化 n状態をハッシュ化する前の良い特徴抽出法についても検討 49
  19. 観測の識別器を⽤いて推定した密度を内発的報酬とする探索 EX2: Exploration with Exemplar Models for Deep Reinforcement Learning

    [Fu+] 論⽂概要 n新しい状態は現在までに観測していない明らかに違う状態であるため,あるモデルで他 の状態と簡単に識別可能 n簡単に判別できる状態=新しい状態とし,観測した状態を他の状態と識別するモデルの 出⼒を⽤いて内発的報酬を⽣成 59
  20. 実験評価 n提案⼿法の有効性を評価するため,以下のベンチマークで評価 - 単純な2次元迷路タスク:2D Maze - 物体制御タスク:SwimmerGather, SparseHalfCheetah - 観測が第三者視点のAtariゲーム:Freeway,

    Frostbite, Venture - 観測が⼀⼈称視点の探索:VizDoom n⽐較⼿法 - 提案⼿法の2モデル:k-exemplar - ⼀般的な⽅策学習⼿法:TRPO - カーネル密度推定による報酬:KDE - ハッシュによる状態カウント:Hashing - 情報量の改善による内的報酬:VIME 64
  21. まったく報酬が与えられない環境における探索 (ICLR2019 Accepted) Large-Scale Study of Curiosity-Driven Learning [Burda, Edwards,

    Pathak+] 論⽂概要 n様々なゲームの強化学習で「外的な報酬がまったくない場合にどれくらいパフォーマン スを発揮できるかを検討した論⽂ nVAEなどを⽤いた画像からの特徴抽出や学習の様々な⼯夫を⽤い,内発的報酬のみで複数 ゲームで⾼パフォーマンスを確認 67
  22. 予測誤差による内的報酬⽣成 n観測0 と,その時選択する⾏動0 から,次の観測01+ がどうなるか予測するモデル (0, 0)を考える(順モデル) nモデルの出⼒と実際に0 で0 を選択した場合の次の観測01+

    を⽤いて⼆乗誤差を計算し, NNを学習 n既に観測した遷移は予測精度が⾼くなり(⼆乗誤差が⼩さくなる),観測が少ない遷移 は予測精度が低くなる(⼆乗誤差が⼤きい) 68
  23. ICMのアーキテクチャ 逆モデル 順モデ ル 内的報酬⽣成 Ø 状態& と次の状態 &/0 の特徴を獲得

    Ø 2つの特徴から間 の⾏動を予測 →良い特徴抽出が できるφを学習 Φ(& )と& を⼊⼒し, 次の状態の予測値 / (&/0)を出⼒ 81
  24. 実験/VizDoom VizDoomを⽤い,テスト環境での報酬獲得の難易度を調整しつつ 迷路探索課題を⾏う Ø Train Mapで⼀切の外部報 酬なしに事前学習を⾏う Ø Test Mapでは,報酬の獲得

    難易度を調整するため, エージェントの発⽣地点 (⻘点)を変える Ø ゴールに到達した場合に外 部報酬+1それ以外は0 以下の設定で,エージェントのスタート地点を変更する (a)報酬が多い場合(dense):⻘点のどこか (b)報酬がスパースな場合(sparse):Room13 ゴールまで270ステップ (c)報酬が極めてスパースな場合(very sparse):Room17 ゴールまで350 ステップ 85
  25. マリオ攻略/実験結果 Level-1→Level-2 Level-2のみで学習すると, fine-tuningほどの性能はでない Level-1で学習した モデルをそのまま使 ⽤ まったく攻略できな い Ø

    Level1で学習したモデルをそのまま使うと,まったく性能がでない →Level1とLevel2のステージは外観の違いが⼤きいため Ø 後述のLevel-3の議論にもあるが,ステージ構造⾃体は問題ではない fine-tuningで 劇的に改善 90
  26. ランダム初期化したネットワークの蒸留と 予測誤差による内発的報酬 EXPLORATION BY RANDOM NETWORK DISTILLATION [Burda,Edwards+] 論⽂概要 n状態を⼊⼒する⼆つのネットワークとして,ランダムに初期化したネットワークと,

    このネットワークの出⼒を真似るよう蒸留するネットワークを⽤意 n両⽅のネットワークの出⼒の誤差を内発的報酬とし,新しい状態に対して探索を促進 nRL⼿法として初めてMontezuma’s Revengeで⼈間を超えるスコア 94
  27. 本⼿法で利⽤したいニューラルネットの特性 1. 単純に学習が不⾜している 2. 出⼒が確率的である(先ほど紹介したNoisy TV問題) 3. モデルがよくない 4. ネットワーク内の最適化プロセスがよくない

    1を利⽤すると,今まで散々悩んできた未知の状態の 評価がうまくいくのでは? また,ニューラルネットは似た⼊⼒に対しては似た出⼒をするため,状態が⾼次元でも状 態の近さを考慮した 評価が可能 →この論⽂のアイディア 95
  28. Random Network Distillationによる内発的報酬⽣成 n ⼆つのネットワーク,ターゲットネットワーク,予測ネットワークを⽤意 n 両ネットワークに,評価したい状態を⼊⼒ n 予測ネットはターゲットの出⼒を真似るよう学習を⾏い,両出⼒の⼆乗誤差が内的報酬 となる

    n →新しく観測した状態に⼤しては内発的報酬が⼤きくなる 96 ゲーム 画像! ゲーム 画像! ターゲットネットワーク →出⼒を真似される側 ランダムに初期化する 予測ネットワーク →出⼒をマネする側 ターゲットの出⼒を真似できる よう学習(蒸留)を⾏う 同じ構造のモデル 蒸留 ターゲット ネットの出⼒ 予測ネットの 出⼒ 外部報酬etと⾜し合わせ,最終的な報酬とする 予測誤差による内的報酬
  29. 過去に保存した良い状態に戻ってスタート地点とする 探索⼿法 Go-Explore: a New Approach for Hard-Exploration Problems [Ecoffet+]

    論⽂概要 n報酬がスパースな環境で,従来の好奇⼼による探索とはまったく違う探索⼿法を提案 n学習を2段階に分け,第1段階で状態の記憶とスタート地点の変更による探索,第2段 階でデモ軌道ロバストな⽅策を獲得 nMontezumaʼs RevengeでRNDを超えSOTA n今まで紹介してきた好奇⼼/内発的報酬に よる探索⼿法とは異なる枠組みの⼿法 104
  30. フェーズ1 状態の保存と始点変更による探索 ⽬標状態に到達できる軌道を得るため,タスクの⽬標状態到達まで, 以下の⼿順を繰り返す 1. あるCellからエージェントをスタートさせる.このCellはArchiveから選択 (Go back to it)

    2. 移動⽤の⽅策でCellまで移動する 3. Cellからランダム探索し,特定の状態,または軌道に遭遇したとき,Archiveに状態と 軌道を保存(Explore from it) 4. 探索を終了し,1に戻る 107
  31. Backwards Imitation Learning n デモンストレーションの軌道の中で,終 端から始点に向かって数ステップずつ学 習する 1. 終端からスタート 2.

    kステップ分,始点⽅向へ戻る 3. 戻った先から,スタート地点となった終 端まで⾏動する このときの動きで得た軌道のスコア≧オリ ジナル軌道のスコアとなるまで3を実⾏ 4. 終端をずらして1に戻る nこれらの⼿順を,元のデモンストレーショ ンの始点にたどり着くまで実⾏ 114
  32. ⼈間の⽣体反応から学び,危険に対する応答を内発的報酬とす る⼿法(ICLR2019 Accepted) Visceral Machines: Risk-Aversion in Reinforcement Learning with

    Intrinsic Physiological Rewards [McDuff+] 論⽂概要 n⼈間は,危険が近づいたとき,⾃律神経の働きによる⽣体反応を元に内発的なフィード バックを得て⾏動選択を⾏っている n運転時の観測画像と,運転者の⽣体反応パルスを⽤いて学習したCNNの出⼒により 内発的報酬を⽣成 n運転タスクで本⼿法を適⽤することで,サンプル効率を改善し,エピソード終了 (衝突)までの時間も上昇 120
  33. 観測した状態と過去に観測した状態からの離れ具合で内発的報酬 を⽣成(ICLR2019 Accepted) EPISODIC CURIOSITY THROUGH REACHABILITY [Savinov, Raichuk, Marinier+]

    論⽂概要 n観測の記憶機構を導⼊し,現在の観測と過去の観測を⽐較することで,内的報酬を⽣成 n埋め込みにより観測の表現を獲得し,現在の状態と過去の状態の観測がステップ数的に 離れていれば⼤きな内発的報酬を⽣成 123
  34. 提案⼿法の構成 nReachability network(R-net) 状態を埋め込むEmbedding networkと埋め込み表現から状態間ステップ数を計り,閾値と⽐較して0か1を出⼒す るComparator networkで構成 nMemory buffer 過去に⼤きな内発的報酬を得た状態表現を保存する

    nReachability buffer R-netにより,現在の観測とMemory buffer内の全状態を⽐較した結果を保存 nReward bonus estimation module Rechability bufferの要素全てを⼊⼒とし,内発的報酬を決定 124
  35. 壊れやすい物体操作のための優しい操作を内発的報酬により 獲得 Learning Gentle Object Manipulation with Curiosity-Driven Deep Reinforcement

    Learning [Huang, Zambelli] 論⽂概要 nロボットによる壊れやすい物体操作には,強すぎる操作をした場合の罰則を与える必要 があるが,これだけでは局所解に陥る nこれを回避するため,ペナルティに加えて,環境に対する予測誤差の内発的報酬と, ペナルティに対する予測誤差の内的報酬を導⼊ https://sites.google.com/view/gentlemanipulation 126
  36. 複数の内発的報酬の導⼊ nImpact Penelty: 時刻でエージェントが与えた衝撃に対する罰則報酬 nDeynamics-based surprise 複数ネットワークに⾏動と状態を⼊⼒し,各ネットワークの出⼒の分散が⼤きければ ⼤きな報酬を⽣成 nPenalty-based surprise

    Dynamicsの場合と同じく,複数ネットワークに状態と⾏動を⼊⼒した場合の出⼒の分散を 元に報酬⽣成 最終的な報酬はタスク報酬と これらの組み合わせ 学習⼿法としてはD4PGを使⽤ 127
  37. ⽬次 n強化学習・深層強化学習の基礎 n報酬なスパースな環境と好奇⼼による探索 n論⽂紹介 - 環境から得る情報量を⽤いた内発的報酬 - 疑似的な状態カウントと内発的報酬を組み合わせた探索 - 状態のハッシュ化を⽤いたカウントによる内発的報酬

    - 観測の識別器を⽤いて推定した密度を内発的報酬とする探索 - まったく報酬が与えられない環境における探索 - ⾃分に関係あるものだけに注⽬した好奇⼼による探索 - ランダム初期化したネットワークの蒸留と予測誤差による内発的報酬 - 過去に保存した良い状態に戻ってスタート地点とする探索⼿法 - その他好奇⼼による探索⼿法 n参考⽂献 nおまけ/強化学習の勉強資料紹介 129
  38. 参考⽂献,サイト,資料 1 強化学習・深層強化学習の基礎 nRichard S Sutton and Andrew G Barto.

    Reinforcement learning: An introduction, volume 1. Bradford, 1998. nDavid Silver, Aja Huang, Chris J Maddison, Arthur Guez, Laurent Sifre, George Van Den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, et al. Mastering the game of go with deep neural networks and tree search. Nature, 529(7587):484‒489, 2016. nHado Van Hasselt, Arthur Guez, and David Silver. Deep reinforcement learning with double q-learning. In AAAI, volume 2, page 5. Phoenix, AZ, 2016. nZiyu Wang, Nando de Freitas, and Marc Lanctot. Dueling network architectures for deep reinforcement learning. In ICML, 2016. nVolodymyr Mnih, Adria Puigdomenech Badia, Mehdi Mirza, Alex Graves, Timothy Lillicrap, Tim Harley, David Silver, and Koray Kavukcuoglu. Asynchronous methods for deep reinforcement learning. In ICML, pages 1928‒1937, 2016. nArun Nair, Praveen Srinivasan, Sam Blackwell, Cagdas Alcicek, Rory Fearon, Alessandro De Maria, Vedavyas Panneershelvam, Mustafa Suleyman, Charles Beattie, Stig Petersen, et al. Massively parallel methods for deep reinforcement learning. arXiv preprint arXiv:1507.04296, 2015. nJ. Schulman, S. Levine, P. Moritz, M. I. Jordan, and P. Abbeel, “Trust region policy optimization”, in ICML, 2015. nJohn Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization algorithms. CoRR, abs/1707.06347, 2017. nY. Duan, X. Chen, R. Houthooft, J. Schulman, and P. Abbeel, “Benchmarking deep reinforcement learning for continous control”, in ICML, 2016. nBellemare, Marc G, Naddaf, Yavar, Veness, Joel, and Bowling, Michael. The arcade learning environment 130
  39. 参考⽂献,サイト,資料 2 報酬なスパースな環境と好奇⼼による探索 n Greg Brockman, Vicki Cheung, Ludwig Pettersson,

    Jonas Schneider, John Schulman, Jie Tang, and Wojciech Zaremba. Openai gym, 2016. n Unity ML-agents. https://github.com/Unity-Technologies/ml-agents. n S. P. Singh, A. G. Barto, and N. Chentanez. Intrinsically motivated reinforcement learning. In NIPS, 2005. n Strehl, A. L. and Littman, M. L. (2008). An analysis of model-based interval estimation for Markov decision processes. Journal of Computer and System Sciences, 74(8):1309 ‒ 1331. 論⽂紹介 環境から得る情報量を⽤いた内発的報酬 n R. Houthooft, X. Chen, Y. Duan, J. Schulman, F. De Turck, and P. Abbeel. Vime: Variational information maximizing exploration. In NIPS, 2016. n Stadie, B. C., Levine, S., and Abbeel, P. (2015). Incentivizing exploration in reinforcement learning with deep predictive models. arXiv preprint arXiv:1507.00814. 疑似的な状態カウントと内発的報酬を組み合わせた探索 n Marc Bellemare, Sriram Srinivasan, Georg Ostrovski, Tom Schaul, David Saxton, and Remi Munos. Unifying count-based exploration and intrinsic motivation. In NIPS, pages 1471‒1479, 2016. n Bellemare, M., Veness, J., and Talvitie, E. (2014). Skip context tree switching. In Proceedings of the 31st International Conference on Machine Learning, pages 1458‒1466. 状態のハッシュ化を⽤いたカウントによる内発的報酬 n Haoran Tang, Rein Houthooft, Davis Foote, Adam Stooke, OpenAI Xi Chen, Yan Duan, John Schulman, Filip DeTurck, and Pieter Abbeel. # exploration: A study of count-based exploration for deep reinforcement learning. In NIPS, pages 2750‒2759, 2017. n Charikar, Moses S. Similarity estimation techniques from rounding algorithms. In Proceedings of the 34th Annual ACM Symposium on Theory of Computing (STOC), pp. 380‒388, 2002. 131
  40. 参考⽂献,サイト,資料 3 観測の識別器を⽤いて推定した密度を内発的報酬とする探索 nJ. Fu, J. D. Co-Reyes, and S.

    Levine. EX2: Exploration with exemplar models for deep reinforcement learning. NIPS, 2017. まったく報酬が与えられない環境における探索 nYuri Burda, Harri Edwards, Deepak Pathak, Amos Storkey, Trevor Darrell, and Alexei A. Efros. Large-scale study of curiosity-driven learning. In arXiv:1808.04355, 2018. ⾃分に関係あるものだけに注⽬した好奇⼼による探索 nDeepak Pathak, Pulkit Agrawal, Alexei A. Efros, and Trevor Darrell. Curiosity-driven exploration by self- supervised prediction. In ICML, 2017. ランダム初期化したネットワークの蒸留と予測誤差による内発的報酬 nYuri Burda, Harrison Edwards, Amos Storkey, and Oleg Klimov. Exploration by random network distillation. arXiv preprint arXiv:1810.12894, 2018. 過去に保存した良い状態に戻ってスタート地点とする探索⼿法 nAdrien Ecoffet, Joost Huizinga, Joel Lehman, Kenneth O Stanley, and Jeff Clune. 2019. Go-Explore: a New Approach for Hard-Exploration Problems. arXiv preprint arXiv:1901.10995 (2019) nTim Salimans and Richard Chen. Learning montezumaʼs revenge from a single demonstration. arXiv preprint arXiv:1812.03381, 2018. nReinforcement Learning @ NeurIPS2018 https://www.slideshare.net/yukono1/reinforcement-learning- neurips2018 n2018-12-07-NeurIPS-DeepRLWorkshop-Go-Explore http://www.cs.uwyo.edu/~jeffclune/share/2018_12_07_NeurIPS_DeepRLWorkshop_Go_Explore.pdf 132
  41. 参考⽂献,サイト,資料 4 その他好奇⼼による探索⼿法 n Nikolay Savinov, Anton Raichuk, Raphael Marinier,

    Damien Vincent, Marc Pollefeys, Timothy Lillicrap, and Sylvain Gelly. Episodic curiosity through reachability. arXiv preprint arXiv:1810.0227, 2018. n Daniel McDuff and Ashish Kapoor. Visceral Machines: Reinforcement Learning with Intrinsic Rewards that Mimic the Human Nervous System. arXiv preprint arXiv:1805.09975, 2018. n Sandy H. Huang and Martina Zambelli and Jackie Kay and Murilo F. Martins and Yuval Tassa and Patrick M. Pilarski and Raia Hadsell. Learning Gentle Object Manipulation with Curiosity-Driven Deep Reinforcement Learning. arXiv preprint arXiv:1903.08542, 2019 133
  42. ⽬次 n強化学習・深層強化学習の基礎 n報酬なスパースな環境と好奇⼼による探索 n論⽂紹介 - 環境から得る情報量を⽤いた内発的報酬 - 疑似的な状態カウントと内発的報酬を組み合わせた探索 - 状態のハッシュ化を⽤いたカウントによる内発的報酬

    - 観測の識別器を⽤いて推定した密度を内発的報酬とする探索 - まったく報酬が与えられない環境における探索 - ⾃分に関係あるものだけに注⽬した好奇⼼による探索 - ランダム初期化したネットワークの蒸留と予測誤差による内発的報酬 - 過去に保存した良い状態に戻ってスタート地点とする探索⼿法 - その他好奇⼼による探索⼿法 n参考⽂献 nおまけ/強化学習の勉強資料紹介 134
  43. piqcy本の実装はTensorFlowベースなのに対し,こち らはPytorchベースで解説.網羅度は⾼くなく,古典 的強化学習の話題がほんの少しと,PyTorchによる深 層強化学習アルゴリズムの実装がほとんどを占める. PyTorchを中⼼に使っているのであれば,piqcy本と セットで使うのもあり.後半にはAWSのGPUインス タンス環境構築法や,学習⼿順が載っている. 今から強化学習を始めるならまずはこの⼀冊.知識 の網羅度も極めて⾼く,古典的強化学習から深層強 化学習までPythonコード付きで解説.後半はトップ

    カンファレンスに出てくるような論⽂の内容を交え, 発展的な話題.著者のTwitterアカウント名から 「piqcy本」,表紙から「緑本」などと呼ばれたり. ⼊⾨者向けの参考書 n⼊⾨者にオススメの書籍 機械学習スタートアップシリーズ 1ZUIPOで学ぶ強化学習 ⼊⾨から実践まで 久保 隆宏 著 つくりながら学ぶ深層強化学習 d1Z5PSDIによる実践プログラミングd 株式会社電通国際情報サービス ⼩川雄太郎 136
  44. おまけ/Web上のリソース1 分野別 n強化学習本のバイブル,通称”Sutton本”の第2版ドラフト - 2版は現在我々が翻訳中 http://incompleteideas.net/book/bookdraft2018jan1.pdf n先ほど紹介した『速習 強化学習』の原著Web版 https://sites.ualberta.ca/~szepesva/papers/RLAlgsInMDPs.pdf n深層強化学習全体の解説

    深層強化学習アルゴリズムの紹介からベンチマーク,転移学習などの発展的な話題まで 扱った教科書『An Introduction to Deep Reinforcement Learning 』のドラフト https://arxiv.org/pdf/1811.12560.pdf nDeepMindによる講義動画 DeepMindの⼀流研究者による,強化学習・深層強化学習のみではなく,深層学習の基礎 から⾔語処理,⽣成モデルなどの話題も含めた総合的な講義動画.DeepMindの研究者ら による深層学習研究のアドバイスも随所にあり. https://www.youtube.com/playlist?list=PLqYmG7hTraZDNJre23vqCGIVpfZ_K2RZs 139