Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[勉強会] Decision Transformer

Avatar for tt1717 tt1717
February 06, 2026

[勉強会] Decision Transformer

[勉強会] Decision Transformer
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
Decision transformer: Reinforcement learning via sequence modeling,
Lili Chen et al. (UC Berkeley et al.)
[NeurIPS'21] (Cited by: 2678)

Avatar for tt1717

tt1717

February 06, 2026
Tweet

More Decks by tt1717

Other Decks in Research

Transcript

  1. 1. エージェントは,右ボタン (アクション) を押すことでビデオゲーム (環 境) と相互作用する 2. コインを入手し,+1 の報酬が与えられる

    (ポジティブ) エージェントはコインを獲得することが良い行動だと理解する 第一章 | 強化学習とは? 10/75
  2. 1. γ (ガンマ) と呼ばれる割引率を 0 ≦ γ ≦ 1 の範囲で定義する

    a. γが大きい:割引の影響が小さい.エージェントが長期的な報酬を重視する b. γが小さい:割引の影響が大きい.エージェントが短期的な報酬を重視する 2. 各報酬はタイムステップ毎にγ (ガンマ) で割引される a. タイムステップが増加するにつれて,猫はネズミに近づくため将来の報酬が 発生する可能性は徐々に低くなる 第一章 | 強化学習の流れ 軌道 収益:累積報酬 γ:割引率 23/75
  3. 第一章 | タスクの種類 ❏ エピソードタスク (Atari : Breakout) ❏ 終了判定

    (最終状態) がある ❏ e.g.) 「残機がなくなる」 or 「全てのブロックを消す」がある 39/75
  4. 第一章 | タスクの種類 ❏ 連続タスク (Mujoco : Ant) ❏ 終了判定

    (最終状態) がない ❏ エージェントは停止を決定するまで行動を続ける ❏ なので,終了判定は任意に設定する必要がある ❏ e.g.) ロボットが転倒したら終了する 40/75
  5. 第二章 | オンライン強化学習とオフライン強化学習 ❏ オンライン強化学習 ❏ データ収集しながら学習 ❏ 環境と相互作用する ❏

    オフライン強化学習 ❏ 事前に環境から取得したデータ セットから学習 ❏ 環境と相互作用しない 46/75
  6. 第二章 | オンライン強化学習とオフライン強化学習 ❏ オンライン強化学習 ❏ データ収集しながら学習 ❏ 環境と相互作用する ❏

    オフライン強化学習 ❏ 事前に環境から取得したデータ セットから学習 ❏ 環境と相互作用しない Decision Transformerは オフライン強化学習になります 47/75
  7. 第二章 | ロボットタスクデータセット ❏ D4RL benchmark ❏ medium (中規模データ) ❏

    medium方策:SACを用いてexpert方策の約1/3のスコアを達成するもの ❏ このmedium方策から生成された100万タイムステップのデータ medium 49/75
  8. 第二章 | ロボットタスクデータセット ❏ D4RL benchmark ❏ medium (中規模データ) ❏

    medium方策:SACを用いてexpert方策の約1/3のスコアを達成するもの ❏ このmedium方策から生成された100万タイムステップのデータ ❏ medium-replay (小規模データ) ❏ medium方策の性能に達するまでに使用した全てのデータ (約2.5万~40万タイ ムステップ) medium medium-replay < 50/75
  9. 第二章 | ロボットタスクデータセット ❏ D4RL benchmark ❏ medium (中規模データ) ❏

    medium方策:SACを用いてexpert方策の約1/3のスコアを達成するもの ❏ このmedium方策から生成された100万タイムステップのデータ ❏ medium-replay (小規模データ) ❏ medium方策の性能に達するまでに使用した全てのデータ (約2.5万~40万タイ ムステップ) ❏ medium-expert (大規模データ) ❏ 「medium方策から生成された100万タイムステップ」と「expert方策から生 成された100万タイムステップ」をミックスしたデータ expert medium × ← medium medium-replay medium-expert < < 51/75
  10. オフライン強化学習は方策から獲得したデータセットを使って学習する ❏ DQN Replay Dataset ❏ 60種類のAtari2600ゲームに対してDQNで訓練した経験データ ❏ 4フレーム (相関を見る)

    × 5000万タプル (st,at,rt,st+1) = 200M (2億)フレーム ❏ 大規模で多様なデータセット DQN Replay Dataset 第二章 | ゲームタスクデータセット 52/75
  11. オフライン強化学習は方策から獲得したデータセットを使って学習する ❏ DQN Replay Dataset ❏ 60種類のAtari2600ゲームに対してDQNで訓練した経験データ ❏ 4フレーム (相関を見る)

    × 5000万タプル (st,at,rt,st+1) = 200M (2億)フレーム ❏ 大規模で多様なデータセット 第二章 | ゲームタスクデータセット 実装では50万ステップ を使用する (1%) 53/75
  12. ❖ タイトル ➢ Decision Transformer: Reinforcement Learning via Sequence Modeling

    ❖ 学会 ➢ Neural Information Processing Systems (NeurIPS), 2021 ❖ 著者 ➢ Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch ❖ 所属 ➢ UC Berkeley, Facebook AI Research, Google Brain 第三章 | 書誌情報 64/75
  13. ❏ 画像タスクやロボットタスクなどにTransformerを使用 ❏ 特に言語タスクにおいてTransformerが大成功 ❏ ChatGPT ❏ 言語タスクと同様に強化学習も系列データ (軌道) を扱う

    ❏ τ={s,a,r,st+1...} ❏ 強化学習でもTransformerを活用することができないか? Vision Transformer RT-1 第三章 | 研究の傾向 65/75
  14. ❏ timesteps ❏ K個分のtimestepsを入力とする ❏ e.g.) BreakoutだとK=30 ❏ returns-to-go (収益)

    ❏ 報酬ではなく収益を用いる ❏ 高い値を設定:高いスコアを達成 できるが学習が長い ❏ 低い値を設定:低いスコアになる が学習が短い ❏ 損失関数 ❏ Atari (離散値):交差エントロピー ❏ Mujoco (連続値):平均二乗誤差 第三章 | アーキテクチャ 収益/累積報酬 報酬 軌道 1 timestep 67/75
  15. ❏ Hugging Face Deep RL Course ❏ 強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習

    サマースクール講義資料) ❏ ゼロから作るDeep Learning ❹ ―強化学習編 ❏ Gym Documentation ❏ zero2one-マルコフ決定過程モデル ❏ An Optimistic Perspective on Offline Reinforcement Learning 参考文献 74/75
  16. ❏ AI-SCHOLAR ❏ DQN Replay Dataset ❏ オフライン強化学習② Decision Transformerの系譜

    ❏ [DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling ❏ 強化学習若手の会 参考文献 75/75