Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文サーベイ] Survey on Linguistic Explanations in D...

tt1717
July 18, 2024

[論文サーベイ] Survey on Linguistic Explanations in Deep Reinforcement Learning of Atari Tasks

PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
1.Beating Atari with Natural Language Guided Reinforcement Learning,
Russell Kaplan et al. (Department of Computer Science Stanford University) [arXiv'17] (Cited by:67)
2.Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals,
Yue Wu et al. (Carnegie Mellon University et al.) [NeurIPS'23] (Cited by:13)
3.Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction,
Yonggang Jin et al. (Beijing University of Posts and Telecommunications et al.) [arXiv'24] (Cited by:2)

tt1717

July 18, 2024
Tweet

More Decks by tt1717

Other Decks in Research

Transcript

  1. Survey on Linguistic Explanations in Deep Reinforcement Learning of Atari

    Tasks Beating Atari with Natural Language Guided Reinforcement Learning, Russell Kaplan et al. (Department of Computer Science Stanford University) [arXiv'17] (Cited by:67) Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals, Yue Wu et al. (Carnegie Mellon University et al.) [NeurIPS'23] (Cited by:13) 1/20 2024/04/17 Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction, Yonggang Jin et al. (Beijing University of Posts and Telecommunications et al.) [arXiv'24] (Cited by:2)
  2. 基礎知識 | XAI (Explainable Artificial Intelligence) 2/20 ❏ XAIは機械学習モデル全般で取り組まれている ❏

    e.g.,)画像分類のような教師あり学習 引用:zero2one, モデルの解釈
  3. 背景 | XRL (Explainable Reinforcement Learning) ❏ ネットワーク内部の特徴量を可視化する方法 : t-SNEを使用

    ❏ 説明可能な強化学習モデルそのものを構築する方法 : 階層的なDRLモデル ❏ 視覚的説明 (Visual Explanation) : 観測を画像とする強化学習 ❏ 自然言語で判断根拠を説明 : 言語的説明 (Linguistic Explanation) 3/20 Visualizing Dynamics: from t-SNE to SEMI-MDPs [ICML'16] Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning [ICLR'18] 参考:深層強化学習における視覚的説明 [日本ロボット学会誌] Visualizing and Understanding Atari Agents
  4. 4/20 ❏ Atariの中でも難しいゲームタスク ❏ 少しの落差で死んでしまう ❏ 報酬が疎 (報酬をほとんど得られない) Montezuma’s Revenge

    | 概要 報酬が密 途中の報酬がゴール への手がかりとなる 報酬が疎 ゴールに到達するまで 報酬が得られない 鍵を入手するまで報酬が得られない
  5. 5/20 ❏ 自然言語の指示文を活用してAtariを攻略する手法を提案したもの ❏ 難しいゲームであるMontezuma’s Revengeにおいてスコア改善 Beating Atari with Natural

    Language Guided Reinforcement Learning | 概要 1:はしごを降りる 2:ロープに飛び移る 3:部屋の右側に行く 4:はしごを降りる 5:部屋の左側に行く 6:はしごを登る 7:鍵を手に入れる
  6. 9/20 Beating Atari with Natural Language Guided Reinforcement Learning |

    実験結果 ❏ Montezuma’s Revengeで1000万フレーム訓練後の結果 ❏ 提案手法の方策ネットワーク:A3C ❏ 指示文を訓練に導入することで,難しいタスクにも対応できている
  7. ❏ オブジェクト検出:SPACEモデル ❏ 単語の関連付け:CLIPモデル ❏ SPACEは画像からバウンディング ボックスを生成する ❏ CLIPを用いてこれらのボックスを 単語に基づいて関連付ける

    11/20 Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals | 検出 オブジェクトマス ク SPACEで検出され たバウンディング ボックス
  8. ❏ TF-IDFを用いて上位10個の重要単語を特定 ❏ TF-IDF = (単語の出現頻度) × (各単語のレア度) ❏ 各単語固有のQAを抽出

    ❏ Q:プレーヤーが<fruit>にぶつかると何が起こる? ❏ A:フルーツをガツガツ食べる ❏ 「一般的な質問のQA」と「各単語固有のQA」を連結する 13/20 Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals | QA抽出モジュール
  9. 17/20 ❏ ゲーム概要 ❏ 人間がゲームの全体的な概要とア クションについて説明文を提供 ❏ ゲーム軌道 ❏ 人間の専門家がプレイするゲーム

    のビデオを収集 ❏ 言語ガイダンス ❏ ChatGPTを使用して各アクション に関する言語ガイダンスを生成 ❏ キー要素 ❏ バウンディングボックスの座標を 特定する (左下と右上) ❏ 「ゲーム軌道の画像」と「ゲーム概 要&言語ガイダンス」をCLIPで処理 Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction | 手法
  10. 18/20 Read to Play (R2-Play): Decision Transformer with Multimodal Game

    Instruction | 実験結果 ❏ ID:訓練データセットに含まれるタスクを 使ってモデルを評価 ❏ OOD:訓練中には見られない未知のタスク を使ってモデルを評価 ❏ DTGI-a:各指示の重要性を均一に扱い評価
  11. まとめ Beating Atari with Natural Language Guided Reinforcement Learning: 指示文を活用して疎な報酬環境を解決

    20/20 Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals: 物体検出と説明書を活用してサンプル効率と性能向上 ❏ 傾向と今後 ❏ RLとLLMを組み合わせた手法の傾向がある ❏ 視覚的説明 × 言語的説明で性能向上できそう Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction: DTにマルチモーダル指示を適用して性能向上
  12. 参考文献 21/20 ❏ SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜 ❏

    tf-idfについてざっくりまとめ_理論編 ❏ Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction