[論文サーベイ] Survey on Linguistic Explanations in D...

July 18, 2024

[論文サーベイ] Survey on Linguistic Explanations in Deep Reinforcement Learning of Atari Tasks

1.Beating Atari with Natural Language Guided Reinforcement Learning,
Russell Kaplan et al. (Department of Computer Science Stanford University) [arXiv'17] (Cited by:67)
2.Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals,
Yue Wu et al. (Carnegie Mellon University et al.) [NeurIPS'23] (Cited by:13)
3.Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction,
Yonggang Jin et al. (Beijing University of Posts and Telecommunications et al.) [arXiv'24] (Cited by:2)


July 18, 2024

  1. Survey on Linguistic Explanations in Deep Reinforcement Learning of Atari

  2. 基礎知識 | XAI (Explainable Artificial Intelligence) 2/20 ❏ XAIは機械学習モデル全般で取り組まれている ❏

    e.g.,)画像分類のような教師あり学習 引用:zero2one, モデルの解釈
  3. 背景 | XRL (Explainable Reinforcement Learning) ❏ ネットワーク内部の特徴量を可視化する方法 : t-SNEを使用

    ❏ 説明可能な強化学習モデルそのものを構築する方法 : 階層的なDRLモデル ❏ 視覚的説明 (Visual Explanation) : 観測を画像とする強化学習 ❏ 自然言語で判断根拠を説明 : 言語的説明 (Linguistic Explanation) 3/20 Visualizing Dynamics: from t-SNE to SEMI-MDPs [ICML'16] Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning [ICLR'18] 参考:深層強化学習における視覚的説明 [日本ロボット学会誌] Visualizing and Understanding Atari Agents
  4. 4/20 ❏ Atariの中でも難しいゲームタスク ❏ 少しの落差で死んでしまう ❏ 報酬が疎 (報酬をほとんど得られない) Montezuma’s Revenge

    | 概要 報酬が密 途中の報酬がゴール への手がかりとなる 報酬が疎 ゴールに到達するまで 報酬が得られない 鍵を入手するまで報酬が得られない
  5. 5/20 ❏ 自然言語の指示文を活用してAtariを攻略する手法を提案したもの ❏ 難しいゲームであるMontezuma’s Revengeにおいてスコア改善 Beating Atari with Natural

    Language Guided Reinforcement Learning | 概要 1:はしごを降りる 2:ロープに飛び移る 3:部屋の右側に行く 4:はしごを降りる 5:部屋の左側に行く 6:はしごを登る 7:鍵を手に入れる
  6. 9/20 Beating Atari with Natural Language Guided Reinforcement Learning |

    実験結果 ❏ Montezuma’s Revengeで1000万フレーム訓練後の結果 ❏ 提案手法の方策ネットワーク:A3C ❏ 指示文を訓練に導入することで,難しいタスクにも対応できている
  7. ❏ オブジェクト検出:SPACEモデル ❏ 単語の関連付け:CLIPモデル ❏ SPACEは画像からバウンディング ボックスを生成する ❏ CLIPを用いてこれらのボックスを 単語に基づいて関連付ける

    11/20 Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals | 検出 オブジェクトマス ク SPACEで検出され たバウンディング ボックス
  8. ❏ TF-IDFを用いて上位10個の重要単語を特定 ❏ TF-IDF = (単語の出現頻度) × (各単語のレア度) ❏ 各単語固有のQAを抽出

    ❏ Q:プレーヤーが<fruit>にぶつかると何が起こる? ❏ A:フルーツをガツガツ食べる ❏ 「一般的な質問のQA」と「各単語固有のQA」を連結する 13/20 Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals | QA抽出モジュール
  9. 17/20 ❏ ゲーム概要 ❏ 人間がゲームの全体的な概要とア クションについて説明文を提供 ❏ ゲーム軌道 ❏ 人間の専門家がプレイするゲーム

    のビデオを収集 ❏ 言語ガイダンス ❏ ChatGPTを使用して各アクション に関する言語ガイダンスを生成 ❏ キー要素 ❏ バウンディングボックスの座標を 特定する (左下と右上) ❏ 「ゲーム軌道の画像」と「ゲーム概 要&言語ガイダンス」をCLIPで処理 Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction | 手法
  10. 18/20 Read to Play (R2-Play): Decision Transformer with Multimodal Game

    Instruction | 実験結果 ❏ ID:訓練データセットに含まれるタスクを 使ってモデルを評価 ❏ OOD:訓練中には見られない未知のタスク を使ってモデルを評価 ❏ DTGI-a:各指示の重要性を均一に扱い評価
  11. まとめ Beating Atari with Natural Language Guided Reinforcement Learning: 指示文を活用して疎な報酬環境を解決

    20/20 Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals: 物体検出と説明書を活用してサンプル効率と性能向上 ❏ 傾向と今後 ❏ RLとLLMを組み合わせた手法の傾向がある ❏ 視覚的説明 × 言語的説明で性能向上できそう Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction: DTにマルチモーダル指示を適用して性能向上
  12. 参考文献 21/20 ❏ SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜 ❏

    tf-idfについてざっくりまとめ_理論編 ❏ Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction