[論文サーベイ] Survey on Linguistic Explanations in Deep Reinforcement Learning of Atari Tasks

Survey on Linguistic Explanations in Deep Reinforcement Learning of Atari
Tasks Beating Atari with Natural Language Guided Reinforcement Learning, Russell Kaplan et al. (Department of Computer Science Stanford University) [arXiv'17] (Cited by:67) Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals, Yue Wu et al. (Carnegie Mellon University et al.) [NeurIPS'23] (Cited by:13) 1/20 2024/04/17 Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction, Yonggang Jin et al. (Beijing University of Posts and Telecommunications et al.) [arXiv'24] (Cited by:2)

基礎知識 | XAI (Explainable Artiﬁcial Intelligence) 2/20 ❏ XAIは機械学習モデル全般で取り組まれている ❏
e.g.,)画像分類のような教師あり学習引用：zero2one, モデルの解釈

背景 | XRL (Explainable Reinforcement Learning) ❏ ネットワーク内部の特徴量を可視化する方法 : t-SNEを使用
❏ 説明可能な強化学習モデルそのものを構築する方法 : 階層的なDRLモデル ❏ 視覚的説明 (Visual Explanation) : 観測を画像とする強化学習 ❏ 自然言語で判断根拠を説明 : 言語的説明 (Linguistic Explanation) 3/20 Visualizing Dynamics: from t-SNE to SEMI-MDPs [ICML'16] Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning [ICLR'18] 参考：深層強化学習における視覚的説明 [日本ロボット学会誌] Visualizing and Understanding Atari Agents

4/20 ❏ Atariの中でも難しいゲームタスク ❏ 少しの落差で死んでしまう ❏ 報酬が疎 (報酬をほとんど得られない) Montezuma’s Revenge
| 概要報酬が密途中の報酬がゴールへの手がかりとなる報酬が疎ゴールに到達するまで報酬が得られない鍵を入手するまで報酬が得られない

5/20 ❏ 自然言語の指示文を活用してAtariを攻略する手法を提案したもの ❏ 難しいゲームであるMontezuma’s Revengeにおいてスコア改善 Beating Atari with Natural
Language Guided Reinforcement Learning | 概要 1：はしごを降りる 2：ロープに飛び移る 3：部屋の右側に行く 4：はしごを降りる 5：部屋の左側に行く 6：はしごを登る 7：鍵を手に入れる

6/20 ❏ 「4つの観測画像」と「観測に対する自然言語の指示文」が入力 ❏ 観測画像をCNNで処理し，方策ネットワークを通して行動を起こし，報酬を獲得 (R_environment) Beating Atari with
Natural Language Guided Reinforcement Learning | 手法

7/20 ❏ 指示文が与えられてから2フレーム分をCNNで処理し (f)，指示文をLSTM で処理する (s) ❏ fとsで内積をとったものを，シグモイド関数に通して指示文が達成されたかを判断する Beating
Atari with Natural Language Guided Reinforcement Learning | 手法

8/20 ❏ 指示文を満たすと次の指示文に移り，追加報酬を与える (R_language) ❏ フレームの埋め込み (f) と指示文の埋め込み (s)は方策ネットワークに追加される
Beating Atari with Natural Language Guided Reinforcement Learning | 手法

9/20 Beating Atari with Natural Language Guided Reinforcement Learning |
実験結果 ❏ Montezuma’s Revengeで1000万フレーム訓練後の結果 ❏ 提案手法の方策ネットワーク：A3C ❏ 指示文を訓練に導入することで，難しいタスクにも対応できている

10/20 ❏ Atariゲームの説明書を利用してサンプル効率と性能を向上させる手法 ❏ 入力：現在のフレームとAtariゲームの説明書 ❏ 検出：「画像からのオブジェクト検出」と「単語の関連付け」 ❏ QA抽出モジュール：説明書から関連情報を抽出・要約 ❏
推論モジュール：QA抽出モジュールから推論して補助報酬を割り当てる Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals | 概要

❏ オブジェクト検出：SPACEモデル ❏ 単語の関連付け：CLIPモデル ❏ SPACEは画像からバウンディングボックスを生成する ❏ CLIPを用いてこれらのボックスを単語に基づいて関連付ける
11/20 Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals | 検出オブジェクトマスク SPACEで検出されたバウンディングボックス

❏ 事前学習済みのLLMであるRoBERTa-largeを使用 ❏ 入力はAtariゲームの説明書 ❏ 一般的な質問に対するQAを抽出 ❏ Q：ゲームの目的は何ですか？ ❏ A：プレイヤーはペレットを食べたりゴーストを避けてポイントを稼ぐ
12/20 Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals | QA抽出モジュール

❏ TF-IDFを用いて上位10個の重要単語を特定 ❏ TF-IDF = (単語の出現頻度) × (各単語のレア度) ❏ 各単語固有のQAを抽出
❏ Q：プレーヤーが<fruit>にぶつかると何が起こる？ ❏ A：フルーツをガツガツ食べる ❏ 「一般的な質問のQA」と「各単語固有のQA」を連結する 13/20 Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals | QA抽出モジュール

❏ LLM：GPT-3と同等の性能のMacawを使用 (推論に適しているモデル) ❏ Context文字列を参考に，質問を生成する (RoBERTa-large) ❏ Context文字列と質問を基に推論を行い，Yes/Noの形式で回答する ❏ ゲームの目的に対して有益であれば正の補助報酬+5，無益であれば-5
14/20 Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals | 推論モジュール RoBERTa-large Macaw

15/20 ❏ サンプル効率：A2C (Baseline) と比較してサンプル効率向上 ❏ 性能：提案手法 (R&R) を用いた全タスクでスコア向上 Read
and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals | 実験結果 Skiing

16/20 ❏ Decision Transformerにマルチモーダル指示を与える手法を提案 1. 指示文のみに依存する場合，タスクの文脈を十分に理解できない 2. 視覚情報のみに依存する場合，どのように行動すれば良いかが不明確 3. 指示文と視覚情報のマルチモーダル情報を組み合わせることでエージェン
トはタスクの文脈をより正確に把握し，適切な行動を選択できる Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction | 概要

17/20 ❏ ゲーム概要 ❏ 人間がゲームの全体的な概要とアクションについて説明文を提供 ❏ ゲーム軌道 ❏ 人間の専門家がプレイするゲーム
のビデオを収集 ❏ 言語ガイダンス ❏ ChatGPTを使用して各アクションに関する言語ガイダンスを生成 ❏ キー要素 ❏ バウンディングボックスの座標を特定する (左下と右上) ❏ 「ゲーム軌道の画像」と「ゲーム概要&言語ガイダンス」をCLIPで処理 Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction | 手法

18/20 Read to Play (R2-Play): Decision Transformer with Multimodal Game
Instruction | 実験結果 ❏ ID：訓練データセットに含まれるタスクを使ってモデルを評価 ❏ OOD：訓練中には見られない未知のタスクを使ってモデルを評価 ❏ DTGI-a：各指示の重要性を均一に扱い評価

19/20 Read to Play (R2-Play): Decision Transformer with Multimodal Game
Instruction | 実験結果

まとめ Beating Atari with Natural Language Guided Reinforcement Learning：指示文を活用して疎な報酬環境を解決
20/20 Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals：物体検出と説明書を活用してサンプル効率と性能向上 ❏ 傾向と今後 ❏ RLとLLMを組み合わせた手法の傾向がある ❏ 視覚的説明 × 言語的説明で性能向上できそう Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction： DTにマルチモーダル指示を適用して性能向上

参考文献 21/20 ❏ SSII2021 [TS2] 深層強化学習〜強化学習の基礎から応用まで〜 ❏
tf-idfについてざっくりまとめ_理論編 ❏ Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction

[論文サーベイ] Survey on Linguistic Explanations in D...

[論文サーベイ] Survey on Linguistic Explanations in Deep Reinforcement Learning of Atari Tasks

tt1717

More Decks by tt1717

Other Decks in Research

Featured

Transcript

Survey on Linguistic Explanations in Deep Reinforcement Learning of Atari

基礎知識 | XAI (Explainable Artiﬁcial Intelligence) 2/20 ❏ XAIは機械学習モデル全般で取り組まれている ❏

背景 | XRL (Explainable Reinforcement Learning) ❏ ネットワーク内部の特徴量を可視化する方法 : t-SNEを使用

4/20 ❏ Atariの中でも難しいゲームタスク ❏ 少しの落差で死んでしまう ❏ 報酬が疎 (報酬をほとんど得られない) Montezuma’s Revenge

5/20 ❏ 自然言語の指示文を活用してAtariを攻略する手法を提案したもの ❏ 難しいゲームであるMontezuma’s Revengeにおいてスコア改善 Beating Atari with Natural

6/20 ❏ 「4つの観測画像」と「観測に対する自然言語の指示文」が入力 ❏ 観測画像をCNNで処理し，方策ネットワークを通して行動を起こし，報酬を獲得 (R_environment) Beating Atari with

7/20 ❏ 指示文が与えられてから2フレーム分をCNNで処理し (f)，指示文をLSTM で処理する (s) ❏ fとsで内積をとったものを，シグモイド関数に通して指示文が達成されたかを判断する Beating

8/20 ❏ 指示文を満たすと次の指示文に移り，追加報酬を与える (R_language) ❏ フレームの埋め込み (f) と指示文の埋め込み (s)は方策ネットワークに追加される

9/20 Beating Atari with Natural Language Guided Reinforcement Learning |

❏ オブジェクト検出：SPACEモデル ❏ 単語の関連付け：CLIPモデル ❏ SPACEは画像からバウンディングボックスを生成する ❏ CLIPを用いてこれらのボックスを単語に基づいて関連付ける

❏ 事前学習済みのLLMであるRoBERTa-largeを使用 ❏ 入力はAtariゲームの説明書 ❏ 一般的な質問に対するQAを抽出 ❏ Q：ゲームの目的は何ですか？ ❏ A：プレイヤーはペレットを食べたりゴーストを避けてポイントを稼ぐ

❏ TF-IDFを用いて上位10個の重要単語を特定 ❏ TF-IDF = (単語の出現頻度) × (各単語のレア度) ❏ 各単語固有のQAを抽出

15/20 ❏ サンプル効率：A2C (Baseline) と比較してサンプル効率向上 ❏ 性能：提案手法 (R&R) を用いた全タスクでスコア向上 Read

17/20 ❏ ゲーム概要 ❏ 人間がゲームの全体的な概要とアクションについて説明文を提供 ❏ ゲーム軌道 ❏ 人間の専門家がプレイするゲーム

18/20 Read to Play (R2-Play): Decision Transformer with Multimodal Game

19/20 Read to Play (R2-Play): Decision Transformer with Multimodal Game

まとめ Beating Atari with Natural Language Guided Reinforcement Learning：指示文を活用して疎な報酬環境を解決

参考文献 21/20 ❏ SSII2021 [TS2] 深層強化学習〜強化学習の基礎から応用まで〜 ❏