Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文サーベイ] Survey on VLM and Reinforcement Learni...

tt1717
July 18, 2024

[論文サーベイ] Survey on VLM and Reinforcement Learning in Game Tasks (Minecraft)

PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
1.STEVE-1: A Generative Model for Text-to-Behavior in Minecraft,
Shalev Lifshitz et al. (University of Toronto et al.) [NeurIPS'23] (Cited by:28)
2.Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft,
Hao Li et al. (The Chinese University of Hong Kong et al.) [CVPR'24] (Cited by:5)
3.MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception,
Yiran Qin et al. (The Chinese University of Hong Kong et al.) [CVPR'24] (Cited by:5)

tt1717

July 18, 2024
Tweet

More Decks by tt1717

Other Decks in Research

Transcript

  1. Survey on VLM and Reinforcement Learning in Game Tasks (Minecraft)

    STEVE-1: A Generative Model for Text-to-Behavior in Minecraft, Shalev Lifshitz et al. (University of Toronto et al.) [NeurIPS'23] (Cited by:28) Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft, Hao Li et al. (The Chinese University of Hong Kong et al.) [CVPR'24] (Cited by:5) 1/22 2024/07/10 MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception, Yiran Qin et al. (The Chinese University of Hong Kong et al.) [CVPR'24] (Cited by:5)
  2. 2/22 Minecraft | 背景 ❏ Minecraftタスクは報酬が階層的 ❏ e.g.) ダイヤモンドツール ❏

    木材を集めて->木のつるはしを作って... ❏ 従来の強化学習手法で学習させるのは困難 ❏ 階層的な報酬構造により段階を踏んだタスク達成が必要 ❏ LLM × 強化学習の手法で成功 Number of prompting iterations (プロンプトの反復回数) Voyager
  3. 6/22 ❏ MineCLIP STEVE-1: A Generative Model for Text-to-Behavior in

    Minecraft | 手法 ❖ ビデオエンコーダ ➢ Minecraftのビデオフレームをエンコードしてフレーム特 徴 (Zτgoal)を抽出 ❖ テキストエンコーダ ➢ テキスト指示をエンコードしてテキスト特徴 (Zy)を抽出 ➢ e.g.,) "chop a tree" ❖ MineCLIPの使用 ➢ ビデオフレームとテキスト指示の関係性を学習し,フレー ム特徴とテキスト特徴を統合
  4. 7/22 ❏ Prior STEVE-1: A Generative Model for Text-to-Behavior in

    Minecraft | 手法 ❖ CVAE (デコーダ) ➢ 「ガウス分布」と「エンコード されたテキスト特徴 (Zy)」を 入力し,潜在目標 (Zτgoal)を 生成 ❖ 出力 ➢ 潜在目標 (Zτgoal) ➢ ※フレーム特徴とは別物 ❖ 線形層 (Linear) ➢ 潜在目標 (Zτgoal)を線形層に 通し,潜在表現を得る ❖ 入力 ➢ ガウス分布 ➢ エンコードされたテキスト特徴 (Zy)
  5. 8/22 ❏ VPT STEVE-1: A Generative Model for Text-to-Behavior in

    Minecraft | 手法 ❖ 潜在目標の使用 ➢ Priorで取得した潜在目標を使用する ❖ ResNetによるフレーム処理 ➢ ResNetを用いてビデオフレームを処 理し,特徴ベクトルを抽出 ❖ 方策ネットワークの学習 ➢ 潜在目標と特徴ベクトルを統合し ,VPTモデルに入力 ➢ テキスト指示に基づいて適切な行動 を取るための方策を学習 ❖ アクションの生成 ➢ 現在の状態から次の行動 (a0,a1,a2) を予測して,エージェントの行動を 決定
  6. 15/22 ❏ 「ダイヤモンド鉱石を探索するタスク」の結果 ❏ 平均距離が高い (※エージェントがより広範囲を探索している) ❏ 低い死亡率 ❏ 溶岩を避ける確率が高い

    ❏ タスク成功率が高い ❏ 「木や牛への接近タスク」において”サンプル効率と成功率”の改善 Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft | 実験結果
  7. ❏ タスク:夜に水辺で木のシャベルを使って砂を掘る ❏ e.g.,) o1はlog,o6はsand, water, night 20/22 MP5: A

    Multi-modal Open-ended Embodied System in Minecraft via Active Perception | 実験結果
  8. STEVE-1: A Generative Model for Text-to-Behavior in Minecraft: テキスト指示と画像指示に基づいて行動するモデル 21/22

    Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft: LLMを利用して,密な報酬関数を自動的に設計する手法 ❏ 傾向と今後 ❏ トップカンファレンスではMinecraftタスクが多い傾向 ❏ LLM × 強化学習の手法で別タスクに応用されそう (ロボットetc) MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception: LLMを利用して,最終目標をサブ目標に分解する手法 まとめ