Learning to Model the World with Language

　 https://www.academix.jp/ AcademiX 論文輪読会 Learning to Model the World with
Language 東京農工大学 Inoue Ibuki 2024/12/06

書誌情報 • Learning to Model the World with Language •
Jessy Lin, Yuqing Du, Olivia Watkins, Danijar Hafner, Pieter Abbeel, Dan Klein, Anca Dragan • UC Berkeley • ICML 2024 Accepted • https://doi.org/10.48550/arXiv.2308.01399 ※引用無い図こ論文より引用

世界モデルと • 世界モデル（World model） ◦ 現実世界物理法則や因果関係，物体間相互作用など「世界仕組み」を表現
◦ 別名内部モデルや力学モデル • 典型的な深層学習タスクを事前に与えることが必要 ◦ 入力と出力が与えられた下で，関係性を学習してモデル化 • 世界モデルにより，新たな刺激から推論が可能 ◦ 外界から刺激をもとに外界モデルを学習によって獲得 ◦ 例え赤ちゃん環境と相互作用することで，何をすれどうなるかを理解 • 例 ◦ Sora ◦ GAIA-1 David Ha, NeurIPS, 2018

世界モデル基本的な構造 • エンコーダと遷移モデル ◦ エンコーダ ▪ 観測から潜在状態表現を推論 ◦ 遷移モデル
▪ ある行動をしたとき将来を予測 • 方策と世界モデル交互に学習 Danijar Hafner, ICLR, 2020 Łukasz Kaiser, ICLR, 2020

Embodied AI 理想と現実 • 人工知能長年目標，言語を使って物理世界人々と自然に対話できるエージェント
開発 • 現在エージェント基本的な指示に対応可能 ◦ 例りんごを持ってきて

課題 • 多様な種類言語を視覚や行動とどように統合するが最適なか不明 ◦ エピソード
最初にタスク記述を埋め込み，エージェントが環境内で行動しながら，言語入力を継続的に統合することが理想的 ◦ 言語による「プロンプト」以外に，行動や映像とともに継続的に言語を入出力する手法へと移行する必要 • 多様な言語を最適な行動に直接マッピングすること難しい学習問題 ◦ 言語と最適な行動，そ依存関係が複雑な場合相関が弱い ▪ put the bowls away • 手元タスクが掃除であれ ,エージェント次掃除ステップへ • 夕食配膳であれ ,エージェントボウルを回収

Dynalang • エージェントが未来を予測するために言語を使用することで，多様な種類言語を基礎づけることができることを提案 • 言語と視覚生成的モデルを利用して計画と行動を実施 ◦ DreamerV3アルゴリズムで将来
テキストと画像表現を予測 ◦ 強化学習を使って世界モデル出力から行動を決定

（補足）Dreamer V3 • 世界モデルと Actor-Critic 法を組み合わせた手法 • 3つステップで学習と評価 ◦ エージェントを環境の中で動かして，世界モデルを学習
◦ 学習されたモデルを環境のシミュレーターとして用いて，この擬似環境の中で行動を学習 ◦ 擬似環境で行動を学習したエージェントを実環境で動かすことで，タスクを解く • 詳しく論文輪読会#28 Danijar Hafner, arXiv, 2023

World Model Learning 1. 画像エンコーダー (CNN) と言語エンコーダー (one-hot また
T5 事前学習済み埋め込み) を使用して,画像x t とテキストトークンl t を潜在表現z t にエンコード 2. GRUを用いて,過去潜在表現z t-1 再帰状態 h t-1，および行動a t-1 から次潜在表現ẑ t を予測 3. 潜在表現z t から画像・テキスト・報酬・エピソード継続フラグを再構築 4. 損失関数を最小化するように訓練

損失関数 •

Learning to Act 1. 現在状態から将来状態を複数ステップに渡って予測し，想像上状態系列（ロールアウト）を作成
2. 各ロールアウトに対して将来得られる報酬を計算 3. クリティックで各状態価値を推定 4. 計算された報酬と状態価値でアクターがより良い行動を選択できるように学習 5. クリティック推定する状態価値が実際に得られた報酬と一致するように学習

仮説 A) 画像と言語をタイムステップごとに単一（画像とトークン）ペアとして揃えること，DreamerV3に言語を組み込むため他方法よりも良い B) 言語条件付きポリシーよりも，タスク
パフォーマンスを向上させるために多様なタイプ言語をより良く利用可能 C) 世界モデルに命令を組み込むほうが言語条件付きポリシーを直接学習するより良い D) 基底言語生成とオフラインテキストみデータで事前学習を必要とするタスクを扱える

Language Hints in HomeGrid • 環境 ◦ オブジェクト・ゴミ箱・部屋が配置されたグリッドで構成 ◦
エージェント，現在エージェント位置を中心とした3x3グリッドセルピクセル観測を受け取る • 行動空間 ◦ 移動・オブジェクト操作・ゴミ箱操作など行動が可能 • タスク: ◦ オブジェクトとゴミ箱を使った 5つタスクタイプ ◦ 合計で38 タスク ◦ タスクが完了すると報酬 1を受け取り，新しいタスクがサンプリング • エピソード ◦ 100ステップで終了 ◦ できるだけ多くタスクを完了することを目指す • ヒント ◦ エピソード全体を通してランダムなタイミングで言語によるヒントを受け取る ◦ エージェントが行動を継続している間に，トークンごとに提供

Future Observations • エージェントが将来環境内で観測する可能性あるオブジェクト位置に関する情報を提供するヒント ◦ 「書類
リビングルームにあります」 ◦ 「りんごキッチンに移動しました」 ◦ 「後で寝室にボールが出現します」

Corrections • エージェントが現在タスク目標に対して非効率的な行動を取っているときに，軌道修正を促すヒント ◦ 「いいえ、向きを変えてください」

Dynamics • 環境内オブジェクト（特にゴミ箱）動作メカニズムに関する情報を提供するヒント ◦ 「コンポストビンを開けるにペダルを踏んでください」

モデル間スコア比較 • Dynalang 言語条件付き IMPALAとR2D2を凌駕 • タスクみ指示でも他モデルを上回る（仮説C）
• Dynalang より多く言語情報を受け取ると性能が向上（仮説B）

Text-only Pretraining • 目的 ◦ 仮説D 検証 • 方法 ◦
Dynalangをゼロから事前学習 ◦ ドメイン内テキスト: Messenger S2ゲームマニュアル ◦ ドメイン全体テキスト: TinyStories • 結果 ◦ 少量ドメイン内データセットを使ったトレーニングでT5に迫る性能 ◦ ドメイン全体で T5を上回る • 考察 ◦ 大規模なオフライン事前学習利点を活用できることを示唆

まとめ • 世界モデルと言語接地を表現したモデルDynalangを提案 • DreamerV3に言語埋め込みを追加 • 既存モデルを上回るタスク成功率 • 言語条件付きタスクポリシー
有効性を示唆 • 所感 ◦ DreamerV3に言語埋め込みを加えるだけシンプルな仕組みに好感が持てる ◦ ベンチマークが単純なで複雑なタスクとき結果がほしい ◦ 入力をLLMやVLM 出力にするとどうなるか気になる

Learning to Model the World with Language

Learning to Model the World with Language

ほき

More Decks by ほき

Featured

Transcript

https://www.academix.jp/ AcademiX 論文輪読会 Learning to Model the World with

図1

書誌情報 • Learning to Model the World with Language •

世界モデルと • 世界モデル（World model） ◦ 現実世界物理法則や因果関係，物体間相互作用など「世界仕組み」を表現

世界モデル基本的な構造 • エンコーダと遷移モデル ◦ エンコーダ ▪ 観測から潜在状態表現を推論 ◦ 遷移モデル

Embodied AI 理想と現実 • 人工知能長年目標，言語を使って物理世界人々と自然に対話できるエージェント

課題 • 多様な種類言語を視覚や行動とどように統合するが最適なか不明 ◦ エピソード

Dynalang • エージェントが未来を予測するために言語を使用することで，多様な種類言語を基礎づけることができることを提案 • 言語と視覚生成的モデルを利用して計画と行動を実施 ◦ DreamerV3アルゴリズムで将来

（補足）Dreamer V3 • 世界モデルと Actor-Critic 法を組み合わせた手法 • 3つステップで学習と評価 ◦ エージェントを環境の中で動かして，世界モデルを学習

World Model Learning 1. 画像エンコーダー (CNN) と言語エンコーダー (one-hot また

損失関数 •

Learning to Act 1. 現在状態から将来状態を複数ステップに渡って予測し，想像上状態系列（ロールアウト）を作成

仮説 A) 画像と言語をタイムステップごとに単一（画像とトークン）ペアとして揃えること，DreamerV3に言語を組み込むため他方法よりも良い B) 言語条件付きポリシーよりも，タスク

Language Hints in HomeGrid • 環境 ◦ オブジェクト・ゴミ箱・部屋が配置されたグリッドで構成 ◦

Future Observations • エージェントが将来環境内で観測する可能性あるオブジェクト位置に関する情報を提供するヒント ◦ 「書類

Corrections • エージェントが現在タスク目標に対して非効率的な行動を取っているときに，軌道修正を促すヒント ◦ 「いいえ、向きを変えてください」

Dynamics • 環境内オブジェクト（特にゴミ箱）動作メカニズムに関する情報を提供するヒント ◦ 「コンポストビンを開けるにペダルを踏んでください」

モデル間スコア比較 • Dynalang 言語条件付き IMPALAとR2D2を凌駕 • タスクみ指示でも他モデルを上回る（仮説C）

Text-only Pretraining • 目的 ◦ 仮説D 検証 • 方法 ◦

まとめ • 世界モデルと言語接地を表現したモデルDynalangを提案 • DreamerV3に言語埋め込みを追加 • 既存モデルを上回るタスク成功率 • 言語条件付きタスクポリシー