Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

論文紹介 / PIGLeT: Language Grounding Through Neuro...

Kyosuke Nishida
September 09, 2021

論文紹介 / PIGLeT: Language Grounding Through Neuro-Symbolic Interaction in a 3D World

第13回最先端NLP勉強会の発表スライドです.
論文: https://aclanthology.org/2021.acl-long.159/

Kyosuke Nishida

September 09, 2021
Tweet

More Decks by Kyosuke Nishida

Other Decks in Research

Transcript

  1. • 何をする研究か︖ – ⾃然⾔語と実世界のグラウンディングにneuro-symbolicな アプローチで取り組む – 現在の状態と⾏動から「次に何が起きるか」を⾔語や記 号表現で予測する • 貢献は何か︖

    – データセット PigPen を整備・公開 – Physical dynamicsモデルと⾔語モデルを分離して学習可 能なモデル PIGLet を提案 • 嬉しさは︖(個⼈的感想) – ⾝体性を有するAIの実現へ向けた重要なステップの達成 – 事前学習済⾔語モデルと,実世界の物理的な commonsenseの知識を結びつける知⾒の獲得 まとめ 2
  2. • 本研究のセットアップ – タスク定義(NLU,NLG) – データセット PIGPeN • 提案モデル –

    PIGLet の構成 – 物理ダイナミクスモデルの学習 – ⾔語モデルの事前学習 – ⾔語モデルと物理ダイナミクスの結合 • 評価実験 – NLUタスク – NLGタスク – ⾔語モデルの事前学習内容の影響 3 ⽬次
  3. • 3Dシミュレーション環境における 初期状態 ⃗ 𝑜 × ⾏動 𝑎 → ⾏動結果

    ⃗ 𝑜!のモデル化 本研究で取り組むタスク(1) ⾏動 𝑎(⾔語表現) 初期状態 ⃗ 𝑜 (記号表現) 物体の属性値集合 ⾏動結果 ⃗ 𝑜!(記号表現) 物体の属性値集合 4
  4. • 3Dシミュレーション環境における 初期状態 ⃗ 𝑜 × ⾏動 𝑎 → ⾏動結果

    ⃗ 𝑜!のモデル化 本研究で取り組むタスク(2) 視覚情報の理解(物体検 出など)はスコープ外 ⾏動結果 ⃗ 𝑜!(⾔語表現) 初期状態 ⃗ 𝑜 (記号表現) 物体の属性値集合 ⾏動 𝑎(記号表現) 5
  5. • 280k Transitions( 初期状態 ⃗ 𝑜 × ⾏動 𝑎 →

    ⾏動結果 ⃗ 𝑜! ︔ すべて記号表現)を3dシミュレータ THOR により作成. – 1つの状態を表す物体数は最⼤2個まで – 物体 126種(125?),⾏動 13種(10-20?),属性 42種 • 2k Transitionsについて⾔語説明を付与 – Train: 500(30種の物体についてはtest時”unseen”とするため除外) – Val: 500,Test: 1000 6 データセット PIGPeN 280k (記号表現) 2k (⾔語説明)
  6. • 本研究のセットアップ – タスク定義(NLU,NLG) – データセット PIGPeN • 提案モデル –

    PIGLet の構成 – 物理ダイナミクスモデルの学習 – ⾔語モデルの事前学習 – ⾔語モデルと物理ダイナミクスの結合 • 評価実験 – NLUタスク – NLGタスク – ⾔語モデルの事前学習内容の影響 7 ⽬次
  7. (a) 物理ダイナミクスモデル • 物理ダイナミクスモデルで,初期状態 ⃗ 𝑜 × ⾏動 𝑎 →

    ⾏動結 果 ⃗ 𝑜! をすべて記号表現で学習する 初期状態は 物体(最⼤2個) の属性値集合 で表現 ⾏動の 記号的な表現 初期状態から 変化する属性値 を予測 記号表現の系列を扱う Transformer encoder-decoder 9
  8. 17 (2) 状態を⾔語で説明する • MLPで(初期状態, ⾏動, ⾏動結果)を要約した表現ℎ&"! , ℎ&"" を

    GPT-2に渡して,⾏動結果を表す⽂章を⽣成・学習 • NLUタスク(⾔語⽣成しない)の場合でも,この学習は精度 向上に効果がある ℎ!"! , ℎ!""
  9. • 本研究のセットアップ – タスク定義(NLU,NLG) – データセット PIGPeN • 提案モデル –

    PIGLet の構成 – 物理ダイナミクスモデルの学習 – ⾔語モデルの事前学習 – ⾔語モデルと物理ダイナミクスの結合 • 評価実験 – NLUタスク – NLGタスク – ⾔語モデルの事前学習内容の影響 18 ⽬次
  10. • タスク定義 – 初期状態 (属性値)× ⾏動(⾔語)→ ⾏動結果 (属性値) • No

    Change – 初期状態の属性値のまま出⼒ • Text-to-Text – GPT-3,T5 – Object1,2の属性値を JSONスタイルで⼊⼒・出⼒する • BERT-style – ⼊⼒︓初期状態の属性値を物理ダイナ ミクスモデルでembeddingして BERTに与える + ⾏動の⾔語情報 – 出⼒︓hidden-stateのpooling vectorから属性値を予測 19 NLUタスクのベースライン
  11. • タスク定義 – 初期状態 (属性値)× ⾏動(記号表現)→ ⾏動結果 (⾔語) • Text-to-Text

    – T5: Object1,2の属性値と⾏動をJSONスタイルで⼊⼒・出⼒する • LM baseline – MLP_applyをしない提案⼿法(物理ダイナミクスモデルによる 物理シミュレーションを⾏わない) 22 NLGタスクのベースライン
  12. 25 ⾔語モデルの事前学習の効果 • ⾔語モデルの事前学習コーパスからunseen objectsに関する ⽂章を除いてみる(PIGLeT ZeroShotLang) – 例えばMugは2万回コーパスに出現 •

    ⾔語モデルで事前にobjectのcommonsenseを獲得できている ⽅が精度は良い(ただし,それほど悪くなっていない)
  13. • 何をする研究か︖ – ⾃然⾔語と実世界のグラウンディングにneuro-symbolicな アプローチで取り組む – 現在の状態と⾏動から「次に何が起きるか」を⾔語や記 号表現で予測する • 貢献は何か︖

    – データセット PigPen を整備・公開 – Physical dynamicsモデルと⾔語モデルを分離して学習可 能なモデル PIGLet を提案 • 嬉しさは︖(個⼈的感想) – ⾝体性を有するAIの実現へ向けた重要なステップの達成 – 事前学習済⾔語モデルと,実世界の物理的な commonsenseの知識を結びつける知⾒の獲得 まとめ 26
  14. • 3Dモデリングされた室内環境においてロボットの様々な⾏ 動をシミュレーション可能 28 環境︓AI2-THOW [Kolve et al. ,2017] Eric

    Kolve, Roozbeh Mottaghi, Daniel Gordon, Yuke Zhu, Abhinav Gupta, Ali Farhadi: AI2-THOR: An Interactive 3D Environment for Visual AI. CoRR abs/1712.05474 (2017)
  15. • 最⼤2つの物体(126種)で表現される – Pan, Egg, Vase, Faucet, Mirror, Sink, Apple

    ,Fridge, etc. • 各物体は42種の属性値を持つ – 含む/含まれる物体,質量,サイズ,温度,その他多数の真偽値 29 状態の記号表現
  16. • 最⼤2つの物体を引数に取る関数として表現される – 10〜20種︖ 数字がバラバラ • Fig. 2 (20) •

    Section 2.1 (10) • Appendix B (11) • 公開データ* (13) 30 ⾏動の記号表現 ⾏動例(Appendix B) *https://github.com/rowanz/piglet /blob/main/data/annotations.jsonl