Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介 / PIGLeT: Language Grounding Through Neuro...
Search
Kyosuke Nishida
September 09, 2021
Research
1
730
論文紹介 / PIGLeT: Language Grounding Through Neuro-Symbolic Interaction in a 3D World
第13回最先端NLP勉強会の発表スライドです.
論文:
https://aclanthology.org/2021.acl-long.159/
Kyosuke Nishida
September 09, 2021
Tweet
Share
More Decks by Kyosuke Nishida
See All by Kyosuke Nishida
論文紹介 / The Llama 3 Herd of Models
kyoun
6
1k
大規模言語モデル入門 / LLM introduction (SES2023)
kyoun
56
16k
論文紹介 / Llama 2: Open Foundation and Fine-Tuned Chat Models
kyoun
5
6.9k
PAKDD2023 Tutorial 2: A Gentle Introduction to Technologies Behind Language Models and Recent Achievement in ChatGPT (Parts 3 and 4)
kyoun
7
1.8k
Collaborative AI: 視覚・言語・行動の融合
kyoun
21
7.9k
NLPとVision-and-Languageの基礎・最新動向 (1) / DEIM Tutorial Part 1: NLP
kyoun
24
9.6k
NLPとVision-and-Languageの基礎・最新動向 (2) / DEIM Tutorial Part 2 Vision-and-Language
kyoun
20
11k
論文紹介 / Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality
kyoun
2
770
自然言語処理とVision-and-Language / A Tutorial on NLP & Vision-and-Language
kyoun
22
12k
Other Decks in Research
See All in Research
Language is primarily a tool for communication rather than thought
ryou0634
4
610
SSII2024 [OS2] 画像、その先へ 〜モーション解析への誘い〜
ssii
PRO
1
1.2k
授業評価アンケートのテキストマイニング
langstat
1
310
#SRE論文紹介 Detection is Better Than Cure: A Cloud Incidents Perspective V. Ganatra et. al., ESEC/FSE’23
yuukit
3
1.2k
The past, present, and future of local-first
ept
0
740
20240626_金沢大学_新機能集積回路設計特論_配布用 #makelsi
takasumasakazu
0
140
Weekly AI Agents News! 5月号 プロダクト/ニュースのアーカイブ
masatoto
0
110
Kaggle役立ちアイテム紹介(入門編)
k951286
13
3.8k
Minimum Bayes-Risk Decoding における性能変動の理解に向けて(2024年6月5日 第59回 NLPコロキウム)
atsumoto
0
300
SSII2024 [OS3] 基盤モデル(オープニング)
ssii
PRO
0
310
Weekly AI Agents News! 6月号 プロダクト/ニュースのアーカイブ
masatoto
0
110
仮説検定とP値
shuntaros
6
7.6k
Featured
See All Featured
Art, The Web, and Tiny UX
lynnandtonic
294
20k
How to Think Like a Performance Engineer
csswizardry
15
920
Agile that works and the tools we love
rasmusluckow
327
20k
The Straight Up "How To Draw Better" Workshop
denniskardys
230
130k
Happy Clients
brianwarren
96
6.6k
Raft: Consensus for Rubyists
vanstee
135
6.5k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
103
47k
How STYLIGHT went responsive
nonsquared
93
5.1k
Gamification - CAS2011
davidbonilla
79
4.9k
Fantastic passwords and where to find them - at NoRuKo
philnash
47
2.7k
WebSockets: Embracing the real-time Web
robhawkes
59
7.3k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
33
1.7k
Transcript
論⽂紹介 紹介者: ⻄⽥京介(NTT⼈間情報研究所) 2021/09/16 @ 第13回最先端NLP勉強会
• 何をする研究か︖ – ⾃然⾔語と実世界のグラウンディングにneuro-symbolicな アプローチで取り組む – 現在の状態と⾏動から「次に何が起きるか」を⾔語や記 号表現で予測する • 貢献は何か︖
– データセット PigPen を整備・公開 – Physical dynamicsモデルと⾔語モデルを分離して学習可 能なモデル PIGLet を提案 • 嬉しさは︖(個⼈的感想) – ⾝体性を有するAIの実現へ向けた重要なステップの達成 – 事前学習済⾔語モデルと,実世界の物理的な commonsenseの知識を結びつける知⾒の獲得 まとめ 2
• 本研究のセットアップ – タスク定義(NLU,NLG) – データセット PIGPeN • 提案モデル –
PIGLet の構成 – 物理ダイナミクスモデルの学習 – ⾔語モデルの事前学習 – ⾔語モデルと物理ダイナミクスの結合 • 評価実験 – NLUタスク – NLGタスク – ⾔語モデルの事前学習内容の影響 3 ⽬次
• 3Dシミュレーション環境における 初期状態 ⃗ 𝑜 × ⾏動 𝑎 → ⾏動結果
⃗ 𝑜!のモデル化 本研究で取り組むタスク(1) ⾏動 𝑎(⾔語表現) 初期状態 ⃗ 𝑜 (記号表現) 物体の属性値集合 ⾏動結果 ⃗ 𝑜!(記号表現) 物体の属性値集合 4
• 3Dシミュレーション環境における 初期状態 ⃗ 𝑜 × ⾏動 𝑎 → ⾏動結果
⃗ 𝑜!のモデル化 本研究で取り組むタスク(2) 視覚情報の理解(物体検 出など)はスコープ外 ⾏動結果 ⃗ 𝑜!(⾔語表現) 初期状態 ⃗ 𝑜 (記号表現) 物体の属性値集合 ⾏動 𝑎(記号表現) 5
• 280k Transitions( 初期状態 ⃗ 𝑜 × ⾏動 𝑎 →
⾏動結果 ⃗ 𝑜! ︔ すべて記号表現)を3dシミュレータ THOR により作成. – 1つの状態を表す物体数は最⼤2個まで – 物体 126種(125?),⾏動 13種(10-20?),属性 42種 • 2k Transitionsについて⾔語説明を付与 – Train: 500(30種の物体についてはtest時”unseen”とするため除外) – Val: 500,Test: 1000 6 データセット PIGPeN 280k (記号表現) 2k (⾔語説明)
• 本研究のセットアップ – タスク定義(NLU,NLG) – データセット PIGPeN • 提案モデル –
PIGLet の構成 – 物理ダイナミクスモデルの学習 – ⾔語モデルの事前学習 – ⾔語モデルと物理ダイナミクスの結合 • 評価実験 – NLUタスク – NLGタスク – ⾔語モデルの事前学習内容の影響 7 ⽬次
PIGLeT モデル構成の概要 • 記号表現を扱う物理ダイナミクスモデルと⾔語モデルに分解 してモデリング 8
(a) 物理ダイナミクスモデル • 物理ダイナミクスモデルで,初期状態 ⃗ 𝑜 × ⾏動 𝑎 →
⾏動結 果 ⃗ 𝑜! をすべて記号表現で学習する 初期状態は 物体(最⼤2個) の属性値集合 で表現 ⾏動の 記号的な表現 初期状態から 変化する属性値 を予測 記号表現の系列を扱う Transformer encoder-decoder 9
10 物理ダイナミクスモデルの学習(1) • 物体エンコーダ(3層Transformer)により, 2つの物体(属性値の系列)をベクトルℎ"# , ℎ"$ に変換 (1)
11 物理ダイナミクスモデルの学習(2) • ⾏動エンコーダ(MLP)により,⾏動名𝑎と,⾏動の対象に 取る2つの物体名𝑜%# , 𝑜%$ の埋め込みを基にベクトルℎ% に変換 𝐡%
= MLP 𝐄 𝑎 , 𝐄 𝑜%# , 𝐄 𝑜%$ (2)
12 物理ダイナミクスモデルの学習(3) • ⾏動表現ℎ% を基に物体の表現ベクトルℎ"# , ℎ"$ を変換する – このモジュールが「物理シミュレーション」を担当
– 2つの物体をまとめて変換することを global アプローチと呼んでいる (1)の出⼒ (2)の出⼒ (1) (2) (3)
13 物理ダイナミクスモデルの学習(4) • 変換後の表現ベクトル , ℎ" を基に,⾏動結果の物体の属性値 を1つずつデコードして⽣成する ⽣成済の属性値 (3)の出⼒
(3) (4)
(b) ⾔語モデルの事前学習 • ⾃⼰回帰型⾔語モデル(smallest GPT-2; 117M)をWikipedia とBookコーパスで事前学習 14
(c) ⾔語と物理ダイナミクスの統合 • ⾔語モデルによる⾏動の表現を,物理ダイナミクスモデルの 表現へ転移して⾔語と実世界をグラウンディング 同じベクトル 表現になる ように学習 15 ⾏動の
記号表現 ⾏動の ⾔語表現
16 (1) ⾏動を⾔語で表現する • ⾏動⽂を⾔語モデル(GPT-2)で状態ベクトルℎ% にencode • NLUタスクにおいて⾔語モデルの出⼒を⾏動エンコーダの 代わりに使っても物体デコーダの出⼒が壊れないように学習
17 (2) 状態を⾔語で説明する • MLPで(初期状態, ⾏動, ⾏動結果)を要約した表現ℎ&"! , ℎ&"" を
GPT-2に渡して,⾏動結果を表す⽂章を⽣成・学習 • NLUタスク(⾔語⽣成しない)の場合でも,この学習は精度 向上に効果がある ℎ!"! , ℎ!""
• 本研究のセットアップ – タスク定義(NLU,NLG) – データセット PIGPeN • 提案モデル –
PIGLet の構成 – 物理ダイナミクスモデルの学習 – ⾔語モデルの事前学習 – ⾔語モデルと物理ダイナミクスの結合 • 評価実験 – NLUタスク – NLGタスク – ⾔語モデルの事前学習内容の影響 18 ⽬次
• タスク定義 – 初期状態 (属性値)× ⾏動(⾔語)→ ⾏動結果 (属性値) • No
Change – 初期状態の属性値のまま出⼒ • Text-to-Text – GPT-3,T5 – Object1,2の属性値を JSONスタイルで⼊⼒・出⼒する • BERT-style – ⼊⼒︓初期状態の属性値を物理ダイナ ミクスモデルでembeddingして BERTに与える + ⾏動の⾔語情報 – 出⼒︓hidden-stateのpooling vectorから属性値を予測 19 NLUタスクのベースライン
• 物体単位で全属性値を正確に予測できるかの指標Accuracy について,提案⼿法は⼤幅に精度向上 • 提案モデルでは訓練時に未知の物体についても精度が良い 20 評価結果(NLUタスク)
21 Ablation study (NLUタスク) • 2物体同時(global)に状態変化を予測するのと,⾏動結果 の⽂章の⾔語⽣成lossも使うことで,記号表現のみで学習す るupper boundに迫る精度が出ている (物理ダイナミクスモデルの)
• タスク定義 – 初期状態 (属性値)× ⾏動(記号表現)→ ⾏動結果 (⾔語) • Text-to-Text
– T5: Object1,2の属性値と⾏動をJSONスタイルで⼊⼒・出⼒する • LM baseline – MLP_applyをしない提案⼿法(物理ダイナミクスモデルによる 物理シミュレーションを⾏わない) 22 NLGタスクのベースライン
23 評価結果(NLGタスク) • 提案⼿法がベースラインを上回る結果 • 物理シミュレーション結果が⾔語⽣成にも貢献している • 主観評価(Faithfulness)では⼈間と⼤きな差
24 出⼒例 • 提案⼿法では訓練時に出現しないobject(Mug)についても ある程度正しく予測できている è ⾔語モデルの効果︖ マグカップを空にする コーヒーメーカー をオンにする
正解 ⾔語⽣成で マグカップに⾔及できていない 正解
25 ⾔語モデルの事前学習の効果 • ⾔語モデルの事前学習コーパスからunseen objectsに関する ⽂章を除いてみる(PIGLeT ZeroShotLang) – 例えばMugは2万回コーパスに出現 •
⾔語モデルで事前にobjectのcommonsenseを獲得できている ⽅が精度は良い(ただし,それほど悪くなっていない)
• 何をする研究か︖ – ⾃然⾔語と実世界のグラウンディングにneuro-symbolicな アプローチで取り組む – 現在の状態と⾏動から「次に何が起きるか」を⾔語や記 号表現で予測する • 貢献は何か︖
– データセット PigPen を整備・公開 – Physical dynamicsモデルと⾔語モデルを分離して学習可 能なモデル PIGLet を提案 • 嬉しさは︖(個⼈的感想) – ⾝体性を有するAIの実現へ向けた重要なステップの達成 – 事前学習済⾔語モデルと,実世界の物理的な commonsenseの知識を結びつける知⾒の獲得 まとめ 26
参考資料 27
• 3Dモデリングされた室内環境においてロボットの様々な⾏ 動をシミュレーション可能 28 環境︓AI2-THOW [Kolve et al. ,2017] Eric
Kolve, Roozbeh Mottaghi, Daniel Gordon, Yuke Zhu, Abhinav Gupta, Ali Farhadi: AI2-THOR: An Interactive 3D Environment for Visual AI. CoRR abs/1712.05474 (2017)
• 最⼤2つの物体(126種)で表現される – Pan, Egg, Vase, Faucet, Mirror, Sink, Apple
,Fridge, etc. • 各物体は42種の属性値を持つ – 含む/含まれる物体,質量,サイズ,温度,その他多数の真偽値 29 状態の記号表現
• 最⼤2つの物体を引数に取る関数として表現される – 10〜20種︖ 数字がバラバラ • Fig. 2 (20) •
Section 2.1 (10) • Appendix B (11) • 公開データ* (13) 30 ⾏動の記号表現 ⾏動例(Appendix B) *https://github.com/rowanz/piglet /blob/main/data/annotations.jsonl
31 評価結果(NLUタスク︔属性値レベル)