JSAI2024 erikuroda

実世界環境の物理特性に着⽬した⾔語記述 ◦ ⿊⽥彗莉 1・⼩林⼀郎 1 1︓お茶の⽔⼥⼦⼤学 JSAI2024・2024.05.31 4O1-OS-16d-04

2 背景・提案 • 認識と予測 Ø 物体の次の動きを予測し、⾏動を決定 Ø やり取りや観察から仕組みや背景を学ぶ → 出来事の重要な点が⼤事
• ⾔語による理解 Ø 実世界と⾔語を結ぶことでより詳細に理解 Ø 実世界と結びついた⾔語を⽤い、記号操作をすることでヒトの知能を表現ヒトの実世界理解・予測 • 動きが⼤きく変わる変化点を予測する機械学習モデル[Kuroda+, 23]の精度向上 • 実世界と⾔語を結びつけるために、推論内容を⾔語で表現提案 Ø⼊⼒（観測）を画像 →ヒトの視覚に相当 Ø画像特徴量の予測 = 実世界の予測 • 物体の物理法則をもとにした予測が難しい • 物体の「物理特性を理解し、予測する」ことと、⾔語が結びついていない計算機による予測

3 概要 physical training data ⾔語モデル •グラフ構造の埋め込みベクトル •各物体の速度 •各物体の加速度 •物体間の位置関係
⾔語⽣成緑⾊の円柱が⾚⾊の円柱にはじかれる Green cylinder is repulsed by red cylinder. 物体の⾊ ✔，形状 ✘ ⼊⼒ CLEVRER[Yi+, 19] 予測画像⽣成 • ( PredNet )[Lotter+, 16] • PredRNN [Wang+, 17] • PredRNN v2 [Wang+, 21] • PreCNet [Straka+, 23] 予測モデルのベース変化点予測モデル • VTA [Kim+, 19] (Variational Temporal Abstraction)

PredNet [Lotter+, 2016] • ⼤脳⽪質における予測符号化の処理を模倣 • エラーを階層的に推論 PreCNet [Straka+,
2023] • PredNetを改良 • ⼊⼒情報全体を毎回推論 PrdNet・PreCNet 4 !ℓ"# !ℓ " # ℓ"# "ℓ"# " # ℓ "ℓ $ℓ"# $ℓ ⊝ ⊝ conv LSTM conv Prediction Target pool conv input Error +,- ReLU subtract !!$ Input Representation ⊝ ⊝ !! ℓ#$ ! " ! ℓ#$ ! " ! ℓ !! ℓ !! upsample convLSTM convLSTM Representation conv conv input "! ℓ#$ +,- ReLU subtract "! ℓ +,- ReLU subtract Pediction Error !!"#$% = # !&'( (% ) *+, !&'( & = #'! ℓ% !+, # (ℓ )ℓ . ℓ+/ #*ℓ !(+) %ℓ $+,

PredRNN [Wang+, 2017] • ConvLSTMを階層にした形の予測モデル • 空間・時間の両⽅にH（隠れ層）が⼊⼒ PredRNN v2 [Wang+,
2022] • PredRNNを改良した新たな予測モデル • Hを⼊⼒するゲートを増やした PredRNN・PredRNN v2 5 ConvLSTM network [Shi+, 2015] ConvLSTMに時空間記憶の機構追加

6 Variational Temporal Abstraction [Kim+, 19] ⻘い道を歩いたとき⾚い道を歩いたとき全イベント⼤事な箇所
（変化点）全イベント⼤事な箇所（変化点）

7 Variational Temporal Abstraction [Kim+, 19] 𝑍 を遷移させるタイミングを決めるのが難しい問題点ヒト︓易
↔ モデル︓難観測（⼊⼒）観測抽象度時間的抽象度

8 Variational Temporal Abstraction [Kim+, 19] それまでの観測と⽐較して，潜在状態の変化の⼤きさで𝑚のフラグ (0 or
1)を決定フラグの導⼊

9 ⽬的変化点予測モデル[Kuroda+, 2023] の精度向上ｃ従来のモデル • PredNet [Lotter+,
2016] • VTA [Kim+, 2019] Ø Variational Temporal Abstraction !!"_ℓ%& !!"_ℓ ⊝ ⊝ "!"_ℓ%& !# Input $ % !"_ℓ%& "!"_ℓ%& $ % !"_ℓ !!"_ℓ !'"_ℓ%& !'"_ℓ ⊝ ⊝ "'"_ℓ%& "'"_ℓ $ % '"_ℓ%& "'"_ℓ%& $ % '"_ℓ !!"_ℓ img Output &'((!" "!"_ℓ &'(('" )( Output !"## > % physical training data Input Error Representation Prediction 時刻t "︓閾値 Difference 物理特性をふまえたグラフ構造の予測画像の予測 !"## = !"##!" + !"##%" PredNetベースの変化点予測モデルベースとなる予測モデルの変更ｃ本研究 • PredRNN [Wang+, 2017] • PredRNN v2 [Wang+, 2022] • PreCNet [Straka+, 2023] + VTA [Kim+, 2019] Ø Variational Temporal Abstraction 精度⾼低

10 PredRNN・PredRNN v2ベースモデル 𝑋!_#$% 𝑋!_&'( 𝑆𝑇 𝐿𝑆𝑇𝑀!"# ℓ%& 𝑆𝑇 𝐿𝑆𝑇𝑀!"#
ℓ%' 𝑆𝑇 𝐿𝑆𝑇𝑀!"# ℓ%( 𝑆𝑇 𝐿𝑆𝑇𝑀!"# ℓ%) " 𝑋!)*_&'( 𝑀!"#_%&' ℓ)* 𝑀! ℓ)# 𝑀! ℓ)+ 𝑀! ℓ), 𝐻! ℓ)# 𝐻! ℓ)+ 𝐻! ℓ), 𝑀!_%&' ℓ)* 𝑀!_-./ ℓ)* 𝑚! = # 0 ∶ 𝑑𝑖𝑓𝑓! < 𝛼 1 ∶ 𝑑𝑖𝑓𝑓! > 𝛼 image data 𝑑𝑖𝑓𝑓*_!"# physical data 𝑑𝑖𝑓𝑓*_,-. 𝑑𝑖𝑓𝑓# = 𝑑𝑖𝑓𝑓#_%&' + 𝑑𝑖𝑓𝑓#_()* 時刻t 𝑆𝑇 𝐿𝑆𝑇𝑀!"# ℓ%' 𝑆𝑇 𝐿𝑆𝑇𝑀!"# ℓ%( 𝑆𝑇 𝐿𝑆𝑇𝑀!"# ℓ%) " 𝑋!)*_#$% 𝑆𝑇 𝐿𝑆𝑇𝑀!"# ℓ%& 𝑀!"#_-./ ℓ)*

11 PreCNetベースモデル 𝐸!_%&' ℓ0# 𝐸!_%&' ℓ ⊝ ⊝ 𝑅!_%&' ℓ0#
- 𝐴!_%&' ℓ0# / 𝐴!_#$% ℓ 𝑅!_%&' ℓ Error Representation Prediction 𝑥!_$%& Input 𝐸!_-./ ℓ0# 𝐸!_-./ ℓ ⊝ ⊝ 𝑅!_-./ ℓ0# / 𝐴!_'() ℓ*+ / 𝐴!_'() ℓ 𝑥!_'() Input 𝑅!"#_%&' ℓ 𝑅!"#_-./ ℓ 𝑅!_-./ ℓ upsample upsample 𝑚! = # 0 ∶ 𝑑𝑖𝑓𝑓! < 𝛼 1 ∶ 𝑑𝑖𝑓𝑓! > 𝛼 𝑑𝑖𝑓𝑓! = 𝑑𝑖𝑓𝑓!_$%& + 𝑑𝑖𝑓𝑓!_'() 時刻t image data physical data 𝑑𝑖𝑓𝑓!_$%& 𝑑𝑖𝑓𝑓!_'() img Output

データセット︓CLEVRER [Yi+,2020] • CLEVRER [Yi+, 2020] ØCoLlision Events for Video
REpresentation and Reasoning 12 動画 20,000 個 (train:val:test=2:1:1) ビデオの⻑さ 5 秒フレーム数 128フレーム形状⽴⽅体・球・円柱素材メタル・ラバー⾊灰，⾚，⻘，緑，茶，⽔⾊，紫，⻩⾊イベント出現，消失，衝突アノテーション object id, 位置, 速度, 加速度

結合データセット physical training dataset • 環境の物理特性から作成したデータセット 13 物体認識物体の
位置情報速度加速度物体同⼠の位置⽅向グラフ構造埋め込みベクトル

結合データセット physical training dataset • 環境の物理特性から作成したデータセット 14 物体認識物体の
位置情報速度加速度物体同⼠の位置⽅向グラフ構造埋め込みベクトル

物体認識 • YOLACT Ø[Bolya+,2019] Øインスタンスセグメンテーションの1種 Ø物体の{形状，⾊，素材} データセット 15 検知前
検知後

物体認識 • YOLACT Ø[Bolya+,2019] Øインスタンスセグメンテーションの1種 Ø物体の{形状，⾊，素材} 位置情報算出 •
取得したバウンディングボックスの座標から物体の中⼼座標を算出データセット 16 (𝑥/ , 𝑦/) (𝑥0 , 𝑦0) 𝑐 = 𝑥, 𝑦 = ( 𝑥/ + 𝑥0 2 , 𝑦/ + 𝑦0 2 ) c 検知前検知後

結合データセット physical training dataset • 環境の物理特性から作成したデータセット 17 物体認識速度
加速度物体同⼠の位置⽅向グラフ構造埋め込みベクトル物体の位置情報

速度・加速度データセット physical training dataset 18 velocity acceleration 𝑎#( =
(𝑣#( − 𝑣#) )/(𝑒𝑡$%&'(×𝑡) 𝑎)( = (𝑣)( − 𝑣)) )/(𝑒𝑡$%&'(×𝑡) ※ 𝑒𝑡12345 = 5/128 フレーム間の経過時間 𝑣#( = (𝑥* − 𝑥*+,)/𝑒𝑡$%&'( 𝑣)( = (𝑦* − 𝑦*+, )/𝑒𝑡$%&'(

速度・加速度物体間の位置関係データセット physical training dataset 19 velocity acceleration 𝑎#(
= (𝑣#( − 𝑣#) )/(𝑒𝑡$%&'(×𝑡) 𝑎)( = (𝑣)( − 𝑣)) )/(𝑒𝑡$%&'(×𝑡) ※ 𝑒𝑡12345 = 5/128 フレーム間の経過時間 𝑣#( = (𝑥* − 𝑥*+,)/𝑒𝑡$%&'( 𝑣)( = (𝑦* − 𝑦*+, )/𝑒𝑡$%&'( x main object others main object = (𝑥%*$+ , 𝑦%*$+ ) others = (𝑥,!(-. , 𝑦,!(-. ) 𝑥/$00 = 𝑥,!(-. − 𝑥%*$+ 𝑦/$00 = 𝑦,!(-. − 𝑦%*$+ 𝑥/$00 𝑦/$00 + + − − y 1st Quadrant 2nd Quadrant 3rd Quadrant 4th Quadrant 1st Quadrant 2nd Quadrant 4th Quadrant 3rd Quadrant

グラフ構造 • ノード情報 Ø物体の形状，⾊，素材埋め込みベクトル • node2vec [Grover+, 2016] データセット
physical training dataset 20 [[0.54, 0.29, 0.61…], [[0.82, 0.91, 0.15…], … [[0.14, 0.35, 0.69…]] 埋め込みベクトル例

物体の位置情報データセット physical training dataset • 環境の物理特性から作成したデータセット 21 物体認識
グラフ構造結合埋め込みベクトル速度加速度物体同⼠の位置⽅向 physical training data

実験1︓予測変化点の抽出実験2︓⾔語⽣成実験概要 22

実験1︓予測変化点の抽出⽬的 • 物体の予測変化点を正しく抽出できるか設定 • データセット Ø CLEVRER Ø
physical training data • 対象範囲︓6パターン（i〜vi）×10フレーム • 衝突・消失・出現など物体の物理的な変化が起きている状況 • F1スコアで算出実験概要 23

24 実験1︓設定 PredRNN・PredRNN v2 ベース PreCNetベース学習データ数 600,000 600,000 テストデータ数
80,000 80,000 エポック 500,000 500,000 レイヤー数 4 4 チャンネル数 128 3, 48, 96, 192 カーネルサイズ 5*5 - 損失関数 Adam [Kingma+, 17] Adam [Kingma+, 17] 学習率減衰 0.001 0.0001 𝛼（変化点判定の閾値） 5 5

実験1︓変化点予測精度 • F1スコアで算出 25 範囲 i ii iii iv v
vi PredNet -based [Kuroda+, 2023] 40.0 50.0 50.0 40.0 57.1 50.0 PredRNN -based 50.9 54.8 53.1 48.9 60.6 61.7 PredRNN v2-based 51.4 57.5 54.6 50.6 62.7 64.2 PreCNet -based 62.1 64.2 59.2 60.8 68.9 69.8 ベースとなる予測モデルの精度があがるほど、変化点予測の精度が向上

実験2︓⾔語⽣成⽬的 • 実世界と⾔語を結びつけるために、推論内容を⾔語として表現設定 • データセット Øグラフの埋め込みベクトルと⾔語データのペアデータ
• 衝突の状況に限定実験概要 26 実験1︓予測変化点の抽出⽬的 • 物体の予測変化点を正しく抽出できるか設定 • データセット Ø CLEVRER Ø physical training data • 対象範囲︓6パターン（i〜vi）×10フレーム • 衝突・消失・出現など物体の物理的な変化が起きている状況 • F1スコアで算出

実験2︓テンプレートの作成 • 9種類のテンプレート Ø3(衝突前・衝突・衝突後)×3(⽂章の種類)=9 種類 • 物体の種類 Ø衝突した 2 つの物体それぞれ
「{ 灰, ⾚, ⻘, 緑, 茶, ⽔, 紫, ⻩ } ⾊の { 球, 円柱, ⽴⽅体 }」 27 「⻘⾊の球と灰⾊の球がぶつかる」「⻘⾊の球が灰⾊の球にはじかれる」「灰⾊の球が⻘⾊の球にはじかれる」衝突衝突前「⻘⾊の球と灰⾊の球が近づく」「⻘⾊の球が灰⾊の球に近づく」「灰⾊の球が⻘⾊の球に近づく」衝突後「⻘⾊の球と灰⾊の球が離れる」「⻘⾊の球から灰⾊の球が離れる」「灰⾊の球から⻘⾊の球が離れる」⽂章テンプレート例︓衝突する物体（⻘⾊の球・灰⾊の球） 5フレーム 5フレーム衝突前（5フレーム前）「AとBが近づく」「AがBに近づく」「BがAに近づく」衝突「AとBがぶつかる」「AがBにはじかれる」「BがAにはじかれる」衝突後（5フレーム後）「AとBが離れる」「AからBが離れる」「BからAが離れる」

28 実験2︓⾔語⽣成モデル test 学習済み Decoderモデル予測内容を⽰した⽣成⽂ pred graph embedding
input Decoder Softmax <bos> w1 w2 wt <eos> … w1 w2 wt … Transformer Decoder学習モデル text ペアデータ train Linear graph embedding 219,303 ペア 10,965 個

29 実験2︓設定設定ペアデータ数 219,303 （9⽂ * 24,367回の衝突）テストデータ数 10,965
バッチサイズ 8 隠れ層 512 損失関数 Adam [Kingma+, 17]

30 実験2︓⾔語⽣成結果1 Range i ⾊形正解⽂「緑⾊の球と⾚⾊の円柱がぶつかる」 “Green
sphere and red cylinder collide.” 「緑⾊の球が⾚⾊の円柱にはじかれる」 “Green sphere is repulsed by red cylinder.” 「⾚⾊の円柱が緑⾊の球にはじかれる」 “Red cylinder is repulsed by green sphere.” PredNet -based [Kuroda+, 2023] 「緑⾊の円柱が⾚⾊の円柱にはじかれる」 “Green cylinder is repulsed by red cylinder.” ✔ ✘ PredRNN -based 「緑⾊の円柱と⾚⾊の円柱がぶつかる」 “Green cylinder and red cylinder collide.” ✔ ✘ PredRNN v2-based 「緑⾊の球が⾚⾊の円柱にはじかれる」 “Red cylinder is repulsed by green sphere.” ✔ ✔ PreCNet -based 「緑⾊の球が⾚⾊の円柱にはじかれる」 “Red cylinder is repulsed by green sphere.” ✔ ✔

31 実験2︓⾔語⽣成結果2 Range vi ⾊形正解⽂「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」 “Cyan
cube and cyan cylinder collide.” 「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」 “Cyan cube is repulsed by cyan cylinder. ” 「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」 “Cyan cylinder is repulsed by cyan cube. ” PredNet -based [Kuroda+, 2023] ⽔⾊の⽴⽅体が⻘⾊の球にぶつかる “Cyan cube is repulsed by blue sphere. ” ✘ ✘ PredRNN -based ⽔⾊の⽴⽅体が⻘⾊の球にぶつかる “Cyan cube is repulsed by blue sphere. ” ✘ ✘ PredRNN v2-based ⽔⾊の⽴⽅体が⽔⾊の球にぶつかる “Cyan cube is repulsed by cyan sphere. ” ✔ ✘ PreCNet -based ⽔⾊の⽴⽅体が⽔⾊の円柱にぶつかる “Cyan cube is repulsed by cyan cylinder. ” ✔ ✔

実験2︓精度⽐較 32 ベースモデルスコア BLEU@2 BLEU@3 BLEU@4 METEOR CIDEr PredNet
-based 英 80.3 63.0 56.3 68.8 72.9 ⽇ 79.7 74.5 68.8 70.2 72.4 PredRNN -based 英 84.3 66.8 59.1 72.6 74.6 ⽇ 82.5 76.1 73.4 73.5 75.1 PredRNN v2- based 英 86.2 72.4 62.7 75.9 78.3 ⽇ 85.9 78.9 75.7 77.6 78.2 PreCNet -based 英 90.6 77.1 67.9 78.1 80.3 ⽇ 88.3 80.6 79.2 80.4 81.2 ベースとなる予測モデルの精度があがるほど、⾔語⽣成の精度もあがる

考察 • 変化点予測モデルの精度 → Physical training dataの作り⽅・ベースとなる予測モデルの2つが影響 • ベースとなる予測モデルそのものの予測精度
→ 変化点予測モデル、⾔語⽣成の精度に影響 • さらなる精度向上の可能性 → Physical training data（物体認識など） 33

まとめ • 物体の衝突のタイミングを予測する変化点予測モデルの構築し、精度⽐較 Ø物体の将来の動きにおける、次ステップの衝突のタイミングを抽出 • 実世界と⾔語を結びつけるために、推論内容を⾔語として表現 Ø実世界と結びついた⾔語を⽤いて記号操作
をすることで、ヒトの知能を表現 Ø実験結果から、推論内容を⾔語⽣成可能今後の課題 • データセットの作り⽅の再検討 Ø物体の位置の取り⽅ ØGPT-4などの利⽤ • 実世界に近いデータの使⽤ Øヒトの実環境（実⽣活）に近いデータセットまとめ・課題 34

JSAI2024 erikuroda

JSAI2024 erikuroda

Eri KURODA

More Decks by Eri KURODA

Featured

Transcript

実世界環境の物理特性に着⽬した⾔語記述 ◦ ⿊⽥彗莉 1・⼩林⼀郎 1 1︓お茶の⽔⼥⼦⼤学 JSAI2024・2024.05.31 4O1-OS-16d-04

2 背景・提案 • 認識と予測 Ø 物体の次の動きを予測し、⾏動を決定 Ø やり取りや観察から仕組みや背景を学ぶ → 出来事の重要な点が⼤事

3 概要 physical training data ⾔語モデル •グラフ構造の埋め込みベクトル •各物体の速度 •各物体の加速度 •物体間の位置関係

PredNet [Lotter+, 2016] • ⼤脳⽪質における予測符号化の処理を模倣 • エラーを階層的に推論 PreCNet [Straka+,

PredRNN [Wang+, 2017] • ConvLSTMを階層にした形の予測モデル • 空間・時間の両⽅にH（隠れ層）が⼊⼒ PredRNN v2 [Wang+,

6 Variational Temporal Abstraction [Kim+, 19] ⻘い道を歩いたとき⾚い道を歩いたとき全イベント⼤事な箇所

7 Variational Temporal Abstraction [Kim+, 19] 𝑍 を遷移させるタイミングを決めるのが難しい問題点ヒト︓易

8 Variational Temporal Abstraction [Kim+, 19] それまでの観測と⽐較して，潜在状態の変化の⼤きさで𝑚のフラグ (0 or

9 ⽬的変化点予測モデル[Kuroda+, 2023] の精度向上ｃ従来のモデル • PredNet [Lotter+,

10 PredRNN・PredRNN v2ベースモデル 𝑋!_#$% 𝑋!_&'( 𝑆𝑇 𝐿𝑆𝑇𝑀!"# ℓ%& 𝑆𝑇 𝐿𝑆𝑇𝑀!"#

11 PreCNetベースモデル 𝐸!_%&' ℓ0# 𝐸!_%&' ℓ ⊝ ⊝ 𝑅!_%&' ℓ0#

データセット︓CLEVRER [Yi+,2020] • CLEVRER [Yi+, 2020] ØCoLlision Events for Video

結合データセット physical training dataset • 環境の物理特性から作成したデータセット 13 物体認識物体の

結合データセット physical training dataset • 環境の物理特性から作成したデータセット 14 物体認識物体の

物体認識 • YOLACT Ø[Bolya+,2019] Øインスタンスセグメンテーションの1種 Ø物体の{形状，⾊，素材} データセット 15 検知前

物体認識 • YOLACT Ø[Bolya+,2019] Øインスタンスセグメンテーションの1種 Ø物体の{形状，⾊，素材} 位置情報算出 •

結合データセット physical training dataset • 環境の物理特性から作成したデータセット 17 物体認識速度

速度・加速度データセット physical training dataset 18 velocity acceleration 𝑎#( =

速度・加速度物体間の位置関係データセット physical training dataset 19 velocity acceleration 𝑎#(

グラフ構造 • ノード情報 Ø物体の形状，⾊，素材埋め込みベクトル • node2vec [Grover+, 2016] データセット

物体の位置情報データセット physical training dataset • 環境の物理特性から作成したデータセット 21 物体認識

実験1︓予測変化点の抽出実験2︓⾔語⽣成実験概要 22

実験1︓予測変化点の抽出⽬的 • 物体の予測変化点を正しく抽出できるか設定 • データセット Ø CLEVRER Ø

24 実験1︓設定 PredRNN・PredRNN v2 ベース PreCNetベース学習データ数 600,000 600,000 テストデータ数

実験1︓変化点予測精度 • F1スコアで算出 25 範囲 i ii iii iv v

実験2︓⾔語⽣成⽬的 • 実世界と⾔語を結びつけるために、推論内容を⾔語として表現設定 • データセット Øグラフの埋め込みベクトルと⾔語データのペアデータ

実験2︓テンプレートの作成 • 9種類のテンプレート Ø3(衝突前・衝突・衝突後)×3(⽂章の種類)=9 種類 • 物体の種類 Ø衝突した 2 つの物体それぞれ

28 実験2︓⾔語⽣成モデル test 学習済み Decoderモデル予測内容を⽰した⽣成⽂ pred graph embedding

29 実験2︓設定設定ペアデータ数 219,303 （9⽂ * 24,367回の衝突）テストデータ数 10,965

30 実験2︓⾔語⽣成結果1 Range i ⾊形正解⽂「緑⾊の球と⾚⾊の円柱がぶつかる」 “Green

31 実験2︓⾔語⽣成結果2 Range vi ⾊形正解⽂「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」 “Cyan

実験2︓精度⽐較 32 ベースモデルスコア BLEU@2 BLEU@3 BLEU@4 METEOR CIDEr PredNet

考察 • 変化点予測モデルの精度 → Physical training dataの作り⽅・ベースとなる予測モデルの2つが影響 • ベースとなる予測モデルそのものの予測精度