Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
jsai2023 erikuroda
Search
Eri KURODA
June 03, 2023
Research
1
200
jsai2023 erikuroda
Presentation materials for JSAI2023.
Eri KURODA
June 03, 2023
Tweet
Share
More Decks by Eri KURODA
See All by Eri KURODA
SCIS-ISIS2024_erikuroda
erikuroda
0
9
JSAI2024 erikuroda
erikuroda
0
52
2023DFKI, UdS talk
erikuroda
0
12
DS2023_erikuroda
erikuroda
0
35
PRML2023 S9-5 EriKuroda
erikuroda
0
150
230530 AIRC Eri Kuroda
erikuroda
0
84
Other Decks in Research
See All in Research
機械学習による言語パフォーマンスの評価
langstat
6
720
尺度開発における質的研究アプローチ(自主企画シンポジウム7:認知行動療法における尺度開発のこれから)
litalicolab
0
350
論文紹介: COSMO: A Large-Scale E-commerce Common Sense Knowledge Generation and Serving System at Amazon (SIGMOD 2024)
ynakano
1
100
Active Adaptive Experimental Design for Treatment Effect Estimation with Covariate Choices
masakat0
0
220
Leveraging LLMs for Unsupervised Dense Retriever Ranking (SIGIR 2024)
kampersanda
2
200
大規模言語モデルを用いた日本語視覚言語モデルの評価方法とベースラインモデルの提案 【MIRU 2024】
kentosasaki
2
520
marukotenant01/tenant-20240826
marketing2024
0
510
Introducing Research Units of Matsuo-Iwasawa Laboratory
matsuolab
0
940
ECCV2024読み会: Minimalist Vision with Freeform Pixels
hsmtta
1
150
RSJ2024「基盤モデルの実ロボット応用」チュートリアルA(河原塚)
haraduka
3
650
Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
eumesy
PRO
6
710
非ガウス性と非線形性に基づく統計的因果探索
sshimizu2006
0
370
Featured
See All Featured
Typedesign – Prime Four
hannesfritz
40
2.4k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
27
4.3k
Into the Great Unknown - MozCon
thekraken
32
1.5k
Practical Orchestrator
shlominoach
186
10k
GitHub's CSS Performance
jonrohan
1030
460k
Building Your Own Lightsaber
phodgson
103
6.1k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
229
52k
GraphQLとの向き合い方2022年版
quramy
43
13k
Raft: Consensus for Rubyists
vanstee
136
6.6k
Visualization
eitanlees
145
15k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
246
1.3M
Transcript
予測符号化を模した 物理環境の予測推論モデル ◦ ⿊⽥ 彗莉1, 2・⼩林⼀郎 1 1︓お茶の⽔⼥⼦⼤学 2︓⽇本学術振興会 37
Pages 1G4-OS-21a-05 JSAI2023
2
3
4
1 5
2 6
7 1 2 ⾞が来る前に急いで渡る ⾞が通り過ぎてから渡る
8 どこから判断しているか 距離を⾒積もる 速度(速さ) • ⾃分がどれくらいの速さで歩く/ ⾛れるか • ⾞が曲がるのか/曲がらないのか •
急激に加速してこないかどうか ⾃分が事故にあうか/あわないか これまでの経験や常識から判断
9 背景・⽬的 • 認識と予測 Ø 物体が次に起こることを予測し、⾏動を決定 Ø やり取りや観察から仕組みや背景を学ぶ → 出来事の重要な点が⼤事
→ 常識の基本 • ⾔語による理解 Ø 実世界と⾔語を結ぶことでより詳細に理解 Ø 実世界と結びついた⾔語を⽤い、 記号操作をすることでヒトの知能を表現 ヒトの実世界認識 しかし • 実世界認識予測を対象にした機械学習 Ø ⼊⼒(観測)を画像 → ヒトの視覚に相当 Ø 画像特徴量の予測を実世界の予測とみなしている • ヒトのように物体の物理特性や、物理法則をもとに した予測をしていない • 実世界における物体を「認識し、物理特性を理解し、 予測する」ことが⾔語と結びついていない • 実環境の物体の物理法則をもとに、物理的な変化点取得と予測ができる予測推論モデルを提案 • 実世界と⾔語を結びつけるために、推論内容を⾔語として表現 ⽬的
10 概要 CLEVRER 次ステップの変化 点のタイミングを 正しく⽰せるか 提案モデル グラフ構造 物理特性の集合を表現 PredNet
VTA, graph VTA 画像 視覚から実世界を⾒たとき 推論内容を⾔語 として⽣成 実験1 実験2 物体検出 速度・加速度 画像特徴量など
11 PredNet [Lotter+, 2016] • 深層学習を⽤いた、動画像から次の画像を予測する研究 • ⼤脳⽪質における予測符号化の 処理を模倣 •
脳内の情報処理機構を表現 実画像 予測画像 時刻t → 予測符号化 • 予測値と観測値の誤差を算出 • 誤差をボトムアップに伝達 • 誤差を最⼩化する予測値を出⼒ • 予測値をトップダウンに伝達 以上を繰り返す仕組み
12 Variational Temporal Abstraction [Kim+, 19] ⻘い道を歩いたとき ⾚い道を歩いたとき 全イベント ⼤事な箇所
(変化点) 全イベント ⼤事な箇所 (変化点)
13 Variational Temporal Abstraction [Kim+, 19] 𝑍 を遷移させるタイミングを決めるのが難しい 問題点 ヒト︓易
↔ モデル︓難 観測(⼊⼒) 観測抽象度 時間的抽象度
14 Variational Temporal Abstraction [Kim+, 19] それまでの観測と⽐較して, 潜在状態の変化の⼤きさで𝑚のフラグ (0 or
1)を決定 フラグの導⼊
15 提案モデル 𝐸!"_ℓ%& 𝐸!"_ℓ ⊝ ⊝ 𝑅!"_ℓ%& 𝑥" Input #
𝐴!"_ℓ%& 𝐴!"_ℓ%& # 𝐴!"_ℓ 𝐴!"_ℓ 𝐸'"_ℓ%& 𝐸'"_ℓ ⊝ ⊝ 𝑅'"_ℓ%& 𝑅'"_ℓ # 𝐴'"_ℓ%& 𝐴'"_ℓ%& # 𝐴'"_ℓ 𝐴!"_ℓ img Output 𝑑𝑖𝑓𝑓 !" 𝑅!"_ℓ 𝑑𝑖𝑓𝑓'" 𝑚( Output 𝑑𝑖𝑓𝑓 > 𝛼 physical training data Input Error Representation Prediction 時刻t 𝛼︓閾値 Difference 物理特性をふまえた グラフ構造の予測 画像の予測 𝑑𝑖𝑓𝑓 = 𝑑𝑖𝑓𝑓!" + 𝑑𝑖𝑓𝑓%"
データセット︓CLEVRER [Yi+,2020] • CLEVRER [Yi+, 2020] ØCoLlision Events for Video
REpresentation and Reasoning 16 動画数 20,000 個 (train:val:test=2:1:1) ビデオの⻑さ 5 秒 フレーム数 128フレーム 形状 ⽴⽅体・球・円柱 素材 メタル・ラバー ⾊ 灰,⾚,⻘,緑,茶,⽔⾊,紫,⻩⾊ イベント 出現,消失,衝突 アノテーション object id, 位置, 速度, 加速度
結合 データセット physical training dataset • 環境の物理特性から作成したデータセット 17 物体認識 物体の
位置情報 速度 加速度 物体同⼠の 位置⽅向のフラグ グラフ構造 埋め込み ベクトル
結合 データセット physical training dataset • 環境の物理特性から作成したデータセット 18 物体認識 物体の
位置情報 速度 加速度 物体同⼠の 位置⽅向のフラグ グラフ構造 埋め込み ベクトル
物体認識 • YOLACT Ø[Bolya+,2019] Øインスタンスセグメンテーション の1種 Ø物体の{形状,⾊,素材} データセット 19 検知前
検知後
物体認識 • YOLACT Ø[Bolya+,2019] Øインスタンスセグメンテーション の1種 Ø物体の{形状,⾊,素材} 位置情報 算出 •
取得したバウンディングボックスの 座標から物体の中⼼座標を算出 データセット 20 (𝑥& , 𝑦&) (𝑥' , 𝑦') 𝑐 = 𝑥, 𝑦 = ( 𝑥& + 𝑥' 2 , 𝑦& + 𝑦' 2 ) c 検知前 検知後
結合 データセット physical training dataset • 環境の物理特性から作成したデータセット 21 物体認識 速度
加速度 物体同⼠の 位置⽅向のフラグ グラフ構造 埋め込み ベクトル 物体の 位置情報
速度・加速度 データセット physical training dataset 22 velocity acceleration 𝑎!" =
(𝑣!" − 𝑣!# )/(𝑒𝑡"#$%&×𝑡) 𝑎'" = (𝑣'" − 𝑣'# )/(𝑒𝑡"#$%&×𝑡) ※ 𝑒𝑡()*+, = 5/128 フレーム間の経過時間 𝑣!" = (𝑥( − 𝑥()*)/𝑒𝑡"#$%& 𝑣'" = (𝑦( − 𝑦()* )/𝑒𝑡"#$%&
速度・加速度 物体間の位置関係のフラグ データセット physical training dataset 23 velocity acceleration 𝑎!"
= (𝑣!" − 𝑣!# )/(𝑒𝑡"#$%&×𝑡) 𝑎'" = (𝑣'" − 𝑣'# )/(𝑒𝑡"#$%&×𝑡) ※ 𝑒𝑡()*+, = 5/128 フレーム間の経過時間 𝑣!" = (𝑥( − 𝑥()*)/𝑒𝑡"#$%& 𝑣'" = (𝑦( − 𝑦()* )/𝑒𝑡"#$%& x flag “5” flag “-5” flag “-1” main object others main object = (𝑥&'%( , 𝑦&'%( ) others = (𝑥)"*+, , 𝑦)"*+, ) 𝑥-%.. = 𝑥)"*+, − 𝑥&'%( 𝑦-%.. = 𝑦)"*+, − 𝑦&'%( 𝑥-%.. 𝑦-%.. + + − − flag “5” flag “1” flag “-1” flag “-5” y flag “1”
グラフ構造 • ノード情報 Ø物体の形状,⾊,素材 埋め込みベクトル • node2vec [Grover+, 2016] データセット
physical training dataset 24 [[0.54, 0.29, 0.61…], [[0.82, 0.91, 0.15…], … [[0.14, 0.35, 0.69…]] 埋め込みベクトル例
物体の 位置情報 データセット physical training dataset • 環境の物理特性から作成したデータセット 25 物体認識
グラフ構造 結合 埋め込み ベクトル 速度 加速度 物体同⼠の 位置⽅向のフラグ physical training data
実験1︓予測変化点の抽出 実験2︓⾔語⽣成 実験概要 26
実験1︓予測変化点の抽出 ⽬的 • イベントの予測変化点を正しく 抽出できるか 設定 • データセット Ø CLEVRER
Ø physical training data • 対象範囲︓6パターン×10フレーム • 衝突・消失・出現など物体の 物理的な変化が起きている状況 実験概要 27
実験1︓精度算出⽅法 • アノテーションの衝突情報とフラグの⽴つタイミングの精度(%)を調査 例 • collision→19 frame,⽬で⾒ると → 21 frame
• 正解 19〜21 frame と設定 • フラグ︓18,19,20,22 → 精度︓2/4×100=50 (%) 28 19 フレーム⽬ 20 フレーム⽬ 21 フレーム⽬
29 実験1︓結果 i ii iii iv v vi Physical data
33.3 50 50 33.3 66.7 50 アノテー ション 66.7 50 66.7 40 50 50 精度 実画像 予測画像 t=1 t=12 m=1 m=0 m=0 m=1 m=1 m=0 m=1 m=1 衝突 精度︓2/6*100=33.3% 範囲iの結果 m=0 m=1
30 実験1︓結果 i ii iii iv v vi Physical data
33.3 50 50 33.3 66.7 50 アノテー ション 66.7 50 66.7 40 50 50 精度 実画像 予測画像 t=1 t=12 m=1 m=0 m=0 m=1 m=1 m=0 m=1 m=1 衝突 精度︓2/6*100=33.3% 範囲iの結果 m=0 m=1 physical training dataでの精度 アノテーションデータの精度と同等の精度で予測
実験1︓予測変化点の抽出 ⽬的 • 予測画像の変化点を正しく抽出 できるか 設定 • データセット ØCLEVRER Øphysical
training data • 対象範囲︓6パターン×10フレーム • 衝突・消失・出現など物体の 物理的な変化が起きている状況 実験2︓⾔語⽣成 ⽬的 • 実世界と⾔語を結びつけるために、 推論内容を⾔語として表現 設定 • データセット Øグラフの埋め込みベクトルと⾔語 データのペアデータ • 衝突の状況に限定 実験概要 31
実験2︓テンプレートの作成 • 9種類のテンプレート Ø3(衝突前・衝突・衝突後)×3(⽂章の種類)=9 種類 • 物体の種類 Ø衝突した 2 つの物体それぞれ
「{ 灰, ⾚, ⻘, 緑, 茶, ⽔, 紫, ⻩ } ⾊の { 球, 円柱, ⽴⽅体 }」 32 「⻘⾊の球と灰⾊の球がぶつかる」 「⻘⾊の球が灰⾊の球にはじかれる」 「灰⾊の球が⻘⾊の球にはじかれる」 衝突 衝突前 「⻘⾊の球と灰⾊の球が近づく」 「⻘⾊の球が灰⾊の球に近づく」 「灰⾊の球が⻘⾊の球に近づく」 衝突後 「⻘⾊の球と灰⾊の球が離れる」 「⻘⾊の球から灰⾊の球が離れる」 「灰⾊の球から⻘⾊の球が離れる」 ⽂章テンプレート例︓衝突する物体(⻘⾊の球・灰⾊の球) 5フレーム 5フレーム 衝突前(5フレーム前) 「AとBが近づく」 「AがBに近づく」 「BがAに近づく」 衝突 「AとBがぶつかる」 「AがBにはじかれる」 「BがAにはじかれる」 衝突後(5フレーム後) 「AとBが離れる」 「AからBが離れる」 「BからAが離れる」
33 実験2︓⾔語⽣成モデル test 学習済み Decoderモデル 予測内容を ⽰した⽣成⽂ pred graph embedding
input # 𝐴!"_ℓ Decoder Softmax <bos> w1 w2 wt <eos> … w1 w2 wt … Decoder学習モデル text ペアデータ train Linear graph embedding 219,303 ペア 10,965 個
34 実験2︓⽣成結果 i ii iv vi 実画像 予測画像 「緑⾊の球と⾚⾊の円柱がぶつかる」 「緑⾊の球が⾚⾊の円柱にはじかれる」
「⾚⾊の円柱が緑⾊の球にはじかれる」 正解⽂ 緑⾊の円柱が⾚⾊の円柱に はじかれる ⽣成⽂ 実画像 予測画像 「灰⾊の球と⻘⾊の円柱がぶつかる」 「灰⾊の球が⻘⾊の円柱にはじかれる」 「⻘⾊の円柱が灰⾊の球にはじかれる」 灰⾊の球が⻘⾊の⽴⽅体に はじかれる 実画像 予測画像 「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」 「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」 「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」 ⽔⾊の⽴⽅体が⻘⾊の球に ぶつかる 実画像 予測画像 「緑⾊の円柱と茶⾊の⽴⽅体がぶつかる」 「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」 「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」 緑⾊の円柱が茶⾊の⽴⽅体に ぶつかる 物体の⾊◦,形状✕ 物体の⾊◦,形状◦ 物体の⾊◦,形状✕ 物体の⾊✕,形状✕ 正解⽂ ⽣成⽂ 正解⽂ ⽣成⽂ 正解⽂ ⽣成⽂
35 実験2︓範囲viの結果の考察 vi れる」 れる」 柱に る」 れる」 れる」 体に
実画像 予測画像 「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」 「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」 「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」 ⽔⾊の⽴⽅体が⻘⾊の球に ぶつかる 予測画像 「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」 「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」 緑⾊の円柱が茶⾊の⽴⽅体に ぶつかる 物体の⾊◦,形状◦ 物体の⾊✕,形状✕ 正解⽂ ⽣成⽂ ⽣成⽂ 物体の⾊・形状ともに誤った理由 20フレーム前 15フレーム前 10フレーム前 5フレーム前 衝突の25フレーム前 衝突 「⽔⾊の⽴⽅体」と「⻘⾊の球」 がぶつかっていると判定されて しまった可能性
Ex2︓ BLEU 36 BLEU@2 BLEU@3 BLEU@4 score 79.7 74.5 68.8
3⽂に対する平均点を取ったため、 やや低いスコアになった可能性 i ii iv vi 実画像 予測画像 「緑⾊の球と⾚⾊の円柱がぶつかる」 「緑⾊の球が⾚⾊の円柱にはじかれる」 「⾚⾊の円柱が緑⾊の球にはじかれる」 正解⽂ 緑⾊の円柱が⾚⾊の円柱に はじかれる ⽣成⽂ 実画像 「灰⾊の球と⻘⾊の円柱がぶつかる」 「灰⾊の球が⻘⾊の円柱にはじかれる」 「⻘⾊の円柱が灰⾊の球にはじかれる」 実画像 「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」 「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」 「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」 実画像 予測画像 「緑⾊の円柱と茶⾊の⽴⽅体がぶつかる」 「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」 「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」 緑⾊の円柱が茶⾊の⽴⽅体に ぶつかる 物体の⾊◦,形状✕ 物体の⾊◦,形状◦ 正解⽂ 正解⽂ 正解⽂ ⽣成⽂
まとめ • ヒト脳の階層構造を模した予測推論モデル ØPredNetの階層構造に変化点mの構造を追加 Ø実験結果から、予測内容についても変化点の タイミングを取得可能 • 実世界と⾔語を結びつけるために、 推論内容を⾔語として表現 Ø実世界と結びついた⾔語を⽤いて記号操作を
することで、ヒトの知能を表現 Ø実験結果から、推論内容を⾔語⽣成可能 今後の課題 • 実世界に近いデータの使⽤ Øヒトの実環境(実⽣活)に近い データセット • ⾔語による認識・推論・予測 まとめ・課題 37