Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文読み会 / Deep Multi-Modal Sets
Search
chck
June 29, 2020
Research
0
16
論文読み会 / Deep Multi-Modal Sets
社内論文読み会、PaperFridayでの発表資料です
chck
June 29, 2020
Tweet
Share
More Decks by chck
See All by chck
CyberAgent AI Lab研修 / Container for Research
chck
0
1.9k
CyberAgent AI Lab研修 / Code Review in a Team
chck
2
1.8k
論文読み会 / Socio-Technical Anti-Patterns in Building ML-Enabled Software: Insights from Leaders on the Forefront
chck
0
48
CyberAgent AI事業本部MLOps研修Container編 / Container for MLOps
chck
2
5.6k
論文読み会 / GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models
chck
0
31
論文読み会 / On the Factory Floor: ML Engineering for Industrial-Scale Ads Recommendation Models
chck
0
15
論文読み会 / GUIGAN: Learning to Generate GUI Designs Using Generative Adversarial Networks
chck
0
23
機械学習開発のためのコンテナ入門 / Container for ML
chck
0
930
Web系企業研究所における研究開発を加速させるエコシステム / Ecosystem accelerates our R&D in CyberAgent AI Lab
chck
0
140
Other Decks in Research
See All in Research
SSII2025 [TS3] 医工連携における画像情報学研究
ssii
PRO
3
1.3k
MIRU2025 チュートリアル講演「ロボット基盤モデルの最前線」
haraduka
15
8.7k
20250725-bet-ai-day
cipepser
2
480
ip71_contraflow_reconfiguration
stkmsd
0
110
Sat2City:3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion
satai
3
120
Towards a More Efficient Reasoning LLM: AIMO2 Solution Summary and Introduction to Fast-Math Models
analokmaus
2
900
RHO-1: Not All Tokens Are What You Need
sansan_randd
1
190
Agentic AIとMCPを利用したサービス作成入門
mickey_kubo
0
640
SNLP2025:Can Language Models Reason about Individualistic Human Values and Preferences?
yukizenimoto
0
190
Pythonでジオを使い倒そう! 〜それとFOSS4G Hiroshima 2026のご紹介を少し〜
wata909
0
950
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
3.7k
[論文紹介] Intuitive Fine-Tuning
ryou0634
0
130
Featured
See All Featured
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Facilitating Awesome Meetings
lara
56
6.6k
Making the Leap to Tech Lead
cromwellryan
135
9.6k
Build your cross-platform service in a week with App Engine
jlugia
232
18k
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.7k
Writing Fast Ruby
sferik
629
62k
How STYLIGHT went responsive
nonsquared
100
5.8k
YesSQL, Process and Tooling at Scale
rocio
173
14k
The Illustrated Children's Guide to Kubernetes
chrisshort
49
51k
A better future with KSS
kneath
239
18k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.2k
Done Done
chrislema
185
16k
Transcript
Deep Multi-Modal Sets 20/06/29 PaperFriday, Yuki Iwazaki@AI Lab
2 Point: 特徴のDown SamplingやScalabilityを考慮した Multi-Modal Encoderを提案 Authors: Austin Reiter, Menglin
Jia, Pu Yang, Ser-Nam Lim - Facebook AI Research, Cornell University 選定理由: - Creative Researchのslackでちょっと話題に出た - 俺より強いマルチモーダル表現に会いに行く
The Multi-Modal Problem 3
Multi-Modal Task? 複数の特徴タイプをモデル内で結合するタスク 4
non_linear_layers score 5 SimpleなMulti-Modal Model XC = concat([X1, . .
. XI ]) -> MLP -> Score
non_linear_layers score 6 問題点1: 特定Modal特徴がないことを zero paddingで表すのは不自然 0. 0. 0.
non_linear_layers score 7 問題点2: 特定Modal特徴の複数発生に 対応できていない 最大発生数で表現するのは無駄
non_linear_layers score 8 問題点3: 特徴次元に不均衡があると 高次元なModalityが Vectorを支配してしまう 10 × 12
178 × 100 200 × 200 × 3
non_linear_layers score 9 問題点3: 特に特徴次元に不均衡があると 高次元なModalityが Vectorを支配してしまう 10 × 12
178 × 100 200 × 200 × 3 ModalityのCardinalityに応じてScaleしながら 共通の次元に Encodeするモデルを提案
Pooling Layer 10
Pooling Layer: CNNの構成要素の 1つ 行列の小領域毎にMax, Avg, Sum, Min等をかけ情報を圧縮
Deep Sets 12
Deep Sets [Zaheer, 17] CNN(Pooling)の位置不変性を利用して Scalableな埋め込み表現を学習するモデル CNNでいう画像サイズが変わろうが、GCNでいうユー ザに対するアイテムの順番が変わろうが、 各要素、特徴自体の位置はPoolingのおかげで 大きく変わらない
15 Graph Convolutional Network
Proposed Method 16
Deep Multi-Modal Sets 17
Feature Importance可視化のために Poolingを通じてModality毎に 圧縮された特徴を得る Maxならそのmodalityにおける 特徴の最大値、Sumなら 合計値 18 特にMax Poolingの場合
Max要素を逆算(argmax)してModalityレベルで 解釈しやすい特徴重要度が得られる -> Pooling後の中間特徴として生き残った特徴 -> 予測結果に影響を与えている
Experiments 19
Datasets: Ads-Parallelity Dataset 広告画像 + 説明文-> 関係性 Parallelity: ImageとTextが一貫して同じメッセージ性を持つか (どちらかがなくても伝わるか)
20
Datasets: MultiModal-IMDb 映画のジャケ画像 + 説明文 -> 映画のジャンル 21
Features 22
Implementation non linear layers Modality wise pooling WSL Face OCR
RoBERTa Index Embedding +Meta
Results: Ads-Parallelity 28
None
Results: MM-IMDb 30
None
Conclusion 37
Conclusion and Future Work ◂ DynamicなModalityをうまくモデリングできる Multi-Modal Architectureを提案 ◂ PoolingがDown
Samplingのように働く ◂ Max-Poolingを用いた重要度の可視化 ◂ エラー分析が容易に ◂ Videoへの拡張が今後の課題 38
Comment - Pooling自体はシンプルで直感的なので実装しやすい - 特徴抽出器まではfreezeなので計算コストも低そう - Pooling Encoderの出力次元Dがハイパラで肝 - Adsは32次元,
MM-IMDbは1024次元らしい - 説明文(RoBERTa)だけでそこそこ精度が出ている気がする - タスクによるが説明文があればOCRテキストはそこまで要らない? - OCR自体の検出性能が絡んでいそう 39
References - Permutation-equivariant neural networks applied to dynamics prediction -
Graph Neural Networks and Permutation invariance - Connections between Neural Networks and Pure Mathematics - Deep Sets 40
41 Thanks! Any questions? You can find me at ◂
@chck ◂ #times_chck ◂
[email protected]
Feedback - 特徴抽出器もコミコミのe2e? - GPUも1枚なのでおそらく抽出後が入力 - それはそれで実装が重いですね - pooling type結局どれがいいのか
- 精度大差ないのでFeature Importanceとの兼ね合いで Maxでいいのでは