Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文読み会 / Deep Multi-Modal Sets
Search
chck
June 29, 2020
Research
0
9
論文読み会 / Deep Multi-Modal Sets
社内論文読み会、PaperFridayでの発表資料です
chck
June 29, 2020
Tweet
Share
More Decks by chck
See All by chck
CyberAgent AI Lab研修 / Container for Research
chck
0
1.2k
CyberAgent AI Lab研修 / Code Review in a Team
chck
2
1.1k
論文読み会 / Socio-Technical Anti-Patterns in Building ML-Enabled Software: Insights from Leaders on the Forefront
chck
0
34
CyberAgent AI事業本部MLOps研修Container編 / Container for MLOps
chck
2
5.3k
論文読み会 / GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models
chck
0
14
論文読み会 / On the Factory Floor: ML Engineering for Industrial-Scale Ads Recommendation Models
chck
0
5
論文読み会 / GUIGAN: Learning to Generate GUI Designs Using Generative Adversarial Networks
chck
0
8
機械学習開発のためのコンテナ入門 / Container for ML
chck
0
890
Web系企業研究所における研究開発を加速させるエコシステム / Ecosystem accelerates our R&D in CyberAgent AI Lab
chck
0
130
Other Decks in Research
See All in Research
90 分で学ぶ P 対 NP 問題
e869120
15
6.5k
VAGeo: View-specific Attention for Cross-View Object Geo-Localization
satai
3
200
Weekly AI Agents News!
masatoto
33
62k
AIトップカンファレンスからみるData-Centric AIの研究動向 / Research Trends in Data-Centric AI: Insights from Top AI Conferences
tsurubee
3
2.3k
インドネシアのQA事情を紹介するの
yujijs
0
180
AWS 音声基盤モデル トーク解析AI MiiTelの音声処理について
ken57
0
210
データサイエンティストの就労意識~2015→2024 一般(個人)会員アンケートより
datascientistsociety
PRO
0
370
知識強化言語モデルLUKE @ LUKEミートアップ
ikuyamada
0
380
定性データ、どう活かす? 〜定性データのための分析基盤、はじめました〜 / How to utilize qualitative data? ~We have launched an analysis platform for qualitative data~
kaminashi
6
830
JSAI NeurIPS 2024 参加報告会(AI アライメント)
akifumi_wachi
5
950
NLP2025参加報告会 LT資料
hargon24
1
280
(NULLCON Goa 2025)Windows Keylogger Detection: Targeting Past and Present Keylogging Techniques
asuna_jp
1
370
Featured
See All Featured
What's in a price? How to price your products and services
michaelherold
245
12k
A Tale of Four Properties
chriscoyier
158
23k
Adopting Sorbet at Scale
ufuk
76
9.3k
Typedesign – Prime Four
hannesfritz
41
2.6k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Thoughts on Productivity
jonyablonski
69
4.6k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
34
2.2k
Why Our Code Smells
bkeepers
PRO
336
57k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.6k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
KATA
mclloyd
29
14k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
178
53k
Transcript
Deep Multi-Modal Sets 20/06/29 PaperFriday, Yuki Iwazaki@AI Lab
2 Point: 特徴のDown SamplingやScalabilityを考慮した Multi-Modal Encoderを提案 Authors: Austin Reiter, Menglin
Jia, Pu Yang, Ser-Nam Lim - Facebook AI Research, Cornell University 選定理由: - Creative Researchのslackでちょっと話題に出た - 俺より強いマルチモーダル表現に会いに行く
The Multi-Modal Problem 3
Multi-Modal Task? 複数の特徴タイプをモデル内で結合するタスク 4
non_linear_layers score 5 SimpleなMulti-Modal Model XC = concat([X1, . .
. XI ]) -> MLP -> Score
non_linear_layers score 6 問題点1: 特定Modal特徴がないことを zero paddingで表すのは不自然 0. 0. 0.
non_linear_layers score 7 問題点2: 特定Modal特徴の複数発生に 対応できていない 最大発生数で表現するのは無駄
non_linear_layers score 8 問題点3: 特徴次元に不均衡があると 高次元なModalityが Vectorを支配してしまう 10 × 12
178 × 100 200 × 200 × 3
non_linear_layers score 9 問題点3: 特に特徴次元に不均衡があると 高次元なModalityが Vectorを支配してしまう 10 × 12
178 × 100 200 × 200 × 3 ModalityのCardinalityに応じてScaleしながら 共通の次元に Encodeするモデルを提案
Pooling Layer 10
Pooling Layer: CNNの構成要素の 1つ 行列の小領域毎にMax, Avg, Sum, Min等をかけ情報を圧縮
Deep Sets 12
Deep Sets [Zaheer, 17] CNN(Pooling)の位置不変性を利用して Scalableな埋め込み表現を学習するモデル CNNでいう画像サイズが変わろうが、GCNでいうユー ザに対するアイテムの順番が変わろうが、 各要素、特徴自体の位置はPoolingのおかげで 大きく変わらない
15 Graph Convolutional Network
Proposed Method 16
Deep Multi-Modal Sets 17
Feature Importance可視化のために Poolingを通じてModality毎に 圧縮された特徴を得る Maxならそのmodalityにおける 特徴の最大値、Sumなら 合計値 18 特にMax Poolingの場合
Max要素を逆算(argmax)してModalityレベルで 解釈しやすい特徴重要度が得られる -> Pooling後の中間特徴として生き残った特徴 -> 予測結果に影響を与えている
Experiments 19
Datasets: Ads-Parallelity Dataset 広告画像 + 説明文-> 関係性 Parallelity: ImageとTextが一貫して同じメッセージ性を持つか (どちらかがなくても伝わるか)
20
Datasets: MultiModal-IMDb 映画のジャケ画像 + 説明文 -> 映画のジャンル 21
Features 22
Implementation non linear layers Modality wise pooling WSL Face OCR
RoBERTa Index Embedding +Meta
Results: Ads-Parallelity 28
None
Results: MM-IMDb 30
None
Conclusion 37
Conclusion and Future Work ◂ DynamicなModalityをうまくモデリングできる Multi-Modal Architectureを提案 ◂ PoolingがDown
Samplingのように働く ◂ Max-Poolingを用いた重要度の可視化 ◂ エラー分析が容易に ◂ Videoへの拡張が今後の課題 38
Comment - Pooling自体はシンプルで直感的なので実装しやすい - 特徴抽出器まではfreezeなので計算コストも低そう - Pooling Encoderの出力次元Dがハイパラで肝 - Adsは32次元,
MM-IMDbは1024次元らしい - 説明文(RoBERTa)だけでそこそこ精度が出ている気がする - タスクによるが説明文があればOCRテキストはそこまで要らない? - OCR自体の検出性能が絡んでいそう 39
References - Permutation-equivariant neural networks applied to dynamics prediction -
Graph Neural Networks and Permutation invariance - Connections between Neural Networks and Pure Mathematics - Deep Sets 40
41 Thanks! Any questions? You can find me at ◂
@chck ◂ #times_chck ◂
[email protected]
Feedback - 特徴抽出器もコミコミのe2e? - GPUも1枚なのでおそらく抽出後が入力 - それはそれで実装が重いですね - pooling type結局どれがいいのか
- 精度大差ないのでFeature Importanceとの兼ね合いで Maxでいいのでは