Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Good for Misconceived Reasons: An Empirical Rev...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
tosho
September 09, 2021
Research
390
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Good for Misconceived Reasons: An Empirical Revisiting on the Need for Visual Context in Multimodal Machine Translation
第13回最先端NLP勉強会(SNLP2021)発表資料
tosho
September 09, 2021
More Decks by tosho
See All by tosho
LayerXにおけるセキュリティ管理の現在地と次の一手
tosho
0
180
Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation
tosho
0
320
Shaham and Levy, 2021. Neural Machine Translation without Embeddings. NAACL2021
tosho
0
130
Liu et al., 2021. Pay Attention to MLPs. arXiv
tosho
0
190
Huang et al. 2020 Unsupervised Multimodal Neural Machine Translation with Pseudo Visual Pivoting
tosho
0
500
Ive, Madhyastha, Specia_2019_EMNLP_Deep Copycat Networks for Text-to-Text Generation
tosho
0
170
Tan, Bansal_2019_EMNLP_LXMERT Learning Cross-Modality Encoder Representations from Transformers
tosho
0
270
Tsai et al._2019_ACL_Multimodal Transformer for Unaligned Multimodal Language Sequences
tosho
0
450
Zhou et al. 2019. Density Matching for Bilingual Word Embedding. NAACL
tosho
3
330
Other Decks in Research
See All in Research
Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
satai
3
830
さくらインターネット研究所テックトーク2026春、研究開発Gr.25年度成果26年度方針
kikuzo
0
150
Model Discovery and Graph Simulation: A Lightweight Gateway to Chaos Engineering
anatolykr
0
200
事後確率分布の共分散について
koide3
0
120
「行ける・行けない表」による地域公共交通の性能評価
bansousha
0
160
人間中心の意思決定支援AI
yukinobaba
PRO
5
2.8k
Claude Code × autoresearch 実践
mathbullet
0
160
明日から使える!研究効率化ツール入門
matsui_528
13
7.3k
第12回人と環境にやさしい交通をめざす全国大会/熊本都市圏「車1割削減、渋滞半減、公共交通2倍」をめざして
trafficbrain
0
110
2026 東京科学大 情報通信系 研究室紹介 (すずかけ台)
icttitech
0
3.8k
LINEヤフー データサイエンス Meetup「三井物産コモディティ予測チャレンジ」の舞台裏-AlpacaTechパート
gamella
1
570
言語モデルから言語について語る際に押さえておきたいこと
eumesy
PRO
5
2.3k
Featured
See All Featured
Statistics for Hackers
jakevdp
799
230k
Abbi's Birthday
coloredviolet
2
8.1k
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.3k
Darren the Foodie - Storyboard
khoart
PRO
3
3.4k
The Pragmatic Product Professional
lauravandoore
37
7.3k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
2.1k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.8k
Mind Mapping
helmedeiros
PRO
1
250
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
210
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
3.4k
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
330
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
2
1.5k
Transcript
論文紹介: Good for Misconceived Reasons: An Empirical Revisiting on the
Need for Visual Context in Multimodal Machine Translation Zhiyong Wu, Lingpeng Kong, Wei Bi, Xiang Li, Ben Kao ACL 2021, https://aclanthology.org/2021.acl-long.480/ 発表者:平澤 寅庄(ひらさわ とうしょう) 東京都立大学小町研究室 D1 2021/9/16 第13回最先端NLP勉強会
注釈のない図表は論文から引用されたものです 2
この論文について 読んだ理由 • Multimodality のうれしみを評価する手法を知っておくのは重要 • 視覚情報の効果を同定しているが、その過程に興味があった 3
どんな論文か? タスク:マルチモーダル機械翻訳(言語+画像、言語+動画、etc) 分かったこと: • マルチモーダルな入力を使うことで正則化の効果を得られる • 既存のデータセットで訓練したモデルは視覚情報を無視する • 入力文がマスクされていると、モデルは視覚情報を活用する 4
関連研究:マルチモーダル機械翻訳 言語+画像 言語+動画 5 図は Barrault et al., 2018. Findings
of the Third Shared Task on Multimodal Machine Translation. WMT より引用 図は Wang et al., 2019. VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research. ICCV より引用
Adversarial Evaluation [Elliott, 2018] 問題点 • 直感的ではない • 正規化、データバイアスなどの影響が明らかでない モデルの
image awareness を評価 • 正しい (congruent) 画像を使用した性能と 正しくない (incongruent) 画像を使用した 性能の差を評価 • モデルの学習は congruent な画像を使用 関連研究:モデルは“マルチモーダル”なのか? 6 図は Elliott, 2018. Adversarial Evaluation of Multimodal Machine Translation. EMNLP より引用
視覚情報の関わりを明らかにするために 実験の方針 1. 入力文と視覚情報の特徴量を Gate する機構を持つ、2つのマルチモーダル 機械翻訳モデルを訓練する ◦ Gated fusion
multimodal machine translation (MMT) model ◦ Retrieval-Augmented MMT 2. 正則化を働きをする手法を同じモデルに適用し、同様に訓練する 3. Gate の動きを比較する 7
モデル1:Gated Fusion MMT Language encoder の出力に、線形変換した視覚特徴量を重み付きで加える 8 画像
モデル2:Retrieval-Augmented MMT (RMMT) 入力文をクエリに検索した視覚情報を入力に使うモデル 1. 入力に関連する画像を検索し top-K (K=5) を取得する (
Z ) 2. f_θ(∗)を用いて、抽出した Z をベクトル表現に変換する ◦ max-pooling over elements を使用 3. 変換した特徴量を用いて Gated fusion NMT と同様に計算する 9 画像 set max-pooling
実験設定 データセット:Multi30k, MSCOCO test set(曖昧語を含むテストセット) 画像検索モデル:Flickr30k で学習 ベースライン: • Transformer
(base, small, tiny) • Conventional MMT models (Doubly-ATT, Imagination) • Retrieval-based MMT model (UVR-NMT) • Graph-based MMT model (GMNMT) • Dynamic context-guided capsule network (DCCN) 10
各モデルの性能(BLEU) 11
各モデルの性能(BLEU) 12 in-domain なテストデータ
各モデルの性能(BLEU) 13 少し domain shift したテストデータ
各モデルの性能(BLEU) 14 曖昧語を含むテストデータ
各モデルの性能(BLEU) 15
MMTモデルは画像を見ているのか? Gate の重み (Λ) のマイクロ平均を計算 入力文・トークン毎の重みを平均 • 大きい → 視覚情報を使う
• 小さい → 視覚情報を使わない Gated Fusion / RMMT の両モデル で非常に小さな値になる • 1e-10 より大きい重みはなし 結論: モデルは推論時に視覚情報を使って いない 16
学習するときに視覚情報は使われているか? 学習の初期では視覚情報を使っている → ResNet が有益な情報を抽出しているため 次第に視覚情報の重みが徐々に減っていく → textual encoder の学習が進み、入力文を品
質良く表現できるようになったため マルチモーダルモデルが textual モデルに優る のはなぜか? → 視覚情報を入力に加えることが正則化の働き をしている、という仮説 17
正則化であることを検証するために 正則化で使われる2つの手法を使った場合の結果と比較する • Random noise injection → Gaussian でランダムな視覚特徴量を生成 •
Weight decay 18
実験結果(Random noise injection) Gate の重み (Λ):ResNet=97.7, Random Noise=95.2 → Random
noise は視覚特徴量の結果が類似している → 視覚情報は random noise と同様の働き(=正則化)をしている 19 (カッコ内は画像特徴量を使った場合からの差分)
実験結果(Weight decay) Weight decay を調整することで、Transformer が最も良い性能となる → 視覚情報は正則化の働きをしている 20
どのような場合で視覚情報は有用か マスクされた入力文に対する性能を評価 Visual grounded tokens をマスクしたデータを 使い、学習と評価を行った • 出現回数 30+
の単語(stop word 除く) • 全トークンの 45% に相当 Random noise injection や weight decay に比 べ、視覚特徴量を使うモデルは良い性能を達成 している → 入力文が不十分なときに、視覚特徴量は 役に立つ → 評価するためのベンチマークが必要 21
議論 1.新しいベンチマークが必要である • Multi30k は翻訳として簡単なデータセットである 2.提案手法は新しいベンチマークの verification に使用できる 3.視覚特徴量抽出器の選択は重要である •
抽出器の精度は町モーダル機械翻訳モデルの性能に大きく影響する 22
まとめ • マルチモーダルな入力を使うことで正則化の効果を得られる • 既存のデータセットで訓練したモデルは視覚情報を無視する • 入力文がマスクされていると、モデルは視覚情報を活用する 今後は • 視覚情報が必要とされるようなベンチマークが必要
23
読んだ感想 • 現在のベンチマーク(Multi30k)では、十分にモデルのマルチモダール性を 評価できない、というのは納得感がある • 視覚情報を使うことの効果が、正則化であることがまだつながらない ◦ 正則化であるなら、Test2016 での性能向上よりも、domain shift
した Test2017 や曖昧語を 含む MSCOCO での性能向上が顕著に現れても良さそうだが、そうではない • モデルの特性とデータセットの特性をどうやって切り分けるのだろうか? ◦ 現在のベンチマークで multimodality を活用できないのは、データセットが原因なのか、 それとも、(単純化された)モデルが原因なのか? ◦ 先行研究で Doubly-Att は高い image awareness を持つことは示されている 24