論文紹介 / Transitional Adaptation of Pretrained Models for Visual Storytelling

Transitional Adaptation of Pretrained Models for Visual Storytelling shade-tree Twitter:
@shade_tree2112 Website: https://forest1988.github.io [PDF of the paper] [Code of the paper] 第七回全⽇本コンピュータビジョン勉強会 CVPR2021読み会（後編） My Website 2021/7/31 1

前⼝上 2021/7/31 2

今回ご紹介する論⽂ 2021/7/31 3 https://openaccess.thecvf.com/content/CVPR2021/papers/ Yu_Transitional_Adaptation_of_Pretrained_Models_for_Visu al_Storytelling_CVPR_2021_paper.pdf

論⽂選定の理由 • 個⼈的理由 • Visual Storytelling に興味があった • もうちょっと客観的な理由 •
Vision Encoder と Language Model を”調和させる” transitional adaptation がチャレンジングな V&L タスクで有⽤であると主張し、これに基づいた TAPM を提案、連続的な静⽌画や動画のキャプション⽣成で性能向上を確認 • Vision & Language の様々なタスクに応⽤しうるものとして、このアプローチを知ることは有⽤ではないか？ 2021/7/31 4

お前は誰だ – 発表者の⽴場・視点（１） • shade-tree • 某⼤学院の博⼠課程学⽣ • 研究分野のキーワード： Natural
Language Processing, Natural Language Generation, Machine Learning, Storytelling, Emotions • V&L と Computer Vision、どこに⾏った？🤔 • CV 専⾨家が多数いる環境で NLP やりながら、「CV はよく分からないのですが」と素⼈質問（原義）する⼈ • 特に Story Generation や Story Understanding について、研究だったりしなかったりする活動 2021/7/31 5

お前は誰だ – 発表者の⽴場・視点（２） • shade-tree • 某⼤学院の博⼠課程学⽣ • 研究分野のキーワード： Natural
Language Processing, Natural Language Generation, Machine Learning, Storytelling, Emotions • V&L と Computer Vision、どこに⾏った？🤔 • CV 専⾨家が多数いる環境で NLP やりながら、「CV はよく分からないのですが」と素⼈質問（原義）する⼈ • 特に Story Generation や Story Understanding について、研究だったりしなかったりする活動 2021/7/31 6 ちょっとは V&L や CV が分かっている雰囲気を出したい！ Story と絡めれば、⾃分にもとっつきやすいのでは？？

お前は誰だ – 発表者の⽴場・視点（３） • V&L Transformer ちょっとわかる（原義） • 森友亮†,
上原康平†, 原⽥達也, (†equal contribution) “視覚・⾔語融合 Transformer モデルによる画像からの物語⽂⽣成,” CAI+CAI first workshop (⾔語処理学会第27回年次⼤会ワークショップ), 福岡（オンライン）, 2021年3⽉. [PDF] [Slides] • Transformer(s) で画像からの物語⽂⽣成 2021/7/31 7 === ⼈⼿による画像ナラティブ === some elephants are in a tent. They are tied by a chain. They seems to be happy. They are seeing something above a tent. A tent is made by wood. === 提案⼿法 (pretrained decoder) === An elephant is walking. It is in a zoo. It seems to be sad. Some elephants are walking. Some trees are near by elephant. === 提案⼿法 (scratch decoder) === Some elephants are standing. They are in a road. They seems to be happy. Some elephants are in africa. Some trees are near by elephant. !"#$"%&'(")*+,-.*')$&% /&')$&% !"# !"#$ $%$&'()* $%$&'()*+ !$"# !"#$

お前は誰だ – 発表者の⽴場・視点（４） • V&L Transformer ちょっとわかる（原義） • 森友亮†,
上原康平†, 原⽥達也, (†equal contribution) “視覚・⾔語融合 Transformer モデルによる画像からの物語⽂⽣成,” CAI+CAI first workshop (⾔語処理学会第27回年次⼤会ワークショップ), 福岡（オンライン）, 2021年3⽉. [PDF] [Slides] • Transformer(s) で画像からの物語⽂⽣成 2021/7/31 8 === ⼈⼿による画像ナラティブ === some elephants are in a tent. They are tied by a chain. They seems to be happy. They are seeing something above a tent. A tent is made by wood. === 提案⼿法 (pretrained decoder) === An elephant is walking. It is in a zoo. It seems to be sad. Some elephants are walking. Some trees are near by elephant. === 提案⼿法 (scratch decoder) === Some elephants are standing. They are in a road. They seems to be happy. Some elephants are in africa. Some trees are near by elephant. !"#$"%&'(")*+,-.*')$&% /&')$&% !"# !"#$ $%$&'()* $%$&'()*+ !$"# !"#$ 画像からの物語⽂⽣成

画像からストーリーなどを⽣成するタスク • 画像列 → テキスト • Visual Storytelling [Huang+, 2016]
• Storytelling from Images [Liu+, 2017] • 単⼀画像 → テキスト • Image Narrative [Shin+, 2018] • Poetry Generation [Liu+, 2018] 2021/7/31 9 “Visual Storytelling” [Huang+, 2016] “Let Your Photos Talk: Generating Narrative Paragraph for Photo Stream via Bidirectional Attention Recurrent Neural Networks” [Liu+, 2017] “Customized Image Narrative Generation via Interactive Visual Question Generation and Answering” [Shin+, 2018] ”Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training” [Liu+, 2018] [Liu+, 2017]

VIST (Visual Storytelling Dataset) • Huang+ [2016] が提案。画像列の１枚ごとに１⽂を付与 • 1st
release の際は “Sequential Images Narrative Dataset (SIND) “ という名称だった。VIST は SIND v.2 とされる • 各画像で独⽴のキャプション、画像の連続性を考慮したキャプション、ストーリーとしてのテキスト → すべて異なるもの 2021/7/31 10

本題 2021/7/31 11

紹介論⽂の問題意識（１） • Vision-to-Language ⽣成タスクのためのモデルの多くは、以下の要素から構成される • 静⽌画や動画から視覚特徴を抽出する visual encoder •
テキストを⽣成する language model • これらをつなぎ合わせるための harmonized architecture • しかし、visual encoder と language model はそれぞれの⼤規模データセットで学習されており、共通する基盤はない。情報の差を調和させる transitional adaptation step はこれまで提案されていない • 例：ImageNet, Wikipedia 2021/7/31 12

紹介論⽂の問題意識（２） • このような pre-trained models を downstream task に応じて fine-tuning
するとき、 language generation において pre-trained models を fine- tuning するときと同様に、catastrophic forgetting のような問題が発⽣するのではないか？ • 既存のキャプション⽣成モデルは、vision の⽂脈を⼗分に考慮できていないという問題が指摘されている 2021/7/31 13

紹介論⽂の提案 • 別々に pre-train された visual encoder と language model
の間の協調性を向上させるという、より単純な⽬的を設定することが、⽬標とするタスクにおいて、より早くより⾼い性能向上を可能にするのではないか • この考えのもとに、visual storytelling のための Transitional Adaptation of Pre-trained Model (TAPM) を提案 2021/7/31 14

紹介論⽂の貢献 • Adaptation loss が visual encoder と language model
をつなぎ合わせる上で効果的であることを⽰した • テキストラベルを持たない連続的な静⽌画・動画のみを⼊⼒としてテキスト⽣成器を適応させる sequential coherence loss を提案し、TAPM に重要な２つのレシピを紹介 • TAPM を２つの storytelling タスクで評価 • Video captioning: LSMDC 2019 [Rohrbach+, 2017] • Sequential image captioning: VIST [Huang+, 2016] 2021/7/31 15 “Movie description” [Rohrbach+, 2017]

関連研究 – Visual Storytelling • Visual Storytelling の定義 [Huang+, 2016]
• Unlike direct and literal descriptions, visual storytelling aims to generate a more figurative and consistent narrative for consecutive images or videos. • 従来⼿法は visual encoder と language generator を必要とする • 提案⼿法は、downstream task の学習前に language generator を visual context によりうまく適合させるもので、既存⼿法に直交的に適⽤することができる 2021/7/31 16

関連研究 – V&L の学習済みモデル • Two-stream transformer • LXMERT [Tan+,
2019], ViLBERT [Lu+, 2019] • Single-stream transformer • VisualBERT [Li+, 2020], VL-BERT [Su+, 2020] • Using entities • CMR [Zheng+, 2020] • Using object detection-based objectives • UNITER [Chen+, 2019], Unicoder-VL [Li+, 2020] • Video-language task • VideoBERT [Sun+, 2019] • CBT [Sun+, 2019] 2021/7/31 17 提案⼿法の新規性⾃⼰教師あり学習にテキストデータを⼀切必要としない

提案⼿法: TAPM （１） • 右図 (a) が従来⼿法, (b) が TAPM
• Visual encoder (§3.1) • Language generator (§3.2) • Finetuning 前に adaptation loss を⽤いた Transitional adaptation を⾏う (§3.3) • sequential coherence loss (§3.4) 2021/7/31 18

提案⼿法: TAPM （２） 2021/7/31 19 Visual Encoder (§3.1) - Two
FC layers followed by Leaky ReLU - Three layers of residual blocks - A final self-attention layer Language Generator (§3.2) デフォルトでは GPT-2-small を⽤いている Transitional adaptation (§3.3) w/ sequential loss (§3.4)

Adaptation training （１） • Visual encoder 学習時の補助的な⽬的関数 adaptation loss •
Video が⼊⼒となる場合を例とする • Visual encoder から task-specific な特徴を得て、これと特殊トークンとを language generator への⼊⼒とする • [𝑠𝑒𝑝]: separation, [𝑑𝑢𝑚𝑚𝑦]: dummy • 【ご質問をいただき追記】dummy token として start-of-sentence token を使⽤ • ⼊⼒動画は M 個のセグメントに分けられ、 2021/7/31 20

Adaptation training （２） • Generator の出⼒ • は動画⼊⼒に対するテキストの特徴表現 •
を mean-pooling して、画像特徴量を得る • この過程ではキャプションは⽤いずに dummy token を⽤いるため、video-only のデータセットで language generator を学習できる 2021/7/31 21

Sequential Coherence Loss （１） • 連続する静⽌画や動画クリップは、共通の要素を持つ • ⽣成される連続的なキャプションが、重複し過ぎることなく、かつ⼀貫性を保つよう、sequential coherence
loss を導⼊ • ３つの部分で構成：past, current, and future matching loss 2021/7/31 22

Sequential Coherence Loss （２） • この考えを実現するために、margin ranking loss を⽤いて、正しくマッチしているものと間違ったものとで学習
2021/7/31 23 Past Current Future

【ここまでのまとめ】 TAPM framework 2021/7/31 24

Split-Training • 学習のプロセスを２つのフェーズに分ける • Adaptation loss step • Caption generation
loss step • まず、visual encoder を adaptation loss で規定 epoch だけ更新 • Text encoder と language generator は固定 • 次に、全てのコンポーネントを⼀貫して更新。この際には generation loss を⽤いる 2021/7/31 25

Split-Training のメリット • 学習プロセスを２つに分けることで、generation タスクの影響を受けずに、それより単純な adaptation task を⼗分に学習することができる
• Adaptation loss step において language generator を固定することで、catastrophic forgetting を防⽌することができる 2021/7/31 26

実験 • ２つの visual storytelling tasks で TAPM を評価 •
LSMDC 2019 [Rohrbach+, 2017]: sequential video captioning • VIST [Huang+, 2016]: image captioning • ⾃動評価（§4.2）、⼈⼿による評価（§4.4）の双⽅で SOTA 2021/7/31 27

⾃動評価指標による評価 2021/7/31 28 Metrics C: CIDEr M: METEOR R: ROUGE-L

Ablation Study （１） • -A: remove adaptation loss training •
+Cap: use GT instead of dummy • +VisualA: apply adaptation loss to visual encoder instead of language generator • -Split: use naïve joint training • -A+Split: (-A) w/ split training 2021/7/31 29

Ablation Study （２） • Language model を変更した場合の性能変化 • LSTM-WT2 は
WikiText-2 で学習した 2-layer encoder-decoder を指す • TAPM は様々な language model の visual storytelling における性能を向上させられる 2021/7/31 30

⼈⼿による評価 2021/7/31 31 • LSMDC 2019 の評価 • 5 (worst)
to 1 (best) • 「⽬の⾒えない⼈にとってどれだけ助けになるか」 • VIST の評価 • ペアワイズ評価 • relevance, expressiveness, and concreteness • いずれもランダムに選んだ150例を評価に⽤いている

Quality の⽐較⻘：正しい記述⾚：間違った記述緑：⽂の間の coherence 2021/7/31 32

結論 • 学習済み⾔語モデルと visual encoder を調和させ、vision-to- language の⽣成タスクを解くための⼿法 Transitional Adaptation
of Pretrained Model (TAPM) を提案 • adaptation loss を使った adaptation phase を導⼊することで、様々な⾔語モデルとロスの種類に対してキャプション⽣成の質の向上が⾒られることを実験により確認 2021/7/31 33

論文紹介 / Transitional Adaptation of Pretrained Mo...

論文紹介 / Transitional Adaptation of Pretrained Models for Visual Storytelling

Yusuke Mori

More Decks by Yusuke Mori

Other Decks in Research

Featured

Transcript

Transitional Adaptation of Pretrained Models for Visual Storytelling shade-tree Twitter:

前⼝上 2021/7/31 2

今回ご紹介する論⽂ 2021/7/31 3 https://openaccess.thecvf.com/content/CVPR2021/papers/ Yu_Transitional_Adaptation_of_Pretrained_Models_for_Visu al_Storytelling_CVPR_2021_paper.pdf

論⽂選定の理由 • 個⼈的理由 • Visual Storytelling に興味があった • もうちょっと客観的な理由 •

お前は誰だ – 発表者の⽴場・視点（１） • shade-tree • 某⼤学院の博⼠課程学⽣ • 研究分野のキーワード： Natural

お前は誰だ – 発表者の⽴場・視点（２） • shade-tree • 某⼤学院の博⼠課程学⽣ • 研究分野のキーワード： Natural

お前は誰だ – 発表者の⽴場・視点（３） • V&L Transformer ちょっとわかる（原義） • 森友亮†,

お前は誰だ – 発表者の⽴場・視点（４） • V&L Transformer ちょっとわかる（原義） • 森友亮†,

画像からストーリーなどを⽣成するタスク • 画像列 → テキスト • Visual Storytelling [Huang+, 2016]

VIST (Visual Storytelling Dataset) • Huang+ [2016] が提案。画像列の１枚ごとに１⽂を付与 • 1st

本題 2021/7/31 11

紹介論⽂の問題意識（１） • Vision-to-Language ⽣成タスクのためのモデルの多くは、以下の要素から構成される • 静⽌画や動画から視覚特徴を抽出する visual encoder •

紹介論⽂の問題意識（２） • このような pre-trained models を downstream task に応じて fine-tuning

紹介論⽂の提案 • 別々に pre-train された visual encoder と language model

紹介論⽂の貢献 • Adaptation loss が visual encoder と language model

関連研究 – Visual Storytelling • Visual Storytelling の定義 [Huang+, 2016]

関連研究 – V&L の学習済みモデル • Two-stream transformer • LXMERT [Tan+,

提案⼿法: TAPM （１） • 右図 (a) が従来⼿法, (b) が TAPM

提案⼿法: TAPM （２） 2021/7/31 19 Visual Encoder (§3.1) - Two

Adaptation training （１） • Visual encoder 学習時の補助的な⽬的関数 adaptation loss •

Adaptation training （２） • Generator の出⼒ • は動画⼊⼒に対するテキストの特徴表現 •

Sequential Coherence Loss （１） • 連続する静⽌画や動画クリップは、共通の要素を持つ • ⽣成される連続的なキャプションが、重複し過ぎることなく、かつ⼀貫性を保つよう、sequential coherence

Sequential Coherence Loss （２） • この考えを実現するために、margin ranking loss を⽤いて、正しくマッチしているものと間違ったものとで学習

【ここまでのまとめ】 TAPM framework 2021/7/31 24

Split-Training • 学習のプロセスを２つのフェーズに分ける • Adaptation loss step • Caption generation

Split-Training のメリット • 学習プロセスを２つに分けることで、generation タスクの影響を受けずに、それより単純な adaptation task を⼗分に学習することができる

実験 • ２つの visual storytelling tasks で TAPM を評価 •

⾃動評価指標による評価 2021/7/31 28 Metrics C: CIDEr M: METEOR R: ROUGE-L

Ablation Study （１） • -A: remove adaptation loss training •

Ablation Study （２） • Language model を変更した場合の性能変化 • LSTM-WT2 は

⼈⼿による評価 2021/7/31 31 • LSMDC 2019 の評価 • 5 (worst)

Quality の⽐較⻘：正しい記述⾚：間違った記述緑：⽂の間の coherence 2021/7/31 32

結論 • 学習済み⾔語モデルと visual encoder を調和させ、vision-to- language の⽣成タスクを解くための⼿法 Transitional Adaptation