Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 / Transitional Adaptation of Pretrained Mo...

論文紹介 / Transitional Adaptation of Pretrained Models for Visual Storytelling

第七回 全日本コンピュータビジョン勉強会 CVPR2021読み会 にて、
"Transitional Adaptation of Pretrained Models for Visual Storytelling" [Yu et al., CVPR 2021]
のご紹介をさせていただきました。

◆イベント詳細 URL:
https://kantocv.connpass.com/event/216703/
◆発表日:
2021/07/31
◆紹介した論文の PDF への Link
https://openaccess.thecvf.com/content/CVPR2021/papers/Yu_Transitional_Adaptation_of_Pretrained_Models_for_Visual_Storytelling_CVPR_2021_paper.pdf

Yusuke Mori

July 31, 2021
Tweet

More Decks by Yusuke Mori

Other Decks in Research

Transcript

  1. Transitional Adaptation of Pretrained Models for Visual Storytelling shade-tree Twitter:

    @shade_tree2112 Website: https://forest1988.github.io [PDF of the paper] [Code of the paper] 第七回 全⽇本コンピュータビジョン勉強会 CVPR2021読み会(後編) My Website 2021/7/31 1
  2. 論⽂選定の理由 • 個⼈的理由 • Visual Storytelling に興味があった • もうちょっと客観的な理由 •

    Vision Encoder と Language Model を”調和させる” transitional adaptation がチャレンジングな V&L タスクで有⽤であると主張し、 これに基づいた TAPM を提案、連続的な静⽌画や動画のキャプション ⽣成で性能向上を確認 • Vision & Language の様々なタスクに応⽤しうるものとして、 このアプローチを知ることは有⽤ではないか? 2021/7/31 4
  3. お前は誰だ – 発表者の⽴場・視点(1) • shade-tree • 某⼤学院の博⼠課程学⽣ • 研究分野のキーワード: Natural

    Language Processing, Natural Language Generation, Machine Learning, Storytelling, Emotions • V&L と Computer Vision、どこに⾏った?🤔 • CV 専⾨家が多数いる環境で NLP やりながら、「CV はよく分からない のですが」と素⼈質問(原義)する⼈ • 特に Story Generation や Story Understanding について、 研究だったりしなかったりする活動 2021/7/31 5
  4. お前は誰だ – 発表者の⽴場・視点(2) • shade-tree • 某⼤学院の博⼠課程学⽣ • 研究分野のキーワード: Natural

    Language Processing, Natural Language Generation, Machine Learning, Storytelling, Emotions • V&L と Computer Vision、どこに⾏った?🤔 • CV 専⾨家が多数いる環境で NLP やりながら、「CV はよく分からない のですが」と素⼈質問(原義)する⼈ • 特に Story Generation や Story Understanding について、 研究だったりしなかったりする活動 2021/7/31 6 ちょっとは V&L や CV が分かっている雰囲気を出したい! Story と絡めれば、⾃分にもとっつきやすいのでは??
  5. お前は誰だ – 発表者の⽴場・視点(3) • V&L Transformer ちょっとわかる(原義) • 森 友亮†,

    上原康平†, 原⽥達也, (†equal contribution) “視覚・⾔語融合 Transformer モデルによる画像か らの物語⽂⽣成,” CAI+CAI first workshop (⾔語処理 学会第27回年次⼤会 ワークショップ), 福岡(オン ライン), 2021年3⽉. [PDF] [Slides] • Transformer(s) で画像からの物語⽂⽣成 2021/7/31 7 === ⼈⼿による画像ナラティブ === some elephants are in a tent. They are tied by a chain. They seems to be happy. They are seeing something above a tent. A tent is made by wood. === 提案⼿法 (pretrained decoder) === An elephant is walking. It is in a zoo. It seems to be sad. Some elephants are walking. Some trees are near by elephant. === 提案⼿法 (scratch decoder) === Some elephants are standing. They are in a road. They seems to be happy. Some elephants are in africa. Some trees are near by elephant. !"#$"%&'(")*+,-.*')$&% /&')$&% !"# !"#$ $%$&'()* $%$&'()*+ !$"# !"#$
  6. お前は誰だ – 発表者の⽴場・視点(4) • V&L Transformer ちょっとわかる(原義) • 森 友亮†,

    上原康平†, 原⽥達也, (†equal contribution) “視覚・⾔語融合 Transformer モデルによる画像か らの物語⽂⽣成,” CAI+CAI first workshop (⾔語処理 学会第27回年次⼤会 ワークショップ), 福岡(オン ライン), 2021年3⽉. [PDF] [Slides] • Transformer(s) で画像からの物語⽂⽣成 2021/7/31 8 === ⼈⼿による画像ナラティブ === some elephants are in a tent. They are tied by a chain. They seems to be happy. They are seeing something above a tent. A tent is made by wood. === 提案⼿法 (pretrained decoder) === An elephant is walking. It is in a zoo. It seems to be sad. Some elephants are walking. Some trees are near by elephant. === 提案⼿法 (scratch decoder) === Some elephants are standing. They are in a road. They seems to be happy. Some elephants are in africa. Some trees are near by elephant. !"#$"%&'(")*+,-.*')$&% /&')$&% !"# !"#$ $%$&'()* $%$&'()*+ !$"# !"#$ 画像からの物語⽂⽣成
  7. 画像からストーリーなどを⽣成するタスク • 画像列 → テキスト • Visual Storytelling [Huang+, 2016]

    • Storytelling from Images [Liu+, 2017] • 単⼀画像 → テキスト • Image Narrative [Shin+, 2018] • Poetry Generation [Liu+, 2018] 2021/7/31 9 “Visual Storytelling” [Huang+, 2016] “Let Your Photos Talk: Generating Narrative Paragraph for Photo Stream via Bidirectional Attention Recurrent Neural Networks” [Liu+, 2017] “Customized Image Narrative Generation via Interactive Visual Question Generation and Answering” [Shin+, 2018] ”Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training” [Liu+, 2018] [Liu+, 2017]
  8. VIST (Visual Storytelling Dataset) • Huang+ [2016] が提案。画像列の1枚ごとに1⽂を付与 • 1st

    release の際は “Sequential Images Narrative Dataset (SIND) “ という 名称だった。VIST は SIND v.2 とされる • 各画像で独⽴のキャプション、画像の連続性を考慮したキャプション、 ストーリーとしてのテキスト → すべて異なるもの 2021/7/31 10
  9. 紹介論⽂の問題意識(1) • Vision-to-Language ⽣成タスクのためのモデルの多くは、以下 の要素から構成される • 静⽌画や動画から視覚特徴を抽出する visual encoder •

    テキストを⽣成する language model • これらをつなぎ合わせるための harmonized architecture • しかし、visual encoder と language model はそれぞれの⼤規模 データセットで学習されており、共通する基盤はない。情報の 差を調和させる transitional adaptation step はこれまで提案 されていない • 例:ImageNet, Wikipedia 2021/7/31 12
  10. 紹介論⽂の問題意識(2) • このような pre-trained models を downstream task に応じて fine-tuning

    するとき、 language generation において pre-trained models を fine- tuning するときと同様に、catastrophic forgetting のような問 題が発⽣するのではないか? • 既存のキャプション⽣成モデルは、vision の⽂脈を⼗分に考慮 できていないという問題が指摘されている 2021/7/31 13
  11. 紹介論⽂の提案 • 別々に pre-train された visual encoder と language model

    の間 の協調性を向上させるという、より単純な⽬的を設定すること が、⽬標とするタスクにおいて、より早くより⾼い性能向上を 可能にするのではないか • この考えのもとに、visual storytelling のための Transitional Adaptation of Pre-trained Model (TAPM) を提案 2021/7/31 14
  12. 紹介論⽂の貢献 • Adaptation loss が visual encoder と language model

    をつなぎ 合わせる上で効果的であることを⽰した • テキストラベルを持たない連続的な静⽌画・動画のみを⼊⼒と してテキスト⽣成器を適応させる sequential coherence loss を提案し、TAPM に重要な2つのレシピを紹介 • TAPM を2つの storytelling タスクで評価 • Video captioning: LSMDC 2019 [Rohrbach+, 2017] • Sequential image captioning: VIST [Huang+, 2016] 2021/7/31 15 “Movie description” [Rohrbach+, 2017]
  13. 関連研究 – Visual Storytelling • Visual Storytelling の定義 [Huang+, 2016]

    • Unlike direct and literal descriptions, visual storytelling aims to generate a more figurative and consistent narrative for consecutive images or videos. • 従来⼿法は visual encoder と language generator を必要とする • 提案⼿法は、downstream task の学習前に language generator を visual context によりうまく適合させるもので、既存⼿法に 直交的に適⽤することができる 2021/7/31 16
  14. 関連研究 – V&L の学習済みモデル • Two-stream transformer • LXMERT [Tan+,

    2019], ViLBERT [Lu+, 2019] • Single-stream transformer • VisualBERT [Li+, 2020], VL-BERT [Su+, 2020] • Using entities • CMR [Zheng+, 2020] • Using object detection-based objectives • UNITER [Chen+, 2019], Unicoder-VL [Li+, 2020] • Video-language task • VideoBERT [Sun+, 2019] • CBT [Sun+, 2019] 2021/7/31 17 提案⼿法の新規性 ⾃⼰教師あり学習にテキストデー タを⼀切必要としない
  15. 提案⼿法: TAPM (1) • 右図 (a) が従来⼿法, (b) が TAPM

    • Visual encoder (§3.1) • Language generator (§3.2) • Finetuning 前に adaptation loss を⽤いた Transitional adaptation を⾏う (§3.3) • sequential coherence loss (§3.4) 2021/7/31 18
  16. 提案⼿法: TAPM (2) 2021/7/31 19 Visual Encoder (§3.1) - Two

    FC layers followed by Leaky ReLU - Three layers of residual blocks - A final self-attention layer Language Generator (§3.2) デフォルトでは GPT-2-small を⽤いている Transitional adaptation (§3.3) w/ sequential loss (§3.4)
  17. Adaptation training (1) • Visual encoder 学習時の補助的な⽬的関数 adaptation loss •

    Video が⼊⼒となる場合を例とする • Visual encoder から task-specific な特徴を得て、これと特殊 トークンとを language generator への⼊⼒とする • [𝑠𝑒𝑝]: separation, [𝑑𝑢𝑚𝑚𝑦]: dummy • 【ご質問をいただき追記】dummy token として start-of-sentence token を使⽤ • ⼊⼒動画は M 個のセグメントに分けられ、 2021/7/31 20
  18. Adaptation training (2) • Generator の出⼒ • は動画⼊⼒ に対するテキストの特徴表現 •

    を mean-pooling して、画像特徴量 を得る • この過程ではキャプションは⽤いずに dummy token を⽤いる ため、video-only のデータセットで language generator を学習 できる 2021/7/31 21
  19. Split-Training • 学習のプロセスを2つのフェーズに分ける • Adaptation loss step • Caption generation

    loss step • まず、visual encoder を adaptation loss で規定 epoch だけ更新 • Text encoder と language generator は固定 • 次に、全てのコンポーネントを⼀貫して更新。この際には generation loss を⽤いる 2021/7/31 25
  20. Split-Training のメリット • 学習プロセスを2つに分けることで、generation タスクの影響 を受けずに、それより単純な adaptation task を⼗分に学習する ことができる

    • Adaptation loss step において language generator を固定する ことで、catastrophic forgetting を防⽌することができる 2021/7/31 26
  21. 実験 • 2つの visual storytelling tasks で TAPM を評価 •

    LSMDC 2019 [Rohrbach+, 2017]: sequential video captioning • VIST [Huang+, 2016]: image captioning • ⾃動評価(§4.2)、⼈⼿による評価(§4.4)の双⽅で SOTA 2021/7/31 27
  22. Ablation Study (1) • -A: remove adaptation loss training •

    +Cap: use GT instead of dummy • +VisualA: apply adaptation loss to visual encoder instead of language generator • -Split: use naïve joint training • -A+Split: (-A) w/ split training 2021/7/31 29
  23. Ablation Study (2) • Language model を変更した場合の性能変化 • LSTM-WT2 は

    WikiText-2 で学習した 2-layer encoder-decoder を指す • TAPM は様々な language model の visual storytelling における 性能を向上させられる 2021/7/31 30
  24. ⼈⼿による評価 2021/7/31 31 • LSMDC 2019 の評価 • 5 (worst)

    to 1 (best) • 「⽬の⾒えない⼈にとってどれだけ助けになるか」 • VIST の評価 • ペアワイズ評価 • relevance, expressiveness, and concreteness • いずれもランダムに選んだ150例を評価に⽤いている
  25. 結論 • 学習済み⾔語モデルと visual encoder を調和させ、vision-to- language の⽣成タスクを解くための⼿法 Transitional Adaptation

    of Pretrained Model (TAPM) を提案 • adaptation loss を使った adaptation phase を導⼊することで、 様々な⾔語モデルとロスの種類に対してキャプション⽣成の質 の向上が⾒られることを実験により確認 2021/7/31 33