Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 / Transitional Adaptation of Pretrained Mo...

論文紹介 / Transitional Adaptation of Pretrained Models for Visual Storytelling

第七回 全日本コンピュータビジョン勉強会 CVPR2021読み会 にて、
"Transitional Adaptation of Pretrained Models for Visual Storytelling" [Yu et al., CVPR 2021]
のご紹介をさせていただきました。

◆イベント詳細 URL:
https://kantocv.connpass.com/event/216703/
◆発表日:
2021/07/31
◆紹介した論文の PDF への Link
https://openaccess.thecvf.com/content/CVPR2021/papers/Yu_Transitional_Adaptation_of_Pretrained_Models_for_Visual_Storytelling_CVPR_2021_paper.pdf

Avatar for Yusuke Mori

Yusuke Mori

July 31, 2021
Tweet

More Decks by Yusuke Mori

Other Decks in Research

Transcript

  1. Transitional Adaptation of Pretrained Models for Visual Storytelling shade-tree Twitter:

    @shade_tree2112 Website: https://forest1988.github.io [PDF of the paper] [Code of the paper] 第七回 全⽇本コンピュータビジョン勉強会 CVPR2021読み会(後編) My Website 2021/7/31 1
  2. 論⽂選定の理由 • 個⼈的理由 • Visual Storytelling に興味があった • もうちょっと客観的な理由 •

    Vision Encoder と Language Model を”調和させる” transitional adaptation がチャレンジングな V&L タスクで有⽤であると主張し、 これに基づいた TAPM を提案、連続的な静⽌画や動画のキャプション ⽣成で性能向上を確認 • Vision & Language の様々なタスクに応⽤しうるものとして、 このアプローチを知ることは有⽤ではないか? 2021/7/31 4
  3. お前は誰だ – 発表者の⽴場・視点(1) • shade-tree • 某⼤学院の博⼠課程学⽣ • 研究分野のキーワード: Natural

    Language Processing, Natural Language Generation, Machine Learning, Storytelling, Emotions • V&L と Computer Vision、どこに⾏った?🤔 • CV 専⾨家が多数いる環境で NLP やりながら、「CV はよく分からない のですが」と素⼈質問(原義)する⼈ • 特に Story Generation や Story Understanding について、 研究だったりしなかったりする活動 2021/7/31 5
  4. お前は誰だ – 発表者の⽴場・視点(2) • shade-tree • 某⼤学院の博⼠課程学⽣ • 研究分野のキーワード: Natural

    Language Processing, Natural Language Generation, Machine Learning, Storytelling, Emotions • V&L と Computer Vision、どこに⾏った?🤔 • CV 専⾨家が多数いる環境で NLP やりながら、「CV はよく分からない のですが」と素⼈質問(原義)する⼈ • 特に Story Generation や Story Understanding について、 研究だったりしなかったりする活動 2021/7/31 6 ちょっとは V&L や CV が分かっている雰囲気を出したい! Story と絡めれば、⾃分にもとっつきやすいのでは??
  5. お前は誰だ – 発表者の⽴場・視点(3) • V&L Transformer ちょっとわかる(原義) • 森 友亮†,

    上原康平†, 原⽥達也, (†equal contribution) “視覚・⾔語融合 Transformer モデルによる画像か らの物語⽂⽣成,” CAI+CAI first workshop (⾔語処理 学会第27回年次⼤会 ワークショップ), 福岡(オン ライン), 2021年3⽉. [PDF] [Slides] • Transformer(s) で画像からの物語⽂⽣成 2021/7/31 7 === ⼈⼿による画像ナラティブ === some elephants are in a tent. They are tied by a chain. They seems to be happy. They are seeing something above a tent. A tent is made by wood. === 提案⼿法 (pretrained decoder) === An elephant is walking. It is in a zoo. It seems to be sad. Some elephants are walking. Some trees are near by elephant. === 提案⼿法 (scratch decoder) === Some elephants are standing. They are in a road. They seems to be happy. Some elephants are in africa. Some trees are near by elephant. !"#$"%&'(")*+,-.*')$&% /&')$&% !"# !"#$ $%$&'()* $%$&'()*+ !$"# !"#$
  6. お前は誰だ – 発表者の⽴場・視点(4) • V&L Transformer ちょっとわかる(原義) • 森 友亮†,

    上原康平†, 原⽥達也, (†equal contribution) “視覚・⾔語融合 Transformer モデルによる画像か らの物語⽂⽣成,” CAI+CAI first workshop (⾔語処理 学会第27回年次⼤会 ワークショップ), 福岡(オン ライン), 2021年3⽉. [PDF] [Slides] • Transformer(s) で画像からの物語⽂⽣成 2021/7/31 8 === ⼈⼿による画像ナラティブ === some elephants are in a tent. They are tied by a chain. They seems to be happy. They are seeing something above a tent. A tent is made by wood. === 提案⼿法 (pretrained decoder) === An elephant is walking. It is in a zoo. It seems to be sad. Some elephants are walking. Some trees are near by elephant. === 提案⼿法 (scratch decoder) === Some elephants are standing. They are in a road. They seems to be happy. Some elephants are in africa. Some trees are near by elephant. !"#$"%&'(")*+,-.*')$&% /&')$&% !"# !"#$ $%$&'()* $%$&'()*+ !$"# !"#$ 画像からの物語⽂⽣成
  7. 画像からストーリーなどを⽣成するタスク • 画像列 → テキスト • Visual Storytelling [Huang+, 2016]

    • Storytelling from Images [Liu+, 2017] • 単⼀画像 → テキスト • Image Narrative [Shin+, 2018] • Poetry Generation [Liu+, 2018] 2021/7/31 9 “Visual Storytelling” [Huang+, 2016] “Let Your Photos Talk: Generating Narrative Paragraph for Photo Stream via Bidirectional Attention Recurrent Neural Networks” [Liu+, 2017] “Customized Image Narrative Generation via Interactive Visual Question Generation and Answering” [Shin+, 2018] ”Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training” [Liu+, 2018] [Liu+, 2017]
  8. VIST (Visual Storytelling Dataset) • Huang+ [2016] が提案。画像列の1枚ごとに1⽂を付与 • 1st

    release の際は “Sequential Images Narrative Dataset (SIND) “ という 名称だった。VIST は SIND v.2 とされる • 各画像で独⽴のキャプション、画像の連続性を考慮したキャプション、 ストーリーとしてのテキスト → すべて異なるもの 2021/7/31 10
  9. 紹介論⽂の問題意識(1) • Vision-to-Language ⽣成タスクのためのモデルの多くは、以下 の要素から構成される • 静⽌画や動画から視覚特徴を抽出する visual encoder •

    テキストを⽣成する language model • これらをつなぎ合わせるための harmonized architecture • しかし、visual encoder と language model はそれぞれの⼤規模 データセットで学習されており、共通する基盤はない。情報の 差を調和させる transitional adaptation step はこれまで提案 されていない • 例:ImageNet, Wikipedia 2021/7/31 12
  10. 紹介論⽂の問題意識(2) • このような pre-trained models を downstream task に応じて fine-tuning

    するとき、 language generation において pre-trained models を fine- tuning するときと同様に、catastrophic forgetting のような問 題が発⽣するのではないか? • 既存のキャプション⽣成モデルは、vision の⽂脈を⼗分に考慮 できていないという問題が指摘されている 2021/7/31 13
  11. 紹介論⽂の提案 • 別々に pre-train された visual encoder と language model

    の間 の協調性を向上させるという、より単純な⽬的を設定すること が、⽬標とするタスクにおいて、より早くより⾼い性能向上を 可能にするのではないか • この考えのもとに、visual storytelling のための Transitional Adaptation of Pre-trained Model (TAPM) を提案 2021/7/31 14
  12. 紹介論⽂の貢献 • Adaptation loss が visual encoder と language model

    をつなぎ 合わせる上で効果的であることを⽰した • テキストラベルを持たない連続的な静⽌画・動画のみを⼊⼒と してテキスト⽣成器を適応させる sequential coherence loss を提案し、TAPM に重要な2つのレシピを紹介 • TAPM を2つの storytelling タスクで評価 • Video captioning: LSMDC 2019 [Rohrbach+, 2017] • Sequential image captioning: VIST [Huang+, 2016] 2021/7/31 15 “Movie description” [Rohrbach+, 2017]
  13. 関連研究 – Visual Storytelling • Visual Storytelling の定義 [Huang+, 2016]

    • Unlike direct and literal descriptions, visual storytelling aims to generate a more figurative and consistent narrative for consecutive images or videos. • 従来⼿法は visual encoder と language generator を必要とする • 提案⼿法は、downstream task の学習前に language generator を visual context によりうまく適合させるもので、既存⼿法に 直交的に適⽤することができる 2021/7/31 16
  14. 関連研究 – V&L の学習済みモデル • Two-stream transformer • LXMERT [Tan+,

    2019], ViLBERT [Lu+, 2019] • Single-stream transformer • VisualBERT [Li+, 2020], VL-BERT [Su+, 2020] • Using entities • CMR [Zheng+, 2020] • Using object detection-based objectives • UNITER [Chen+, 2019], Unicoder-VL [Li+, 2020] • Video-language task • VideoBERT [Sun+, 2019] • CBT [Sun+, 2019] 2021/7/31 17 提案⼿法の新規性 ⾃⼰教師あり学習にテキストデー タを⼀切必要としない
  15. 提案⼿法: TAPM (1) • 右図 (a) が従来⼿法, (b) が TAPM

    • Visual encoder (§3.1) • Language generator (§3.2) • Finetuning 前に adaptation loss を⽤いた Transitional adaptation を⾏う (§3.3) • sequential coherence loss (§3.4) 2021/7/31 18
  16. 提案⼿法: TAPM (2) 2021/7/31 19 Visual Encoder (§3.1) - Two

    FC layers followed by Leaky ReLU - Three layers of residual blocks - A final self-attention layer Language Generator (§3.2) デフォルトでは GPT-2-small を⽤いている Transitional adaptation (§3.3) w/ sequential loss (§3.4)
  17. Adaptation training (1) • Visual encoder 学習時の補助的な⽬的関数 adaptation loss •

    Video が⼊⼒となる場合を例とする • Visual encoder から task-specific な特徴を得て、これと特殊 トークンとを language generator への⼊⼒とする • [𝑠𝑒𝑝]: separation, [𝑑𝑢𝑚𝑚𝑦]: dummy • 【ご質問をいただき追記】dummy token として start-of-sentence token を使⽤ • ⼊⼒動画は M 個のセグメントに分けられ、 2021/7/31 20
  18. Adaptation training (2) • Generator の出⼒ • は動画⼊⼒ に対するテキストの特徴表現 •

    を mean-pooling して、画像特徴量 を得る • この過程ではキャプションは⽤いずに dummy token を⽤いる ため、video-only のデータセットで language generator を学習 できる 2021/7/31 21
  19. Split-Training • 学習のプロセスを2つのフェーズに分ける • Adaptation loss step • Caption generation

    loss step • まず、visual encoder を adaptation loss で規定 epoch だけ更新 • Text encoder と language generator は固定 • 次に、全てのコンポーネントを⼀貫して更新。この際には generation loss を⽤いる 2021/7/31 25
  20. Split-Training のメリット • 学習プロセスを2つに分けることで、generation タスクの影響 を受けずに、それより単純な adaptation task を⼗分に学習する ことができる

    • Adaptation loss step において language generator を固定する ことで、catastrophic forgetting を防⽌することができる 2021/7/31 26
  21. 実験 • 2つの visual storytelling tasks で TAPM を評価 •

    LSMDC 2019 [Rohrbach+, 2017]: sequential video captioning • VIST [Huang+, 2016]: image captioning • ⾃動評価(§4.2)、⼈⼿による評価(§4.4)の双⽅で SOTA 2021/7/31 27
  22. Ablation Study (1) • -A: remove adaptation loss training •

    +Cap: use GT instead of dummy • +VisualA: apply adaptation loss to visual encoder instead of language generator • -Split: use naïve joint training • -A+Split: (-A) w/ split training 2021/7/31 29
  23. Ablation Study (2) • Language model を変更した場合の性能変化 • LSTM-WT2 は

    WikiText-2 で学習した 2-layer encoder-decoder を指す • TAPM は様々な language model の visual storytelling における 性能を向上させられる 2021/7/31 30
  24. ⼈⼿による評価 2021/7/31 31 • LSMDC 2019 の評価 • 5 (worst)

    to 1 (best) • 「⽬の⾒えない⼈にとってどれだけ助けになるか」 • VIST の評価 • ペアワイズ評価 • relevance, expressiveness, and concreteness • いずれもランダムに選んだ150例を評価に⽤いている
  25. 結論 • 学習済み⾔語モデルと visual encoder を調和させ、vision-to- language の⽣成タスクを解くための⼿法 Transitional Adaptation

    of Pretrained Model (TAPM) を提案 • adaptation loss を使った adaptation phase を導⼊することで、 様々な⾔語モデルとロスの種類に対してキャプション⽣成の質 の向上が⾒られることを実験により確認 2021/7/31 33