Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] GRIT: Faster and Better Image Ca...

[Journal club] GRIT: Faster and Better Image Captioning Transformer Using Dual Visual Features

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. GRIT: Faster and Be0er Image Cap5oning Transformer Using Dual Visual

    Features B4 Van-Quang Nguyen1 , Masanori Suganuma2,1 , and Takayuki Okatani1,2 1Graduate School of Information Sciences, Tohoku University 2RIKEN Center for AIP ECCV2022 Nguyen, V. Q., Suganuma, M., & Okatani, T. (2022, October). Grit: Faster and beCer image capEoning transformer using dual visual features. In ECCV (pp. 167-184).
  2. 概要 • 背景 • 強化学習を用いた Image Captioning 手法 • 既存手法で利用されているRegion

    Featuresのみの手法では文脈情報が欠如 • 提案手法 • 物体検出にDETRを用い、end-to-endの学習を実現 • Image Captioning タスクにおいてGrid Features と Region Featuresを適切に融合する Parallel Cross-Attentionモデルの提案 • 結果 • COCO datasetにおけるOnline/Offlineテストにて各種自動評価尺度でSOTA • Zero Shotなデータにおいても既存手法を上回る結果 • 計算効率も既存手法と比較して大幅改善 1
  3. • Object Detectorで取得したRegion Featuresのみを使用 • Region Features 取得にCNNベースの物体検出器を使用 ☹ 文脈情報が欠如

    ☹ 検出の不正確さのリスク ☹ 計算量が膨大 ☹ end to end の学習が不可 背景: 既存 Region Features Based Image Captioning モデルの弱点 Region Features 2
  4. 利用特徴量 / NIC [Vinyals+ CVPR15] SCST [Steven+ CVPR17] Grid Features

    細かな粒度のGrid Features & Attention 機構を利用 ☹ 物体レベルの情報が欠落 Up-Down [Anderson+ CVPR18] M2Transformer [Cornia+ CVPR20] Region Features Object Detectionを用いてRegion Featuresを抽出 ☹ 計算コストが高い・文脈情報の欠落 RSTNeT [Zhang+ CVPR21] Grid Features 物体検出器で抽出したGrid特徴量をキャプション生成に適用 関連研究:Grid/Region両特徴量を用いたキャプション生成は不十分 M2Transformer RSTNeT 3 Grid Features
  5. GRIT: 特徴量抽出機構 (1/2) 2stepのRegion Featuresの生成 1. Region Features Deformable DETRに倣い物体検出と物体属性予測を組み合わせた事前学習の実施

    ☺モデルの性能を維持したままend-to-endな学習が可能で計算時間の大幅な短縮 5 それぞれ物体iの予測されたクラスの確率 物体iのバウンディングボックス回帰の正規化された損失 それぞれ物体iの予測された属性の確率
  6. • Swin Transformerの最後の特徴マップを入力 • 𝐿! 層の Self-A(en*on Transformerを用いてGrid Features を出力

    ☺ 画像全体から抽出されるためRegion Featuresでは捉えきれない文脈情報を保有 ☺ Self-Attention でGrid Features間の空間的な相互作用を明示的にモデル化 GRIT: 特徴量抽出機構 (2/2) Grid Feature Network 6
  7. GRIT: キャプション生成機構 1. 文中単語に対するマスク付き Self-Attention 先の単語からの情報を遮断するマスクを使用 2. 単語・視覚特徴量間のParallel Cross Attention

    • 独立したMulti-Head Attentionを並列に適用 • 特徴量にゲート機構を適用し、最終的に加算 3. Feed-Forward Network (FFN) 7
  8. GRIT: 2Stepの損失関数の利用によるFine Tuning 1. Cross-Entropy lossを用いてモデルを事前学習 2. Self-Critical Sequence Training

    Strategy [Steven+ CVPR17] CIDEr-D最適化により Fine Tuning 現時点のパラメータでテスト画像に生成した最良のキャプション" wの評価r(" w)を使用 " w を閾値として正負が逆転 " wより良いキャプションが増え " wより劣るキャプションが減る wi : ビーム内のi番目の文 r(・) : 報酬関数 b: 報酬基準 k : バッチ内のサンプル番号 8
  9. 実験設定 • データセット 事前学習 第1ステップ(物体検出) COCO, Visual Genome, Open Images,

    and Object365 第2ステップ(物体検出&属性予測) Visual Genome Image Captioning COCO dataset nocaps Dataset, ArtEmis dataset 入力画像の画質を384×640で利用 (他手法は800×1333) • 計算時間とリソース A100 GPU ×8 で16時間 9 ArtEmis Open Images
  10. 追試及びエラー分析 12 GT1: a woman standing in a room with

    a remote GT2: a couple of people that are staring at a tv GT3: two women playing a video game in a living room GRIT: two women playing a video game in a living room GT1:a sewage lid on the ground with a para sail chute in the background GT2:there is a balloon that is flying over the ground parachute over a large valley with a man made structure GRIT: a pair of scissors sitting on the ground with GT1:a collection of artwork leaning against a wooden fence a collection of poster arts lined up on the fence GT2*a collection of paintings against a fence outside several paintings leaning against Polos: 92.4 ☺ GRIT: a stop sign on a sidewalk next to a stop sign Polos: 9.64 Polos: 9.75 ☹ ☹ 改善案: Polosを報酬として利用する強化学習の実施・MLLMの説明能力の利用 Polos [Wada+ CVPR24] にて評価: 67.02
  11. Ablation Study: 選択手法の有効性を確認 ☺ より多くのデータセットをSwin Transformerの事前学習で用いることで、結果が向上 ☺ Region Features(Object Queryが増加する)につれて性能が向上、150を超えると飽和

    ☺ end-to-endの学習を行うことで、CIDErスコアが大幅に改善 ☺ Sigmoidをゲート活性化関数として用いた特徴量の並列処理が最高の結果 13
  12. 所感 • Strengths • 二つの特徴量を適切に処理し、処理方法の並列処理もAblation Studyで適切に検証 • DETRを用いたend-to-endな学習による計算効率向上は強化学習において有用 • 豊富な実験結果

    • Weakness • 最高性能の組み合わせはわかるがAblation Studyにおけるそれぞれの寄与度がわ かりにくい • 強化学習だけあって計算効率が良いといえど高性能GPU&長時間を要する • CIDEr特化になりすぎることが本質的な価値と言えるのか 14
  13. まとめ • 背景 • 既存手法で利用されているRegion Featuresのみの手法では文脈情報が欠如 • 手法 • 物体検出にDETRを用い、end-to-endの学習を実現可能にし計算効率を改善

    • Image Captioning タスクにおいてGrid Features と Region Featuresを適切に融合する Parallel Cross-Attentionモデルの提案 • 結果 • COCO datasetにおけるOnline/Offlineテストにて各種自動評価尺度でSOTA • Zero Shotなデータにおいても既存手法を上回る結果 • 計算効率も既存手法と比較して大幅改善 15
  14. APPENDIX 定量的結果: 既存手法と比較して大幅な計算効率の上昇 • 既存手法のVinVL [Zgang+ CVPR21] やM2Transformer [Cornia+ CVPR20]

    と比較し計算効率が上昇 • V100 GPU ×1 において minibatchを64まで上げることが可能 • minibatchサイズを32以上にすると一枚毎の推論速度が31ms程度にまで高速化
  15. • TransformerのV&Lタスクへの応用 ViT [Dosovitskiy+ ICLR21]やDETR [Cornia+ ECCV20] によるTransformerの画像適用 • Image

    CaptioningへのTransformer応用 • 領域特徴量など各種特徴量の獲得への活用 SGAE [Yang+ iCCV19], ETA [Li+ ICCV19] • Caption Decoderとしての応用 ORT [Herdade+ NeurIPS19]. NG-SAN [Guo+ CVPR20]. DLCT[Luo+ AAAI21] 他 → Grit FeaturesやRegion Featuresを統一的に扱う手法はあまりない APPENDIX: Vision/Language タスクにおけるTransformerの適用
  16. APPENDIX 定量的結果: COCOで全ての自動評価尺度でSOTA • BLEU1, BLEU4, ROUGE, METEOR, CIDEr-D, SPICEの全ての指標においてSOTA

    • Visual Genome単体よりも4つのデータセットを利用したもの(†)の方が良い結果
  17. APPENDIX: GRIT 特徴量抽出機構 Swin Transformer • BackBoneとしてデファクトスタンダードなSwin Transformerの利用 • 通常のSelf-Attentionでは対応が難しい大きい入力データに対しても、スケーラ

    ブルにSelf-Attentionを適用 • 不要な小さな部分をmaskすると計算量が増加するため、 cyclicにshift させ Window数を増やさずに効率的に処理する