[Journal club] GRIT: Faster and Better Image Captioning Transformer Using Dual Visual Features

GRIT: Faster and Be0er Image Cap5oning Transformer Using Dual Visual
Features B4 Van-Quang Nguyen1 , Masanori Suganuma2,1 , and Takayuki Okatani1,2 1Graduate School of Information Sciences, Tohoku University 2RIKEN Center for AIP ECCV2022 Nguyen, V. Q., Suganuma, M., & Okatani, T. (2022, October). Grit: Faster and beCer image capEoning transformer using dual visual features. In ECCV (pp. 167-184).

概要 • 背景 • 強化学習を用いた Image Captioning 手法 • 既存手法で利用されているRegion
Featuresのみの手法では文脈情報が欠如 • 提案手法 • 物体検出にDETRを用い、end-to-endの学習を実現 • Image Captioning タスクにおいてGrid Features と Region Featuresを適切に融合する Parallel Cross-Attentionモデルの提案 • 結果 • COCO datasetにおけるOnline/Offlineテストにて各種自動評価尺度でSOTA • Zero Shotなデータにおいても既存手法を上回る結果 • 計算効率も既存手法と比較して大幅改善 1

• Object Detectorで取得したRegion Featuresのみを使用 • Region Features 取得にCNNベースの物体検出器を使用 ☹ 文脈情報が欠如
☹ 検出の不正確さのリスク ☹ 計算量が膨大 ☹ end to end の学習が不可背景: 既存 Region Features Based Image Captioning モデルの弱点 Region Features 2

利用特徴量 / NIC [Vinyals+ CVPR15] SCST [Steven+ CVPR17] Grid Features
細かな粒度のGrid Features & Attention 機構を利用 ☹ 物体レベルの情報が欠落 Up-Down [Anderson+ CVPR18] M2Transformer [Cornia+ CVPR20] Region Features Object Detectionを用いてRegion Featuresを抽出 ☹ 計算コストが高い・文脈情報の欠落 RSTNeT [Zhang+ CVPR21] Grid Features 物体検出器で抽出したGrid特徴量をキャプション生成に適用関連研究:Grid/Region両特徴量を用いたキャプション生成は不十分 M2Transformer RSTNeT 3 Grid Features

1. 物体検出器をTransformer(DETR)ベースの構成にしたことでend-to-end の学習を可能に 2. Grid Features を活用することで、Region Featuresでは捉えきれない文脈情報を補完 3. Region
/ Grid Features 融合のためのCross-attention機構の提案提案手法: GRIT 4

GRIT: 特徴量抽出機構 (1/2) 2stepのRegion Featuresの生成 1. Region Features Deformable DETRに倣い物体検出と物体属性予測を組み合わせた事前学習の実施
☺モデルの性能を維持したままend-to-endな学習が可能で計算時間の大幅な短縮 5 それぞれ物体iの予測されたクラスの確率物体iのバウンディングボックス回帰の正規化された損失それぞれ物体iの予測された属性の確率

• Swin Transformerの最後の特徴マップを入力 • 𝐿! 層の Self-A(en*on Transformerを用いてGrid Features を出力
☺ 画像全体から抽出されるためRegion Featuresでは捉えきれない文脈情報を保有 ☺ Self-Attention でGrid Features間の空間的な相互作用を明示的にモデル化 GRIT: 特徴量抽出機構 (2/2) Grid Feature Network 6

GRIT: キャプション生成機構 1. 文中単語に対するマスク付き Self-Attention 先の単語からの情報を遮断するマスクを使用 2. 単語・視覚特徴量間のParallel Cross Attention
• 独立したMulti-Head Attentionを並列に適用 • 特徴量にゲート機構を適用し、最終的に加算 3. Feed-Forward Network (FFN) 7

GRIT: 2Stepの損失関数の利用によるFine Tuning 1. Cross-Entropy lossを用いてモデルを事前学習 2. Self-Critical Sequence Training
Strategy [Steven+ CVPR17] CIDEr-D最適化により Fine Tuning 現時点のパラメータでテスト画像に生成した最良のキャプション" wの評価r(" w)を使用 " w を閾値として正負が逆転 " wより良いキャプションが増え " wより劣るキャプションが減る wi : ビーム内のi番目の文 r(・) : 報酬関数 b: 報酬基準 k : バッチ内のサンプル番号 8

実験設定 • データセット事前学習第1ステップ(物体検出) COCO, Visual Genome, Open Images,
and Object365 第2ステップ(物体検出&属性予測) Visual Genome Image Captioning COCO dataset nocaps Dataset, ArtEmis dataset 入力画像の画質を384×640で利用 (他手法は800×1333) • 計算時間とリソース A100 GPU ×8 で16時間 9 ArtEmis Open Images

定量的結果: Online Testにおいて全ての自動評価尺度でSOTA ☺ reference caption数 5, 40 のテストにおいていずれもSOTA ☺
GRITの単一モデルが他のどのアンサンブルモデルよりも良い結果 10

定性的結果:キャプション生成が難しい画像においても適切に出力熟したバナナであること、他のフルーツの存在を適切に出力ブラシを適切に出力裏面でも歯ブラシを適切に認識 11

追試及びエラー分析 12 GT1: a woman standing in a room with
a remote GT2: a couple of people that are staring at a tv GT3: two women playing a video game in a living room GRIT: two women playing a video game in a living room GT1:a sewage lid on the ground with a para sail chute in the background GT2:there is a balloon that is flying over the ground parachute over a large valley with a man made structure GRIT: a pair of scissors sitting on the ground with GT1:a collection of artwork leaning against a wooden fence a collection of poster arts lined up on the fence GT2*a collection of paintings against a fence outside several paintings leaning against Polos: 92.4 ☺ GRIT: a stop sign on a sidewalk next to a stop sign Polos: 9.64 Polos: 9.75 ☹ ☹ 改善案: Polosを報酬として利用する強化学習の実施・MLLMの説明能力の利用 Polos [Wada+ CVPR24] にて評価: 67.02

Ablation Study: 選択手法の有効性を確認 ☺ より多くのデータセットをSwin Transformerの事前学習で用いることで、結果が向上 ☺ Region Features(Object Queryが増加する)につれて性能が向上、150を超えると飽和
☺ end-to-endの学習を行うことで、CIDErスコアが大幅に改善 ☺ Sigmoidをゲート活性化関数として用いた特徴量の並列処理が最高の結果 13

所感 • Strengths • 二つの特徴量を適切に処理し、処理方法の並列処理もAblation Studyで適切に検証 • DETRを用いたend-to-endな学習による計算効率向上は強化学習において有用 • 豊富な実験結果
• Weakness • 最高性能の組み合わせはわかるがAblation Studyにおけるそれぞれの寄与度がわかりにくい • 強化学習だけあって計算効率が良いといえど高性能GPU&長時間を要する • CIDEr特化になりすぎることが本質的な価値と言えるのか 14

まとめ • 背景 • 既存手法で利用されているRegion Featuresのみの手法では文脈情報が欠如 • 手法 • 物体検出にDETRを用い、end-to-endの学習を実現可能にし計算効率を改善
• Image Captioning タスクにおいてGrid Features と Region Featuresを適切に融合する Parallel Cross-Attentionモデルの提案 • 結果 • COCO datasetにおけるOnline/Offlineテストにて各種自動評価尺度でSOTA • Zero Shotなデータにおいても既存手法を上回る結果 • 計算効率も既存手法と比較して大幅改善 15

APPENDIX 定量的結果: nocaps(zero shot)を用いた評価でもSOTA ☺ Region Featuresを用いた既存手法よりも in-domain/out-domain両者でSOTA

APPENDIX 定量的結果: 既存手法と比較して大幅な計算効率の上昇 • 既存手法のVinVL [Zgang+ CVPR21] やM2Transformer [Cornia+ CVPR20]
と比較し計算効率が上昇 • V100 GPU ×1 において minibatchを64まで上げることが可能 • minibatchサイズを32以上にすると一枚毎の推論速度が31ms程度にまで高速化

APPENDIX 追試及びエラー分析 Polos [Wada+ CVPR24] にて評価 • 様々な画像キャプショニングベンチマークにてSOTAを記録 • 今最も人間の評価に近い自動評価尺度
GRIT : 67.02 比較: 論文値 ICC [Yanuka+ ACL24]: 39.00

APPENDIX: 実行結果 • 100分の1のデータ量でも3h以上の実行時間を要する、通常実行だと1epoch 9時間 • データ量の影響もあり論文値は未達成

• TransformerのV&Lタスクへの応用 ViT [Dosovitskiy+ ICLR21]やDETR [Cornia+ ECCV20] によるTransformerの画像適用 • Image
CaptioningへのTransformer応用 • 領域特徴量など各種特徴量の獲得への活用 SGAE [Yang+ iCCV19], ETA [Li+ ICCV19] • Caption Decoderとしての応用 ORT [Herdade+ NeurIPS19]. NG-SAN [Guo+ CVPR20]. DLCT[Luo+ AAAI21] 他 → Grit FeaturesやRegion Featuresを統一的に扱う手法はあまりない APPENDIX: Vision/Language タスクにおけるTransformerの適用

APPENDIX 定量的結果: COCOで全ての自動評価尺度でSOTA • BLEU1, BLEU4, ROUGE, METEOR, CIDEr-D, SPICEの全ての指標においてSOTA
• Visual Genome単体よりも4つのデータセットを利用したもの(†)の方が良い結果

APPENDIX: GRIT 特徴量抽出機構 Swin Transformer • BackBoneとしてデファクトスタンダードなSwin Transformerの利用 • 通常のSelf-Attentionでは対応が難しい大きい入力データに対しても、スケーラ
ブルにSelf-Attentionを適用 • 不要な小さな部分をmaskすると計算量が増加するため、 cyclicにshift させ Window数を増やさずに効率的に処理する

[Journal club] GRIT: Faster and Better Image Ca...

[Journal club] GRIT: Faster and Better Image Captioning Transformer Using Dual Visual Features

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

GRIT: Faster and Be0er Image Cap5oning Transformer Using Dual Visual

概要 • 背景 • 強化学習を用いた Image Captioning 手法 • 既存手法で利用されているRegion

• Object Detectorで取得したRegion Featuresのみを使用 • Region Features 取得にCNNベースの物体検出器を使用 ☹ 文脈情報が欠如

利用特徴量 / NIC [Vinyals+ CVPR15] SCST [Steven+ CVPR17] Grid Features

1. 物体検出器をTransformer(DETR)ベースの構成にしたことでend-to-end の学習を可能に 2. Grid Features を活用することで、Region Featuresでは捉えきれない文脈情報を補完 3. Region

GRIT: 特徴量抽出機構 (1/2) 2stepのRegion Featuresの生成 1. Region Features Deformable DETRに倣い物体検出と物体属性予測を組み合わせた事前学習の実施

• Swin Transformerの最後の特徴マップを入力 • 𝐿! 層の Self-A(en*on Transformerを用いてGrid Features を出力

GRIT: キャプション生成機構 1. 文中単語に対するマスク付き Self-Attention 先の単語からの情報を遮断するマスクを使用 2. 単語・視覚特徴量間のParallel Cross Attention

GRIT: 2Stepの損失関数の利用によるFine Tuning 1. Cross-Entropy lossを用いてモデルを事前学習 2. Self-Critical Sequence Training

実験設定 • データセット事前学習第1ステップ(物体検出) COCO, Visual Genome, Open Images,

定量的結果: Online Testにおいて全ての自動評価尺度でSOTA ☺ reference caption数 5, 40 のテストにおいていずれもSOTA ☺

定性的結果:キャプション生成が難しい画像においても適切に出力熟したバナナであること、他のフルーツの存在を適切に出力ブラシを適切に出力裏面でも歯ブラシを適切に認識 11

追試及びエラー分析 12 GT1: a woman standing in a room with

Ablation Study: 選択手法の有効性を確認 ☺ より多くのデータセットをSwin Transformerの事前学習で用いることで、結果が向上 ☺ Region Features(Object Queryが増加する)につれて性能が向上、150を超えると飽和

所感 • Strengths • 二つの特徴量を適切に処理し、処理方法の並列処理もAblation Studyで適切に検証 • DETRを用いたend-to-endな学習による計算効率向上は強化学習において有用 • 豊富な実験結果

まとめ • 背景 • 既存手法で利用されているRegion Featuresのみの手法では文脈情報が欠如 • 手法 • 物体検出にDETRを用い、end-to-endの学習を実現可能にし計算効率を改善

APPENDIX 定量的結果: nocaps(zero shot)を用いた評価でもSOTA ☺ Region Featuresを用いた既存手法よりも in-domain/out-domain両者でSOTA

APPENDIX 定量的結果: 既存手法と比較して大幅な計算効率の上昇 • 既存手法のVinVL [Zgang+ CVPR21] やM2Transformer [Cornia+ CVPR20]

APPENDIX 追試及びエラー分析 Polos [Wada+ CVPR24] にて評価 • 様々な画像キャプショニングベンチマークにてSOTAを記録 • 今最も人間の評価に近い自動評価尺度

APPENDIX: 実行結果 • 100分の1のデータ量でも3h以上の実行時間を要する、通常実行だと1epoch 9時間 • データ量の影響もあり論文値は未達成

• TransformerのV&Lタスクへの応用 ViT [Dosovitskiy+ ICLR21]やDETR [Cornia+ ECCV20] によるTransformerの画像適用 • Image

APPENDIX 定量的結果: COCOで全ての自動評価尺度でSOTA • BLEU1, BLEU4, ROUGE, METEOR, CIDEr-D, SPICEの全ての指標においてSOTA

APPENDIX: GRIT 特徴量抽出機構 Swin Transformer • BackBoneとしてデファクトスタンダードなSwin Transformerの利用 • 通常のSelf-Attentionでは対応が難しい大きい入力データに対しても、スケーラ