Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] PAC-Score: Positive-Augmented C...

[Journal club] PAC-Score: Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. PAC-Score: Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation

    1 Sarto, Sara, et al. “PAC-Score: Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation” CVPR, 2023. Sara Sarto1 Manuele Barraco1 Marcella Cornia1 Lorenzo Baraldi1 Rita Cucchiara1,2 1University of Modena and Reggio Emilia, Modena, Italy 2IIT-CNR, Pisa, Italy
  2. 概要: 画像キャプション⽣成の⾃動評価 ▪ 背景 ▪ 既存の画像キャプション⽣成に対する⾃動評価尺度は, ⼈間による評価との相関が不⼗分 ▪ ⼤量webデータを⽤いて学習された 特徴量抽出器の限界

    ▪ 提案⼿法 : PAC-Score ▪ データセット内の画像と参照⽂から,⽣成モデルを⽤いて画像とキャプションを⽣成 ▪ それらを⽤いた対照学習で,CLIP[Radford+, ICML21]をfine-tuning ▪ CLIP特徴量空間内でのコサイン類似度を⽤いて評価 ▪ 結論 画像および動画のキャプション⽣成に対する⾃動評価において,⼈間による評価との⾼い相関 2
  3. 背景: CLIPは画像キャプションの特徴量抽出に不適 4 CLIP[Radford+, ICML21]を特徴量抽出に⽤いることの限界 l CLIPが学習に⽤いるデータは,webから収集される 多種多様な画像と,その画像に対するalt-textで学習 Ø alt-textは単⽂,画像を詳細に説明しない

    l 画像キャプション⽣成タスクで⽤いるデータ ⼈間のアノテータによる包括的かつ⽂脈的な画像キャプション Ø 作成コストが⾼く,簡単に拡張できない Webから収集された⼤量のデータ: • クレンジングされていない • キャプションが低品質かつ短⽂ ドメインギャップ
  4. 関連研究 5 評価⼿法 特徴 ⼊⼒ CIDEr [Vedantam+, CVPR15] !-gramを⽤いたルールベースの評価 ⼈間による評価との相関が著しく低い

    ⽣成⽂ + 参照⽂ CLIPScore [Hessel+, EMNLP21] CLIPエンコーダーを使⽤ ベクトル空間内でのコサイン類似度で評価 画像 + ⽣成⽂ (+ 参照⽂) EM-Score [Shi+, CVPR22] ビデオフレームとキャプション間の 類似性を評価 動画 + ⽣成⽂ CLIPScore EM-Score
  5. 提案⼿法: PAC-Score Positive-Augmented Contrastive Learning for Image and Video Captioning

    Evaluation - 6 - 1. image-to-text, text-to-imageの⽣成モデルを⽤いて新たに画像とキャプションを⽣成 2. それらを⽤いてInfoNCE[Oord+, arXiv18]損失を算出しCLIPをfine-tuning 3. fine-tuningされたCLIPで抽出した特徴量同⼠のコサイン類似度でスコア算出
  6. 提案⼿法: PAC-Score Positive-Augmented Contrastive Learning for Image and Video Captioning

    Evaluation - 7 - 1. image-to-text, text-to-imageの⽣成モデルを⽤いて新たに画像とキャプションを⽣成 2. それらを⽤いてInfoNCE[Oord+, arXiv18]損失を算出しCLIPをfine-tuning 3. fine-tuningされたCLIPで抽出した特徴量同⼠のコサイン類似度でスコア算出
  7. 提案⼿法: PAC-Score Positive-Augmented Contrastive Learning for Image and Video Captioning

    Evaluation - 8 - 1. image-to-text, text-to-imageの⽣成モデルを⽤いて新たに画像とキャプションを⽣成 2. それらを⽤いてInfoNCE[Oord+, arXiv18]損失を算出しCLIPをfine-tuning 3. fine-tuningされたCLIPで抽出した特徴量同⼠のコサイン類似度でスコア算出
  8. 提案⼿法: PAC-Score Positive-Augmented Contrastive Learning for Image and Video Captioning

    Evaluation - 9 - 1. image-to-text, text-to-imageの⽣成モデルを⽤いて新たに画像とキャプションを⽣成 2. それらを⽤いてInfoNCE[Oord+, arXiv18]損失を算出しCLIPをfine-tuning 3. fine-tuningされたCLIPで抽出した特徴量同⼠のコサイン類似度でスコア算出
  9. 提案⼿法(1/4): データセットの拡張 10 参照⽂"と画像#がある時, ▪ ViT-L/14[Radford+, ICML21]を⽤いたBLIP[Li+, PMLR22]で画像#から⽣成⽂"′を⽣成 ▪ Stable

    Diffusion[Rombach+, CVPR22]を使⽤して参照⽂"から⽣成画像#′を⽣成 Ø ⽣成モデルを⽤いることで,⾼コストな⼈間によるアノテーションが不要 ! "′ !′ "
  10. 提案⼿法(2/4): 対照学習における損失の計算 ▪ 画像% = #! , #" , …

    , ## ▪ 参照⽂) = "! , "" , … , "# ▪ ⽣成画像%$ = #$ ! , #$ " , … , #$ # ▪ ⽣成⽂)′ = ["′! , "′" , … , "′# ] ▪ InfoNCE損失 (,%,' , ,%!,' , ,%,'! )を計算 ▪ 最終的な損失は-( , -)で重み付けし,次のように定義 11 #*と"*が同じクラスに属 する確率をコサイン類 似度で求める • データセット全体で 正規化 • expを⽤いることで 差異を強調
  11. 提案⼿法(3/4): 画像キャプション⽣成の⾃動評価(推論) 12 ▪ PAC-S: 参照⽂を⽤いない⾃動評価尺度 Score &, ( =

    * + max(cos &, ( , 0) ▪ RefPAC-S : 参照⽂を⽤いる⾃動評価尺度 Ref − Score &, (, 6 = H − Mean(Score &, ( , max .∈0 cos &, : , 0 )) 出⼒範囲のスケーリング項: 1 画像と⽣成⽂のCLIP特徴量{", #} {", #} のコサイン類似度によって評価 PAC−Sにおけるスコアと,画像−参照⽂間のコサイン類似度の調和平均 {", 4} のコサイン類似度によって評価 参照⽂群5 = {4! , 4" , … , 4# }
  12. 提案⼿法(4/4): 動画キャプション⽣成の⾃動評価(推論) 13 ▪ ⽣成⽂"と、ビデオ%の⽐較をする粒度の粗いスコア6789:+ ビデオ;の特徴量: フレーム単位の特徴量を平均値プーリング ▪ 単語"と、フレーム%の⽐較をする粒度の細かいスコア6789:, 1.

    各単語とフレームの特徴量におけるコサイン類似度を算出 2. コサイン類似度を基に,TF-IDFで重み付けされたF1スコアを算出 ▪ PAC-S: 参照⽂を⽤いない⾃動評価尺度 ▪ RefPAC-S: 参照⽂を⽤いる⾃動評価尺度 参照⽂群5 = {4! , 4" , … , 4# }
  13. 実験設定 ▪ 特徴量抽出: CLIP ViT-B/32[Radford+, CVPR21] ▪ データセット: COCO[Lin+, ECCV14]

    ▪ 画像キャプション⽣成の評価ベンチマーク: ü ⼈間による評価との相関: Flickr8k-Expert, Flickr8k-CF[Hodosh+, IJCAI13] ü ⼈間による評価への精度: Pascal-50S & Abstract-50S[Vedantam+, CVPR15] ü ハルシネーションへの頑健性: FOIL[Shekhar+, ACL17] ▪ 動画キャプション⽣成の評価ベンチマーク: ü ⼈間による評価との相関: VATEX-EVAL[Shi+, CVPR22] ü ハルシネーションへの頑健性: ActivityNet-FOIL[Shi+, CVPR22] 14
  14. 定量的結果: ⼈間の評価への⾼い精度 17 Pascal-50S[Vedantam+, CVPR15] ▪ HC: ⼈間による2つの正しいキャプション ▪ HI:

    ⼈間による正しいキャプション+⼈間による誤り キャプション ▪ HM: ⼈間による正しいキャプション+⽣成モデルによ る正しいキャプション ▪ MM: ⽣成モデルによる2つの正しいキャプション ü ⼈間による評価が⾼い⽅を選ぶタスク ü ほとんどの既存⼿法より⾼い精度 ü データセット全体ではなく、5つのランダムサンプル で評価するため、他指標と直接⽐較が困難
  15. クリップアート 単純な画像 定量的結果: ⼈間の評価への⾼い精度 18 Abstract-50S[Vedantam+, CVPR15] ▪ それぞれのクリップアート画像が、以下のいずれかを持つ ▪

    2つの正解キャプションのペア ▪ 1つの正解キャプションと1つの誤りキャプションのペア ▪ ⼈間による判断との精度を測るタスク ▪ 参照⽂群を⽤いる⼿法と⽤いない⼿法の両⽅で、PAC-SはCLIPScore[Hessel+, EMNLP21] よりも⾼い精度 ▪ クリップアート画像という評価に⽤いる特徴量が少ない環境でもPAC-Sは有効
  16. 追試およびエラー分析: 中間品質に弱い 21 Human 0.5 RefPAC-S 0.926 $!"#$ “a child

    is on a slide.” $ %&' ( “A child is sliding down a spiral slide on a playground .” エラー分析: • 対照学習を⽤いる⼿法では, 正例と負例という品質が極端 な⽂を⽤いて学習 • 中間的な品質の⽣成⽂を含む サンプルにおいて,適切な評 価値を出⼒することができな い 不当に⾼い評価
  17. まとめ: 画像キャプション⽣成の⾃動評価 ▪ 背景 ▪ 既存の画像キャプション⽣成に対する⾃動評価尺度は, ⼈間による評価との相関が不⼗分 ▪ ⼤量webデータを⽤いて学習された 特徴量抽出器の限界

    ▪ 提案⼿法 : PAC-Score ▪ データセット内の画像と参照⽂から,⽣成モデルを⽤いて画像とキャプションを⽣成 ▪ それらを⽤いた対照学習で,CLIP[Radford+, ICML21]をfine-tuning ▪ CLIP特徴量空間内でのコサイン類似度を⽤いて評価 ▪ 結論 画像および動画のキャプション⽣成に対する⾃動評価において,⼈間による評価との⾼い相関 22
  18. Appendix - 26 - ▪ TF-IDF ü ⽂書中に含まれる各単語が,⽂書内でどれくらい重要かを⽰す尺度 ü TF=

    ⽂書における対象単語数 / ⽂書における全単語数 ü IDF = log 全⽂書数 対象単語を含む⽂書数 + 1 ü TF-IDF=TF×IDF ▪ F1 score