Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

[JSAI24] A Hallucination-Resistant Automatic Ev...

[JSAI24] A Hallucination-Resistant Automatic Evaluation Metric for Image Captioning

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 画像キャプション生成における自動評価尺度 - - 2 - ハルシネーションに頑健な自動評価尺度DENEBを提案 - Polos[Wada+, CVPR24 Highlights]を上回る

    - 複数のベンチマークにおいて世界最高性能 - 30,000以上の人間による評価を含む最大規模のデータセットを公開 プロジェクトページ
  2. 背景: 画像キャプション生成におけるハルシネーション - - 3 画像キャプション生成: 画像を説明するキャプションを生成するタスク "A black and

    white cat looking out a window over another cat." 様々な社会応用 - 視覚障害者の補助 [Gurari+, ECCV20] - LLMに基づく画像の説明生成 [Ge+, CVPR24] → 適切で安全なキャプション生成が望まれる  画像キャプション生成では “ハルシネーション”が度々発生する
  3. 背景: ハルシネーションに頑健な自動評価尺度の構築は重要 - - 4 ハルシネーション (Object Hallucination): あ画像内に存在しない単語を出力する現象 →ハルシネーションに頑健な自動評価尺度が

    望まれる "a black and white dog sits near a window looking outside."  既存の評価尺度はハルシネーションを含む キャプションに対して不適切に高い評価
  4. 問題設定: 画像キャプション生成における自動評価 - - 5 ▪ 入力:画像 𝒙𝒙𝐢𝐢𝐢𝐢𝐢𝐢 ,生成文𝒙𝒙𝐜𝐜𝐜𝐜𝐜𝐜𝐜𝐜 および参照文群

    𝒙𝒙 𝐫𝐫𝐫𝐫𝐫𝐫 (𝒊𝒊) 𝒊𝒊=𝟏𝟏 𝑵𝑵 ▪ 出力: 参照文および画像に対して,生成文𝒙𝒙𝐜𝐜𝐜𝐜𝐜𝐜𝐜𝐜 が適切であるかの評価値 𝒙𝒙 ref (𝑖𝑖) 𝑖𝑖=1 𝑁𝑁 𝒙𝒙cand 評価値 � 𝑦𝑦 𝒙𝒙img 画像キャプション 生成モデル 自動評価尺度  人間による評価に近い  ハルシネーションを含む キャプションに低い評価を 割り当てる ことが望ましい
  5. 関連研究: 画像キャプション生成における自動評価尺度 - - 6 手法 説明 CLIP-S[Hessel+, EMNLP21] 画像・候補文・参照文群のCLIP特徴量間のコサイン類似度を使用

    PAC-S[Sarto+, CVPR23] 生成モデルから得られた画像・テキストデータでCLIP-SをFinetune Polos[Wada+, CVPR24] 人間による評価を用いた教師あり自動評価尺度
  6. 関連研究: 画像キャプション生成における自動評価尺度 - - 7 手法 説明 CLIP-S[Hessel+, EMNLP21] 画像・候補文・参照文群のCLIP特徴量間のコサイン類似度を使用

    PAC-S[Sarto+, CVPR23] 生成モデルから得られた画像・テキストデータでCLIP-SをFinetune Polos[Wada+, CVPR24] 人間による評価を用いた教師あり自動評価尺度
  7. DENEB:ハルシネーションに頑健な自動評価尺度 - - 9 1. 有用な特徴量を抽出するSim-Vec Extraction (SVE) 2. 類似度を扱うSim-Vec

    Transformerモジュール 3. 多様な画像を持つ世界最大規模のデータセットNebulaを構築 - 既存の最大データセットに20,000枚以上の画像を追加
  8. 提案(1/3): 類似度を抽出するSim-Vec Extraction (SVE) - - 10 - 画像キャプション生成における自動評価 →生成文と参照文群・画像間の類似度を捉えることが重要

    - アダマール積と要素間の差分によって𝑥𝑥cand , 𝑥𝑥 ref (𝑖𝑖) ,𝑥𝑥img 間の 類似度をベクトル形式で抽出
  9. - CLIP[Radford+, ICML21], RoBERTa[Liu+, 19]の特徴量の - アダマール積 𝒉𝒉clip , 𝒉𝒉rb

    - 要素ごとの差分 𝒅𝒅clip , 𝒅𝒅rb を計算し, 𝒈𝒈inter を得る - - 11 アダマール積・要素ごとの差分は COMET[Rei+, EMNLP20] , Polos[Wada+, CVPR24] で有効性が確認 提案(1/3): 類似度を抽出するSim-Vec Extraction (SVE)
  10. 提案(2/3): 入力間の類似度を扱うSim-Vec Transformer - - 12 - Sim-Vec Transformer -

    SVEから得られた𝒈𝒈inter を[CLS]トークンと結合 - Transformerに𝒈𝒈inter を入力 - [CLS]トークンから評価値 � 𝑦𝑦を予測  Aggregate関数を用いない →全ての参照文を学習および推論に使用  Transformer-based →類似度ベクトルをより効果的に学習 複数の参照文群を同時に入力する ためAggregate関数が不要
  11. 提案(3/3)Nebulaデータセット: 画像バリエーションの追加 - - 13 Polarisデータセット[Wada+, CVPR24] - 自動評価尺度の訓練データとして既存最大 -

    キャプションに対してその適切さを5段階で評価 - 画像枚数: 約10,000枚 Nebulaデータセット - 画像枚数: 約33,000枚 - アノテータ: 805人  より多様な視覚情報  画像とテキストのデータ数のバランス  画像数がサンプル数に対して1/10程度
  12. 定量的結果: 人間による評価と高い相関 - - 14 人間による評価との相関係数(Kendall’s τ)において 4つのベンチマーク全てで既存手法を上回る Composite Flickr8K-

    Expert Flickr8K-CF Nebula CIDEr [Vedantam+, CVPR15] 37.7 43.9 24.6 48.1 CLIP-S [Hessel+, EMNLP21] 53.8 51.2 34.4 46.9 RefPAC-S [Sarto+, CVPR23] 57.3 50.6 37.6 50.6 Polos [Wada+, CVPR24] 57.6 56.4 37.8 53.9 58.2 56.8 38.3 54.3 +0.6 +0.4 +0.5 +0.4
  13. 定量的結果: ハルシネーションへの高い頑健性(FOIL) - - 15  ハルシネーションへの頑健性を測るFOILベンチマークにおいて 既存手法を上回る FOIL 1-ref

    [%] FOIL 4-ref [%] CIDEr [Vedantam+, CVPR15] 82.5 90.6 CLIP-S [Hessel+, EMNLP21] 87.2 87.2 RefPAC-S [Sarto+, CVPR23] 93.7 94.9 Polos [Wada+, CVPR24] 93.2 95.1 95.4 96.5 +1.4 +1.7
  14. 定性的結果-成功例:人間による評価に近い出力(Nebula) - - 16 - キャプション: “a man in a

    plaid shirt eating a sandwich” - 人間による評価: 0.0 DENEB: 0.07 →人間による評価と近い CIDEr: 0.46 CLIP-S: 0.43 Polos: 0.49 →既存手法はキーワードを含むが 不適切なキャプションを過大評価
  15. 正しいキャプション “A woman is on a phone in front of

    a fruit stand” DENEB: 0.71 ハルシネーションにを含むキャプション “A woman is on a laptop in front of a fruit stand” DENEB: 0.15 定性的結果-成功例:ハルシネーションへの頑健性(FOIL) - - 17 ハルシネーションを含むキャプションに 対して適切に低い評価を割り当て
  16. “A woman is on a phone in front of a

    fruit stand” “A woman is on a laptop in front of a fruit stand” 定性的結果-成功例: DENEBのみが低い評価値を割り当て - - 18 0 0.2 0.4 0.6 0.8 1 CIDEr CLIP-S Polos DENEB 0.06↓ 0.16↓ 0.07↓ 0.56↓
  17. Ablation Study: Sim-Vec Transformerの性能への寄与 - - 19 条件(i): Sim-Vec Transformerを削除しMLPに置換

    →Sim-Vec Transformerの性能への寄与を確認 Sim-Vec Trm. SVE Non- aggregation FOIL 1-ref [Acc] FOIL 4-ref [Acc] Nebula [Kendall] (i) 76.2 76.5 48.1 (ii) 84.3 89.3 45.2 (iii) 94.4 96.1 53.2 95.4 96.5 54.3 +19.2 +20.0 +6.2
  18. 定量的結果: SVEの性能への寄与 - - 20 条件(ii): SVEのみを削除 →SVEが本タスクにおいて有用な特徴量を抽出している Sim-Vec Trm.

    SVE Non- aggregation FOIL 1-ref [Acc] FOIL 4-ref [Acc] Nebula [Kendall] (i) 76.2 76.5 48.1 (ii) 84.3 89.3 45.2 (iii) 94.4 96.1 53.2 95.4 96.5 54.3 +11.1 +7.2 +9.1
  19. まとめ: 画像キャプション生成における自動評価尺度 - - 22 - ハルシネーションに頑健な自動評価尺度DENEBを提案 - Polos[Wada+, CVPR24

    Highlights]を上回る - 複数のベンチマークにおいて世界最高性能 - 30,000以上の人間による評価を含む最大規模のデータセットを公開 プロジェクトページ
  20. Appendix: エラー分析 - - 24 - 注目領域の相違 (Focus Area Discrepancy,

    FAD) - 参照文と異なる領域に注目した生成文に対し,評価尺度が不適切な評価値を出 力した場合 - 生成文の正確性不足 (Caption Accuracy Deficiency, CAD) - 誤った表現を含む生成文に対し,評価尺度が不適切な評価値を出力した場合 - 生成文の詳細性不足 (Caption Detail Insufficiency, CDI) - 詳細を欠く生成文に対し,評価尺度が不適切な評価値を出力した場合 エラーの種類 FAD CAD CDI GE AE Others エラー数 40 28 16 8 4 4
  21. Appendix: エラー分析 - - 25 - 文法エラー (Grammatical Error, GE)

    - 文法的な誤りを含む生成文に対し,評価尺度が不適切な評価値を出力した場合 - 評価者による誤り (Annotation Error, AE) - 人間による評価が不適切であった場合 - その他 (Others) - 上記のエラーに当てはまらないその他の場合 エラーの種類 FAD CAD CDI GE AE Others エラー数 40 28 16 8 4 4