Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【AIC】Image Captioningにおける自動評価の最前線

【AIC】Image Captioningにおける自動評価の最前線

Yuiga Wada (和田唯我)

December 06, 2024
Tweet

Transcript

  1. - 2 - o Image Captioning : 画像を説明するキャプションを⽣成 • 視覚障害者の補助

    [Gurari+, ECCV20] • 画像に関する対話⽣成 [White+, EMNLP21] • マルチモーダルLLM → 円滑なモデル改良のためには ⽣成⽂が適切に評価できるmetricsが必要 o Image captioningは様々な⽤途で 社会応⽤されている A man with a red umbrella is sitting on a bench. Image captioning における 実⽤的な metric 構築を⽬指す 背景 : Image captioningでは⽣成⽂の品質評価が重要
  2. - 4 - o METEOR [Banerjee+, ACL05] / CIDEr [Vedantam+,

    CVPR15] • 𝑛-gramに基づき正解⽂と⽣成⽂の類似度を計算 o SPICE [Anderson+, ECCV16] / JaSPICE [Wada+, CoNLL23] (acceptance rate = 28%) • 構⽂解析により構築したシーングラフから⽣成⽂を評価 JaSPICE [Wada+, CoNLL23] CIDErの算出⽅法 古典的なmetricsはルールベースで評価
  3. - 5 - o METEOR [Banerjee+, ACL05] / CIDEr [Vedantam+,

    CVPR15] • 𝑛-gramに基づき正解⽂と⽣成⽂の類似度を計算 o SPICE [Anderson+, ECCV16] / JaSPICE [Wada+, CoNLL23] • 構⽂解析により構築したシーングラフから⽣成⽂を評価 古典的なmetricsはルールベースで評価 JaSPICE [Wada+, CoNLL23] CIDErの算出⽅法 ルールベースのため性能に改善の余地あり
  4. - 6 - ⼿法 概要 BERTScore [Zhang+, ICLR20] BERT [Devlin+,

    NACCL19]の単語埋め込みから cosine類似度を計算 CLIPScore [Hessel+, EMNLP21] ⼤規模対照学習により事前学習されたCLIP [Radford+, PMLR21] の埋め込み表現よりcosine類似度を計算 MID [Kim+, NeurIPS22] CLIPの埋め込み表現からNegative Gaussian Cross- Mutual Informationを⽤いて類似度を計算 BERTScore CLIPScore Similarity-based metricsは 古典的⼿法(cosine類似度・最適輸送)により類似度を計算
  5. - 7 - ⼿法 概要 BERTScore [Zhang+, ICLR20] BERT [Devlin+,

    NACCL19]の単語埋め込みからcosine類似 度を計算 CLIPScore [Hessel+, EMNLP21] ⼤規模対照学習により事前学習されたCLIP [Radford+, PMLR21] の埋め込み表現よりcosine類似度を計算 MID [Kim+, NeurIPS22] CLIPの埋め込み表現からNegative Gaussian Cross- Mutual Informationを⽤いて類似度を計算 古典的⼿法(cosine類似度・最適輸送)により 類似度を計算するため,性能に改善の余地あり BERTScore CLIPScore Similarity-based metricsは 古典的⼿法(cosine類似度・最適輸送)により類似度を計算
  6. - 8 - UMIC PAC-S ⼿法 概要 UMIC [Lee+, ACL21]

    UNITER [Chen+, ECCV20]を⽤いてキャプション同⼠を⽐較 できるように学習 PAC-S [Sarto+, CVPR23] CLIPの学習データとimage captioningの評価データと の間のドメインギャップにデータ拡張を⽤いて対処. 既存のLearning-based metricsは 多様な画像およびテキストに対する汎化性能が低い
  7. - 9 - ⼿法 概要 UMIC [Lee+, ACL21] UNITER [Chen+,

    ECCV20]を⽤いてキャプション同⼠を⽐較 できるように学習 PAC-S [Sarto+, CVPR23] CLIPの学習データとimage captioningの評価データと の間のドメインギャップにデータ拡張を⽤いて対処. 多様な画像およびテキストに対する汎化性能が低い (例: UMICはopen vocabulary設定に対応できない) 既存のLearning-based metricsは 多様な画像およびテキストに対する汎化性能が低い 総じて,既存⼿法は⼈⼿評価との alignmentが取れていない → 教師あり学習に基づくmetricが有望
  8. - 10 - o Polos [Wada+, CVPR24 (Highlight)] o 新規性

    1. 並列クロスモーダル特徴抽出機構 2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 Supervised Metrics: Polos [Wada+, CVPR24 (Highlight)] Top 3.6% out of 11,532 submissions
  9. - 11 - o Polos [Wada+, CVPR24 (Highlight)] o 新規性

    1. 並列クロスモーダル特徴抽出機構 2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 CLIP/SimCSE [Gao+, EMNLP21]に基づき, ベクトル間の複雑な関係を学習 Supervised Metrics: Polos [Wada+, CVPR24 (Highlight)] Top 3.6% out of 11,532 submissions
  10. - 12 - o Polos [Wada+, CVPR24 (Highlight)] o 新規性

    1. 並列クロスモーダル特徴抽出機構 2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 Supervised Metrics: Polos [Wada+, CVPR24] 人間による評価を直接学習し より人間に近い評価を出力 M2LHF: Multimodal Metric Learning from Human Feedback
  11. - 13 - o Polos [Wada+, CVPR24 (Highlight)] o 新規性

    1. 並列クロスモーダル特徴抽出機構 2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 Supervised Metrics: Polos [Wada+, CVPR24] 550⼈から収集した13万の ⼈間による評価を含む
  12. - 14 - o Polos [Wada+, CVPR24 (Highlight)] o 新規性

    1. 並列クロスモーダル特徴抽出機構 2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 下記のベンチマークにおいてSOTA • Flickr8K-Expert • Flickr8K-CF • Composite • PASCAL50S • FOIL • Polaris Supervised Metrics: Polos [Wada+, CVPR24 (Highlight)] Top 3.6% out of 11,532 submissions
  13. - 15 - o Image Captioningでは “ハルシネーション”が度々発⽣ • MLLM開発 →

    ハルシネーションを適切に評価可能な⾃動評価尺度が必要 o DENEB [Matsuda, Wada, et al, ACCV24] • Hallucination-Robustな⾃動評価尺度 Supervised Metrics: DENEB [Matsuda, Wada, et al., ACCV24] "a black and white dog sits near a window looking outside." (Acceptance rate = 32%) MLLM
  14. - 16 - o DENEB [Matsuda, Wada, et al, ACCV24]

    • 耐ハルシネーション性能においてSOTA o 何を⽬指すのか • ⼈間の評価同⼠の相関は0.7程度 • Superhumanの評価尺度が出現しそう • Superhuman評価尺度ができると世界はどう変わる? • ⼈⼿評価が不要に。 • MLLM開発においてDPO等が⾃然にできるようになる Supervised Metrics: DENEB [Matsuda, Wada, et al., ACCV24] (Acceptance rate = 32%) FOIL 1-ref [Acc] CLIP-S [EMNLP21] 87.2 RefPAC-S [CVPR23] 93.7 Polos [CVPR24] 93.2 95.4 +1.7
  15. - 17 - o 既存⼿法 [Wada+, CoNLL23] [Sarto+, CVPR23]の問題点 •

    ⼈⼿評価との alignmentが取れていない → 教師ありmetricの提案 [Wada+, CVPR24], [Matsuda, Wada et al., ACCV24] o 何を⽬指すのか • ⼈間の評価同⼠の相関は0.7程度 • そろそろSuperhumanの評価尺度が出現する • Superhuman評価尺度ができると世界はどう変わる? • ⼈⼿評価が不要に。 • MLLM開発においてDPO等が⾃然にできるようになる まとめ
  16. Ranking modelの問題点 - 19 - o UMICはキャプション同⼠のrankingを⾏う • Ranking modelが⽐較できないものが存在

    • 主観的表現 • 焦点の違ったキャプション → ⽐較するのはナンセンス o どちらも正しいキャプション (焦点の違い) • 「電線に信号機がぶら下がっている」 • 「⻘空の下で⾞が通りを⾛っている」
  17. o 画像キャプション⽣成における教師あり⾃動評価尺度 Polos を提案 o 約13万サンプルの⼈間による評価 (世界最⼤の10倍) で構成されたPolarisを構築 o ベクトル間の複雑な関係を学習する提案尺度は様々なベンチマークで世界最⾼性能

    o ソフトウェア・データセット公開済み→ https://yuiga.dev/polos 画像キャプション⽣成における教師あり⾃動評価尺度 - 20 - 6つのベンチマークにおいてSOTA • Flickr8K-Expert • Flickr8K-CF • Composite • PASCAL50S • FOIL • Polaris CVPR 2024 採択
  18. - 21 - o 画像キャプション⽣成: 画像を説明するキャプションを⽣成 • 視覚障害者の補助 [Gurari+, ECCV20]

    • 画像に関する対話⽣成 [White+, EMNLP21] • 画像に基づく質問応答 [Fisch+, EMNLP20] o 様々な⽤途で社会応⽤ L 既存の⾃動評価尺度は⼈間による評価との 相関係数が低い [Wada+, CoNLL23] [Sarto+, CVPR23] A person with a red umbrella is sitting on a bench. 円滑なモデル改良には適切な評価が できる実⽤的な⾃動評価尺度が望まれる 背景 : 画像キャプション⽣成では⽣成⽂の品質評価が重要
  19. - 22 - o ⼊⼒: ⽣成⽂𝒙!"#$ , 参照⽂ 𝒙 !"#

    (%) %'( ) , および 画像 𝑥%&' o 出⼒: 参照⽂および画像に対して,⽣成⽂𝒙!"#$ が適切であるかの評価値 o 性能の検証: ⼈間による評価との相関係数 (Kendall’s 𝜏) 問題設定 : 画像キャプション⽣成に対する⾃動評価 Image Captioning Model 𝒙 !"# (%) %'( ) 𝒙*+,- 評価値 ⼈間による評価 相関係数により 性能を検証 𝒙*+, 提案⼿法
  20. - 23 - o 提案⼿法: Polos o 新規性 1. 並列クロスモーダル特徴抽出機構

    2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 提案⼿法: 画像キャプション⽣成における教師あり⾃動評価尺度
  21. - 24 - o 提案⼿法: Polos o 新規性 1. 並列クロスモーダル特徴抽出機構

    2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 提案⼿法: 画像キャプション⽣成における教師あり⾃動評価尺度 CLIP/SimCSE [Gao+, EMNLP21]に基づき, ベクトル間の複雑な関係を学習
  22. - 25 - o 提案⼿法: Polos o 新規性 1. 並列クロスモーダル特徴抽出機構

    2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 提案⼿法: 画像キャプション⽣成における教師あり⾃動評価尺度 人間による評価を直接学習し より人間に近い評価を出力 M2LHF: Multimodal Metric Learning from Human Feedback
  23. - 26 - o 提案⼿法: Polos o 新規性 1. 並列クロスモーダル特徴抽出機構

    2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 提案⼿法: 画像キャプション⽣成における教師あり⾃動評価尺度 550⼈から収集した13万の ⼈間による評価を含む
  24. o CLIPのエンコーダより特徴量を抽出 • 𝑥!"# の画像埋め込み • 𝑥$%&' , 𝑥 ()*

    (,) の⽂埋め込み o SimCSEで学習されたRoBERTaより抽出 • 𝑥$%&' , 𝑥 ()* (,) の⽂埋め込み - 27 - 提案⼿法: 画像キャプション⽣成における教師あり⾃動評価尺度 • CLIPはウェブから収集したalt-textで事前学習 →⾼品質な⽂埋め込みを⽣成できないことを指摘 先⾏研究: [Sarto+, CVPR23] → SimCSEで事前学習された RoBERTaを使⽤
  25. - 28 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+

    (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る
  26. - 29 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+

    (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る 機械翻訳における⾃動評価尺度である COMET [Rei+, EMNLP20] にて有効性が検証
  27. - 30 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+

    (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る 機械翻訳における⾃動評価尺度である COMET [Rei+, EMNLP20] にて有効性が検証
  28. - 31 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+

    (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る
  29. - 32 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+

    (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る
  30. - 33 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+

    (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る
  31. - 34 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+

    (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る
  32. o 並列クロスモーダル特徴抽出機構 • ⼀般的なデータセット: 複数の参照⽂が付与されている • 𝑖 番⽬の参照⽂に対する をスカラ値 へ変換

    • Aggregate関数としてMax関数を採⽤ → Ablation studyを実施 • ⼈間による評価とyから損失を計算し,⼈間に近い評価を学習 - 35 - Aggregate関数により複数の参照⽂に対するスコアを集約
  33. - 36 - o クラウドソーシングサービス により評価を収集 • アノテータ : 550⼈

    • 131,020 サンプル収集 o 与えられた 1 枚の画像と, 対応するキャプションの組に 対してキャプションの適切さ を 5 段階で評価 o アノテータは以下を考慮 • Fluency • Relevance • Descriptiveness Polaris データセット: アノテータ550⼈から約13万サンプル収集
  34. o 18個の⾃動評価尺度・6個のベンチマークにおいて⽐較 (以下⼀部抜粋) J 現時点でのSOTA尺度 RefPAC-S [Sarto+, CVPR23] を上回る良好な結果 -

    37 - 定量結果: 提案尺度がComposite, Flickr8K, PolarisにおいてSOTA Composite Flickr8K (Expert) Flickr8K(CF) Polaris MID 55.7 54.9 37.3 51.3 PAC-S 55.7 54.3 36.0 52.5 UMIC 56.1 46.8 30.1 56.0 RefPAC-S 57.3 55.9 37.6 56.0 Polos 57.6 56.4 37.8 57.8 +0.3 +0.5 +0.2 +1.8
  35. o ⽣成⽂: “a bunch of bananas are hanging on a

    tree.” o 参照⽂: ”A framed picture of a bunch of bananas.” - 38 - 定性結果: 既存⼿法と⽐べて良好な結果 • ⼈間による評価: 0.450 • Polos: 0.513 J 提案⼿法は適切に評価 • RefPAC-S: 0.825 L RefPAC-Sは過⼤評価 “hanging on a tree”は画像からは誤り.
  36. - 39 - 定性結果: 既存⼿法と⽐べて良好な結果 “cat”, “blue blanket”等の深刻な誤りを含む o ⽣成⽂:

    “a black and white cat sleeping on a blue blanket.” o 参照⽂: ”A cute little dog biting on something a person is holding.” • ⼈間による評価: 0.071 • Polos: 0.173 J 提案⼿法は⽐較的適切に評価 • RefPAC-S: 0.903 L RefPAC-Sは過⼤評価
  37. - 40 - o 𝑃 : 並列クロスモーダル特徴抽出機構の有無 o 𝑥%&' :

    画像特徴量の有無 条件 𝑷 𝒙𝐢𝐦𝐠 CLIP Aggregate Composite Flickr8K Polaris (i) ✔ ✔ Max 39.3 41.0 51.4 (ii) ✔ ✔ Max 56.8 55.5 57.1 (iii) ✔ Max 55.0 53.2 55.4 (iv) ✔ ✔ ✔ Mean 55.1 55.4 52.1 提案手法 ✔ ✔ ✔ Max 57.6 56.4 57.8 Ablation Study: 各モジュールおよび⼊⼒の性能への寄与を調査 並列クロスモーダル特徴抽出機構の有無
  38. o 条件(i) : 並列クロスモーダル特徴抽出機構を削除 →並列クロスモーダル特徴抽出機構の性能への寄与を確認 条件 𝑷 𝒙𝐢𝐦𝐠 CLIP Aggregate

    Composite Flickr8K Polaris (i) ✔ ✔ Max 39.3 41.0 51.4 (ii) ✔ ✔ Max 56.8 55.5 57.1 (iii) ✔ Max 55.0 53.2 55.4 (iv) ✔ ✔ ✔ Mean 55.1 55.4 52.1 提案手法 ✔ ✔ ✔ Max 57.6 56.4 57.8 - 41 - +18.3 Ablation Study: 並列クロスモーダル特徴抽出機構の性能への寄与を確認 並列クロスモーダル特徴抽出機構の有無
  39. - 42 - o 条件(ii) / (iii): CLIPの削除 および CLIPによる画像埋め込みを削除

    → 𝒙𝐢𝐦𝐠 およびCLIPの画像エンコーダの性能への寄与を確認 条件 𝑷 𝒙𝐢𝐦𝐠 CLIP Aggregate Composite Flickr8K Polaris (i) ✔ ✔ Max 39.3 41.0 51.4 (ii) ✔ ✔ Max 56.8 55.5 57.1 (iii) ✔ Max 55.0 53.2 55.4 (iv) ✔ ✔ ✔ Mean 55.1 55.4 52.1 提案手法 ✔ ✔ ✔ Max 57.6 56.4 57.8 Ablation Study: CLIPの画像エンコーダの性能への寄与を確認 +0.8 +3.2
  40. - 43 - o 条件(iv) : Aggregate関数をMax関数からMean関数へ変更 → Aggregate関数にはMax関数が最良であることを確認 条件

    𝑷 𝒙𝐢𝐦𝐠 CLIP Aggregate Composite Flickr8K Polaris (i) ✔ ✔ Max 39.3 41.0 51.4 (ii) ✔ ✔ Max 56.8 55.5 57.1 (iii) ✔ Max 55.0 53.2 55.4 (iv) ✔ ✔ ✔ Mean 55.1 55.4 52.1 提案手法 ✔ ✔ ✔ Max 57.6 56.4 57.8 Ablation Study: Aggregate関数にはMax関数が最良 +2.5
  41. o 画像キャプション⽣成における教師あり⾃動評価尺度 Polos を提案 o 新規性 1. 並列クロスモーダル特徴抽出機構 2. Polosを学習するフレームワーク

    M2LHF を提案 3. 550⼈から収集した131Kの⼈間による評価を 含む新たなデータセットPolarisを提案 まとめ: 画像キャプション⽣成における教師あり⾃動評価尺度 - 44 - 6つのベンチマークにおいてSOTA • Flickr8K-Expert • Flickr8K-CF • Composite • PASCAL50S • FOIL • Polaris
  42. - 45 - Polos: Multimodal Metric Learning from Human Feedback

    for Image Captioning Project Page: https://yuiga.dev/polos Project Page: Polos CVPR 2024 採択
  43. - 46 - 1. [Banerjee+, ACL05] Banerjee, S. and Lavie,

    A.: METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments, in IEEvaluation@ACL, pp. 65–72 (2005) 2. [Vedantam+, CVPR15] Vedantam, R., Zitnick, L., and Parikh, D.: CIDEr: Consensus-based Image Description Evaluation, in CVPR, pp. 4566–4575 (2015) 3. [Anderson+, ECCV16] Anderson, P., Fernando, B., et al.: SPICE: Se- mantic Propositional Image Caption Evaluation, in ECCV, pp. 382–398 (2016) 4. [Wada+, CoNLL23] Wada, Y., Kaneda, K., and Sugiura, K.: JaSPICE: Automatic Evaluation Metric Using Predicate-Argument Structures for Image Captioning Models, in CoNLL (2023) 5. [Zhang+, ICLR20] Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., and Artzi, Y.: BERTScore: Evaluating Text Generation with BERT, in ICLR (2020) 6. [Devlin+, NACCL19] Devlin, J., et al.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, NAACL- HLT, pp. 4171–4186 (2019) 7. [Hessel+, EMNLP21] Hessel, J., et al.: CLIPScore: A Reference-free Evaluation Metric for Image Captioning, in EMNLP, pp. 7514–7528 (2021) 8. [Kim+, NeurIPS22] Kim, J.-H., Kim, Y., Lee, J., Yoo, K. M., and Lee, S.- W.: Mutual information divergence: A unified metric for multimodal generative models, NeurIPS, Vol. 35, pp. 35072–35086 (2022) 9. [Lee+, ACL21] Lee, H., Yoon, S., Dernoncourt, F., and Jung, K.: UMIC: An Unreferenced Metric for Image Captioning via Con- trastive Learning, in ACL, pp. 220–226 (2021) 10. [Sarto+, CVPR23] Sarto, S., Barraco, M., Cornia, M., Baraldi, L., and Cucchiara, R.: Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation, in CVPR, pp. 6914– 6924 (2023) 11. [Chen+, ECCV20] Chen, Y.-C., Li, L., Yu, L., El Kholy, A., Ahmed, F., Gan, Z., Cheng, Y., and Liu, J.: UNITER: Universal image-text representation learning, in ECCV, pp. 104–120 (2020) 12. [Radford+, PMLR21] Radford, A., Kim, J. W., Hallacy, C., et al.: Learning transferable visual models from natural language supervi- sion, in ICML, pp. 8748–8763 (2021) 13. [Gao+, EMNLP21] Tianyu Gao, Xingcheng Yao, and Danqi Chen. SimCSE: Simple Contrastive Learning of Sentence Embeddings. In 737 EMNLP, pages 6894–6910, 2021. 14. [Rei+, EMNLP20] Rei, R., Stewart, C., Farinha, A. C., and Lavie, A.: COMET: A Neural Framework for MT Evaluation, in EMNLP, pp. 2685–2702 (2020) 15. [Sellam+, ACL20] Sellam, T., Das, D., and Parikh, A.: BLEURT: Learning Robust Metrics for Text Generation, in ACL, pp. 7881–7892 (2020) 参考⽂献