Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

【AIC】Image Captioningにおける自動評価の最前線

Avatar for Yuiga Wada (和田唯我) Yuiga Wada (和田唯我)
December 06, 2024
25

【AIC】Image Captioningにおける自動評価の最前線

Avatar for Yuiga Wada (和田唯我)

Yuiga Wada (和田唯我)

December 06, 2024
Tweet

More Decks by Yuiga Wada (和田唯我)

Transcript

  1. - 2 - o Image Captioning : 画像を説明するキャプションを⽣成 • 視覚障害者の補助

    [Gurari+, ECCV20] • 画像に関する対話⽣成 [White+, EMNLP21] • マルチモーダルLLM → 円滑なモデル改良のためには ⽣成⽂が適切に評価できるmetricsが必要 o Image captioningは様々な⽤途で 社会応⽤されている A man with a red umbrella is sitting on a bench. Image captioning における 実⽤的な metric 構築を⽬指す 背景 : Image captioningでは⽣成⽂の品質評価が重要
  2. - 4 - o METEOR [Banerjee+, ACL05] / CIDEr [Vedantam+,

    CVPR15] • 𝑛-gramに基づき正解⽂と⽣成⽂の類似度を計算 o SPICE [Anderson+, ECCV16] / JaSPICE [Wada+, CoNLL23] (acceptance rate = 28%) • 構⽂解析により構築したシーングラフから⽣成⽂を評価 JaSPICE [Wada+, CoNLL23] CIDErの算出⽅法 古典的なmetricsはルールベースで評価
  3. - 5 - o METEOR [Banerjee+, ACL05] / CIDEr [Vedantam+,

    CVPR15] • 𝑛-gramに基づき正解⽂と⽣成⽂の類似度を計算 o SPICE [Anderson+, ECCV16] / JaSPICE [Wada+, CoNLL23] • 構⽂解析により構築したシーングラフから⽣成⽂を評価 古典的なmetricsはルールベースで評価 JaSPICE [Wada+, CoNLL23] CIDErの算出⽅法 ルールベースのため性能に改善の余地あり
  4. - 6 - ⼿法 概要 BERTScore [Zhang+, ICLR20] BERT [Devlin+,

    NACCL19]の単語埋め込みから cosine類似度を計算 CLIPScore [Hessel+, EMNLP21] ⼤規模対照学習により事前学習されたCLIP [Radford+, PMLR21] の埋め込み表現よりcosine類似度を計算 MID [Kim+, NeurIPS22] CLIPの埋め込み表現からNegative Gaussian Cross- Mutual Informationを⽤いて類似度を計算 BERTScore CLIPScore Similarity-based metricsは 古典的⼿法(cosine類似度・最適輸送)により類似度を計算
  5. - 7 - ⼿法 概要 BERTScore [Zhang+, ICLR20] BERT [Devlin+,

    NACCL19]の単語埋め込みからcosine類似 度を計算 CLIPScore [Hessel+, EMNLP21] ⼤規模対照学習により事前学習されたCLIP [Radford+, PMLR21] の埋め込み表現よりcosine類似度を計算 MID [Kim+, NeurIPS22] CLIPの埋め込み表現からNegative Gaussian Cross- Mutual Informationを⽤いて類似度を計算 古典的⼿法(cosine類似度・最適輸送)により 類似度を計算するため,性能に改善の余地あり BERTScore CLIPScore Similarity-based metricsは 古典的⼿法(cosine類似度・最適輸送)により類似度を計算
  6. - 8 - UMIC PAC-S ⼿法 概要 UMIC [Lee+, ACL21]

    UNITER [Chen+, ECCV20]を⽤いてキャプション同⼠を⽐較 できるように学習 PAC-S [Sarto+, CVPR23] CLIPの学習データとimage captioningの評価データと の間のドメインギャップにデータ拡張を⽤いて対処. 既存のLearning-based metricsは 多様な画像およびテキストに対する汎化性能が低い
  7. - 9 - ⼿法 概要 UMIC [Lee+, ACL21] UNITER [Chen+,

    ECCV20]を⽤いてキャプション同⼠を⽐較 できるように学習 PAC-S [Sarto+, CVPR23] CLIPの学習データとimage captioningの評価データと の間のドメインギャップにデータ拡張を⽤いて対処. 多様な画像およびテキストに対する汎化性能が低い (例: UMICはopen vocabulary設定に対応できない) 既存のLearning-based metricsは 多様な画像およびテキストに対する汎化性能が低い 総じて,既存⼿法は⼈⼿評価との alignmentが取れていない → 教師あり学習に基づくmetricが有望
  8. - 10 - o Polos [Wada+, CVPR24 (Highlight)] o 新規性

    1. 並列クロスモーダル特徴抽出機構 2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 Supervised Metrics: Polos [Wada+, CVPR24 (Highlight)] Top 3.6% out of 11,532 submissions
  9. - 11 - o Polos [Wada+, CVPR24 (Highlight)] o 新規性

    1. 並列クロスモーダル特徴抽出機構 2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 CLIP/SimCSE [Gao+, EMNLP21]に基づき, ベクトル間の複雑な関係を学習 Supervised Metrics: Polos [Wada+, CVPR24 (Highlight)] Top 3.6% out of 11,532 submissions
  10. - 12 - o Polos [Wada+, CVPR24 (Highlight)] o 新規性

    1. 並列クロスモーダル特徴抽出機構 2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 Supervised Metrics: Polos [Wada+, CVPR24] 人間による評価を直接学習し より人間に近い評価を出力 M2LHF: Multimodal Metric Learning from Human Feedback
  11. - 13 - o Polos [Wada+, CVPR24 (Highlight)] o 新規性

    1. 並列クロスモーダル特徴抽出機構 2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 Supervised Metrics: Polos [Wada+, CVPR24] 550⼈から収集した13万の ⼈間による評価を含む
  12. - 14 - o Polos [Wada+, CVPR24 (Highlight)] o 新規性

    1. 並列クロスモーダル特徴抽出機構 2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 下記のベンチマークにおいてSOTA • Flickr8K-Expert • Flickr8K-CF • Composite • PASCAL50S • FOIL • Polaris Supervised Metrics: Polos [Wada+, CVPR24 (Highlight)] Top 3.6% out of 11,532 submissions
  13. - 15 - o Image Captioningでは “ハルシネーション”が度々発⽣ • MLLM開発 →

    ハルシネーションを適切に評価可能な⾃動評価尺度が必要 o DENEB [Matsuda, Wada, et al, ACCV24] • Hallucination-Robustな⾃動評価尺度 Supervised Metrics: DENEB [Matsuda, Wada, et al., ACCV24] "a black and white dog sits near a window looking outside." (Acceptance rate = 32%) MLLM
  14. - 16 - o DENEB [Matsuda, Wada, et al, ACCV24]

    • 耐ハルシネーション性能においてSOTA o 何を⽬指すのか • ⼈間の評価同⼠の相関は0.7程度 • Superhumanの評価尺度が出現しそう • Superhuman評価尺度ができると世界はどう変わる? • ⼈⼿評価が不要に。 • MLLM開発においてDPO等が⾃然にできるようになる Supervised Metrics: DENEB [Matsuda, Wada, et al., ACCV24] (Acceptance rate = 32%) FOIL 1-ref [Acc] CLIP-S [EMNLP21] 87.2 RefPAC-S [CVPR23] 93.7 Polos [CVPR24] 93.2 95.4 +1.7
  15. - 17 - o 既存⼿法 [Wada+, CoNLL23] [Sarto+, CVPR23]の問題点 •

    ⼈⼿評価との alignmentが取れていない → 教師ありmetricの提案 [Wada+, CVPR24], [Matsuda, Wada et al., ACCV24] o 何を⽬指すのか • ⼈間の評価同⼠の相関は0.7程度 • そろそろSuperhumanの評価尺度が出現する • Superhuman評価尺度ができると世界はどう変わる? • ⼈⼿評価が不要に。 • MLLM開発においてDPO等が⾃然にできるようになる まとめ
  16. Ranking modelの問題点 - 19 - o UMICはキャプション同⼠のrankingを⾏う • Ranking modelが⽐較できないものが存在

    • 主観的表現 • 焦点の違ったキャプション → ⽐較するのはナンセンス o どちらも正しいキャプション (焦点の違い) • 「電線に信号機がぶら下がっている」 • 「⻘空の下で⾞が通りを⾛っている」
  17. o 画像キャプション⽣成における教師あり⾃動評価尺度 Polos を提案 o 約13万サンプルの⼈間による評価 (世界最⼤の10倍) で構成されたPolarisを構築 o ベクトル間の複雑な関係を学習する提案尺度は様々なベンチマークで世界最⾼性能

    o ソフトウェア・データセット公開済み→ https://yuiga.dev/polos 画像キャプション⽣成における教師あり⾃動評価尺度 - 20 - 6つのベンチマークにおいてSOTA • Flickr8K-Expert • Flickr8K-CF • Composite • PASCAL50S • FOIL • Polaris CVPR 2024 採択
  18. - 21 - o 画像キャプション⽣成: 画像を説明するキャプションを⽣成 • 視覚障害者の補助 [Gurari+, ECCV20]

    • 画像に関する対話⽣成 [White+, EMNLP21] • 画像に基づく質問応答 [Fisch+, EMNLP20] o 様々な⽤途で社会応⽤ L 既存の⾃動評価尺度は⼈間による評価との 相関係数が低い [Wada+, CoNLL23] [Sarto+, CVPR23] A person with a red umbrella is sitting on a bench. 円滑なモデル改良には適切な評価が できる実⽤的な⾃動評価尺度が望まれる 背景 : 画像キャプション⽣成では⽣成⽂の品質評価が重要
  19. - 22 - o ⼊⼒: ⽣成⽂𝒙!"#$ , 参照⽂ 𝒙 !"#

    (%) %'( ) , および 画像 𝑥%&' o 出⼒: 参照⽂および画像に対して,⽣成⽂𝒙!"#$ が適切であるかの評価値 o 性能の検証: ⼈間による評価との相関係数 (Kendall’s 𝜏) 問題設定 : 画像キャプション⽣成に対する⾃動評価 Image Captioning Model 𝒙 !"# (%) %'( ) 𝒙*+,- 評価値 ⼈間による評価 相関係数により 性能を検証 𝒙*+, 提案⼿法
  20. - 23 - o 提案⼿法: Polos o 新規性 1. 並列クロスモーダル特徴抽出機構

    2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 提案⼿法: 画像キャプション⽣成における教師あり⾃動評価尺度
  21. - 24 - o 提案⼿法: Polos o 新規性 1. 並列クロスモーダル特徴抽出機構

    2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 提案⼿法: 画像キャプション⽣成における教師あり⾃動評価尺度 CLIP/SimCSE [Gao+, EMNLP21]に基づき, ベクトル間の複雑な関係を学習
  22. - 25 - o 提案⼿法: Polos o 新規性 1. 並列クロスモーダル特徴抽出機構

    2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 提案⼿法: 画像キャプション⽣成における教師あり⾃動評価尺度 人間による評価を直接学習し より人間に近い評価を出力 M2LHF: Multimodal Metric Learning from Human Feedback
  23. - 26 - o 提案⼿法: Polos o 新規性 1. 並列クロスモーダル特徴抽出機構

    2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 提案⼿法: 画像キャプション⽣成における教師あり⾃動評価尺度 550⼈から収集した13万の ⼈間による評価を含む
  24. o CLIPのエンコーダより特徴量を抽出 • 𝑥!"# の画像埋め込み • 𝑥$%&' , 𝑥 ()*

    (,) の⽂埋め込み o SimCSEで学習されたRoBERTaより抽出 • 𝑥$%&' , 𝑥 ()* (,) の⽂埋め込み - 27 - 提案⼿法: 画像キャプション⽣成における教師あり⾃動評価尺度 • CLIPはウェブから収集したalt-textで事前学習 →⾼品質な⽂埋め込みを⽣成できないことを指摘 先⾏研究: [Sarto+, CVPR23] → SimCSEで事前学習された RoBERTaを使⽤
  25. - 28 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+

    (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る
  26. - 29 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+

    (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る 機械翻訳における⾃動評価尺度である COMET [Rei+, EMNLP20] にて有効性が検証
  27. - 30 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+

    (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る 機械翻訳における⾃動評価尺度である COMET [Rei+, EMNLP20] にて有効性が検証
  28. - 31 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+

    (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る
  29. - 32 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+

    (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る
  30. - 33 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+

    (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る
  31. - 34 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+

    (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る
  32. o 並列クロスモーダル特徴抽出機構 • ⼀般的なデータセット: 複数の参照⽂が付与されている • 𝑖 番⽬の参照⽂に対する をスカラ値 へ変換

    • Aggregate関数としてMax関数を採⽤ → Ablation studyを実施 • ⼈間による評価とyから損失を計算し,⼈間に近い評価を学習 - 35 - Aggregate関数により複数の参照⽂に対するスコアを集約
  33. - 36 - o クラウドソーシングサービス により評価を収集 • アノテータ : 550⼈

    • 131,020 サンプル収集 o 与えられた 1 枚の画像と, 対応するキャプションの組に 対してキャプションの適切さ を 5 段階で評価 o アノテータは以下を考慮 • Fluency • Relevance • Descriptiveness Polaris データセット: アノテータ550⼈から約13万サンプル収集
  34. o 18個の⾃動評価尺度・6個のベンチマークにおいて⽐較 (以下⼀部抜粋) J 現時点でのSOTA尺度 RefPAC-S [Sarto+, CVPR23] を上回る良好な結果 -

    37 - 定量結果: 提案尺度がComposite, Flickr8K, PolarisにおいてSOTA Composite Flickr8K (Expert) Flickr8K(CF) Polaris MID 55.7 54.9 37.3 51.3 PAC-S 55.7 54.3 36.0 52.5 UMIC 56.1 46.8 30.1 56.0 RefPAC-S 57.3 55.9 37.6 56.0 Polos 57.6 56.4 37.8 57.8 +0.3 +0.5 +0.2 +1.8
  35. o ⽣成⽂: “a bunch of bananas are hanging on a

    tree.” o 参照⽂: ”A framed picture of a bunch of bananas.” - 38 - 定性結果: 既存⼿法と⽐べて良好な結果 • ⼈間による評価: 0.450 • Polos: 0.513 J 提案⼿法は適切に評価 • RefPAC-S: 0.825 L RefPAC-Sは過⼤評価 “hanging on a tree”は画像からは誤り.
  36. - 39 - 定性結果: 既存⼿法と⽐べて良好な結果 “cat”, “blue blanket”等の深刻な誤りを含む o ⽣成⽂:

    “a black and white cat sleeping on a blue blanket.” o 参照⽂: ”A cute little dog biting on something a person is holding.” • ⼈間による評価: 0.071 • Polos: 0.173 J 提案⼿法は⽐較的適切に評価 • RefPAC-S: 0.903 L RefPAC-Sは過⼤評価
  37. - 40 - o 𝑃 : 並列クロスモーダル特徴抽出機構の有無 o 𝑥%&' :

    画像特徴量の有無 条件 𝑷 𝒙𝐢𝐦𝐠 CLIP Aggregate Composite Flickr8K Polaris (i) ✔ ✔ Max 39.3 41.0 51.4 (ii) ✔ ✔ Max 56.8 55.5 57.1 (iii) ✔ Max 55.0 53.2 55.4 (iv) ✔ ✔ ✔ Mean 55.1 55.4 52.1 提案手法 ✔ ✔ ✔ Max 57.6 56.4 57.8 Ablation Study: 各モジュールおよび⼊⼒の性能への寄与を調査 並列クロスモーダル特徴抽出機構の有無
  38. o 条件(i) : 並列クロスモーダル特徴抽出機構を削除 →並列クロスモーダル特徴抽出機構の性能への寄与を確認 条件 𝑷 𝒙𝐢𝐦𝐠 CLIP Aggregate

    Composite Flickr8K Polaris (i) ✔ ✔ Max 39.3 41.0 51.4 (ii) ✔ ✔ Max 56.8 55.5 57.1 (iii) ✔ Max 55.0 53.2 55.4 (iv) ✔ ✔ ✔ Mean 55.1 55.4 52.1 提案手法 ✔ ✔ ✔ Max 57.6 56.4 57.8 - 41 - +18.3 Ablation Study: 並列クロスモーダル特徴抽出機構の性能への寄与を確認 並列クロスモーダル特徴抽出機構の有無
  39. - 42 - o 条件(ii) / (iii): CLIPの削除 および CLIPによる画像埋め込みを削除

    → 𝒙𝐢𝐦𝐠 およびCLIPの画像エンコーダの性能への寄与を確認 条件 𝑷 𝒙𝐢𝐦𝐠 CLIP Aggregate Composite Flickr8K Polaris (i) ✔ ✔ Max 39.3 41.0 51.4 (ii) ✔ ✔ Max 56.8 55.5 57.1 (iii) ✔ Max 55.0 53.2 55.4 (iv) ✔ ✔ ✔ Mean 55.1 55.4 52.1 提案手法 ✔ ✔ ✔ Max 57.6 56.4 57.8 Ablation Study: CLIPの画像エンコーダの性能への寄与を確認 +0.8 +3.2
  40. - 43 - o 条件(iv) : Aggregate関数をMax関数からMean関数へ変更 → Aggregate関数にはMax関数が最良であることを確認 条件

    𝑷 𝒙𝐢𝐦𝐠 CLIP Aggregate Composite Flickr8K Polaris (i) ✔ ✔ Max 39.3 41.0 51.4 (ii) ✔ ✔ Max 56.8 55.5 57.1 (iii) ✔ Max 55.0 53.2 55.4 (iv) ✔ ✔ ✔ Mean 55.1 55.4 52.1 提案手法 ✔ ✔ ✔ Max 57.6 56.4 57.8 Ablation Study: Aggregate関数にはMax関数が最良 +2.5
  41. o 画像キャプション⽣成における教師あり⾃動評価尺度 Polos を提案 o 新規性 1. 並列クロスモーダル特徴抽出機構 2. Polosを学習するフレームワーク

    M2LHF を提案 3. 550⼈から収集した131Kの⼈間による評価を 含む新たなデータセットPolarisを提案 まとめ: 画像キャプション⽣成における教師あり⾃動評価尺度 - 44 - 6つのベンチマークにおいてSOTA • Flickr8K-Expert • Flickr8K-CF • Composite • PASCAL50S • FOIL • Polaris
  42. - 45 - Polos: Multimodal Metric Learning from Human Feedback

    for Image Captioning Project Page: https://yuiga.dev/polos Project Page: Polos CVPR 2024 採択
  43. - 46 - 1. [Banerjee+, ACL05] Banerjee, S. and Lavie,

    A.: METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments, in IEEvaluation@ACL, pp. 65–72 (2005) 2. [Vedantam+, CVPR15] Vedantam, R., Zitnick, L., and Parikh, D.: CIDEr: Consensus-based Image Description Evaluation, in CVPR, pp. 4566–4575 (2015) 3. [Anderson+, ECCV16] Anderson, P., Fernando, B., et al.: SPICE: Se- mantic Propositional Image Caption Evaluation, in ECCV, pp. 382–398 (2016) 4. [Wada+, CoNLL23] Wada, Y., Kaneda, K., and Sugiura, K.: JaSPICE: Automatic Evaluation Metric Using Predicate-Argument Structures for Image Captioning Models, in CoNLL (2023) 5. [Zhang+, ICLR20] Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., and Artzi, Y.: BERTScore: Evaluating Text Generation with BERT, in ICLR (2020) 6. [Devlin+, NACCL19] Devlin, J., et al.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, NAACL- HLT, pp. 4171–4186 (2019) 7. [Hessel+, EMNLP21] Hessel, J., et al.: CLIPScore: A Reference-free Evaluation Metric for Image Captioning, in EMNLP, pp. 7514–7528 (2021) 8. [Kim+, NeurIPS22] Kim, J.-H., Kim, Y., Lee, J., Yoo, K. M., and Lee, S.- W.: Mutual information divergence: A unified metric for multimodal generative models, NeurIPS, Vol. 35, pp. 35072–35086 (2022) 9. [Lee+, ACL21] Lee, H., Yoon, S., Dernoncourt, F., and Jung, K.: UMIC: An Unreferenced Metric for Image Captioning via Con- trastive Learning, in ACL, pp. 220–226 (2021) 10. [Sarto+, CVPR23] Sarto, S., Barraco, M., Cornia, M., Baraldi, L., and Cucchiara, R.: Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation, in CVPR, pp. 6914– 6924 (2023) 11. [Chen+, ECCV20] Chen, Y.-C., Li, L., Yu, L., El Kholy, A., Ahmed, F., Gan, Z., Cheng, Y., and Liu, J.: UNITER: Universal image-text representation learning, in ECCV, pp. 104–120 (2020) 12. [Radford+, PMLR21] Radford, A., Kim, J. W., Hallacy, C., et al.: Learning transferable visual models from natural language supervi- sion, in ICML, pp. 8748–8763 (2021) 13. [Gao+, EMNLP21] Tianyu Gao, Xingcheng Yao, and Danqi Chen. SimCSE: Simple Contrastive Learning of Sentence Embeddings. In 737 EMNLP, pages 6894–6910, 2021. 14. [Rei+, EMNLP20] Rei, R., Stewart, C., Farinha, A. C., and Lavie, A.: COMET: A Neural Framework for MT Evaluation, in EMNLP, pp. 2685–2702 (2020) 15. [Sellam+, ACL20] Sellam, T., Das, D., and Parikh, A.: BLEURT: Learning Robust Metrics for Text Generation, in ACL, pp. 7881–7892 (2020) 参考⽂献