論文紹介：TISE: Bag of Metrics for Text-to-Image Synthesis Evaluation (ECCV2022)

TISE: Bag of Metrics for Text- to-Image Synthesis Evaluation 2022.12.14
品川政太朗 (NAIST) ECCV2022 論文紹介

どんな論文？テキストからの画像生成の新しい評価指標TISEを提案ポイント：従来の評価指標の問題点を指摘して改善した • Inception Score (IS)をcalibrationにより改善 • R-precision
(RP) と Semantic Object Accuracy (SOA)の過学習問題を改善→付録で説明 • これまであまりやられてこなかった、多物体生成についての忠実度や、位置、数の評価の提案 • 以上の改善を行った混合評価指標ＴＩＳＥをランキングに使うと人間の評価と一貫する（今まではあまりしていなかった）書誌情報： TISE: Bag of Metrics for Text-to-Image Synthesis Evaluation (ECCV2022) Tan M. Dinh, Rang Nguyen, Binh-Son Hua コード： https://github.com/VinAIResearch/tise-toolbox 2/25

その他の参考情報単一物体生成と多物体生成を得意とするAttnGAN++という手法も提案している • AttnGAN++はAttnGANにspectral normalizationを入れた手法（論文のsupplementaryを参照）比較はGANベースの手法がメイン • 最近のDiffusion
modelについては未着手 TISEはランキング指標であり、複数の手法間でのランクづけ（相対評価）を前提とする点に注意 3/25

TISE ranking score (RS) TISEによるランキング指標(RS)は以下の評価指標のランキングにより計算 • IS*: 改良版Inception Score
(IS) • FID：Frechet Inception Distance • O-IS：Object-centric IS • O-FID： Object-centric FID • PA：Positional Alignment • CA：Counting Alignment • RP：R-precision （#は各指標のランキング指標という意味）比較手法がN個ある時、 1番はN点、2番はN-1点という計算 4/25

IS*: 改良版Inception Score (IS) calibrationによりISの予測の偏りを修正した calibrationとは、確信度(confidence)とaccuracyを合わせること • ここで確信度とは予測確率のこと • 例：予測確率＝0.7なら正解率も0.7（3割間違う）ようにする
CUB datasetのISの偏りの修正(図3より引用) accuracy>confidence (under-confident) 5/25

IS*ではcalibrationにtemperature scalingを利用 temperature scaling [Guo+,2017] [Guo+,2017] Guo, C., Pleiss, G.,
Sun, Y., Weinberger, K.Q.: On calibration of modern neural networks. arXiv preprint arXiv:1706.04599 (2017) 𝜎 ⋅ ソフトマックス関数 𝑧：logit 𝑇：温度パラメータ 𝑘：クラスラベル負の対数尤度を目的関数として、validation setを用いて𝑇を最適化 CUBについては、T = 0.598 （分布を急峻にしてconfidenceを底上げ） →ISのunder-confidentが改善 6/25

O-IS：Object-centric IS O-FID： Object-centric FID 物体検出器による検出領域を一枚の画像として扱い、ISとFIDを計算物体検出器： • MSCOCOで事前訓練したMask- RCNNを利用
ISとFIDの計算： • Inception-v3をMSCOCOの物体領域の矩形画像のデータセットでfine- tuningして使う物体検出 (Mask-RCNN) IS, FID計算 (Inception-v3) 7/25

PA：Positional Alignment 説明文中の位置情報が生成画像に反映されているかを評価 𝑊 = {above, right, far, outside, between,
below, on top of, bottom, left, inside, in front of, behind, on, near, under } 1. 位置に関する単語集合を用意 2. 評価データセット中の単語𝑤 ∈ 𝑊を含む説明文の集合𝑃𝑤 から、以下のTripletを作成 𝑃𝑤𝑖 ："A man is in front of the blue car" 𝑄𝑤𝑖: "A man is behind the blue car" 𝐷𝑤 = 𝑅𝑤𝑖 , 𝑃𝑤𝑖 , 𝑄𝑤𝑖 𝑖=1 𝑁𝑤 𝑅𝑤𝑖 ：生成画像 𝑃𝑤𝑖 ：正例の説明文 𝑄𝑤𝑖 ：負例の説明文 𝑁𝑤 ：𝑃𝑤 のサンプルサイズ負例𝑄𝑤𝑖 は、𝑃𝑤𝑖 中の𝑤を対義語に置き換えて作成 8/25

PA：Positional Alignment 3. CLIPで画像𝑅𝑤𝑖 と説明文𝑃𝑤𝑖 , 𝑄𝑤𝑖 との類似度を計算 4. 𝑃𝑤𝑖
による類似度が高かった回数𝑘𝑤 を計算して単語𝑤ごとに成功率𝑘𝑤 /𝑁𝑤 を算出 5. 上記を全ての単語𝑤 ∈ 𝑊について平均してPAを得る 9/25

CA：Counting Alignment 1. MSCOCOのvalidation dataset中の説明文で数量情報 (a, one, two, threeなど)を含む説明文を選別する ”A
group of seven people having a light meal and discussion at a single large table” {”person”: 7.0, ”dining table”: 1.0} 説明文中の数量情報をラベル付けして、生成画像の数量の反映度合を評価 2. 数量のラベル付けを行う(カウント可能なもののみ事前に定義) 1000サンプルに付与ラベル付けの例 10/25

CA：Counting Alignment [Cholakkal+,2019] Cholakkal, H., Sun, G., Khan, F.S., Shao,
L.: Object counting and instance segmentation with image-level supervision. In: CVPR (2019) 3. 生成画像の物体のカウントを行う • object counting model [Cholakkal+,2019] を利用 4. 操作2.で得た正解の物体カウント数と操作3.で得た予測の物体カウント数をRMSEで比較したサンプル平均でCAを得る Ƹ 𝑐𝑖𝑗 ：物体カウント数（正解） 𝑐𝑖𝑗 ：物体カウント数（予測） 11/25

人手評価の実験設定 MSCOCOのtest setから50の説明文をサンプル 1名あたり、1手法あたり生成画像50枚を評価 • 実験参加者：40名 • 手法:5つ評価方法：妥当性と自然性を総合的に5段階で評価 •
妥当性(plausibility)は物体の存在、数量、位置、テキストの反映度合を総合的に評価 • 自然性は生成画像の画像としての自然さ 12/25

人手評価の実験結果 RSと人手評価の比較（表5より引用）提案手法であるTISEによるランキングスコア(RS)は、人手評価と大小関係が一貫している • RSの計算：比較手法がN個ある時、1番はN点、2番はN-1点... • 比較手法が5つのとき、TISEの最低点は6点、最高点は30点 • Real
Imagesが35点なのは謎・・・ 13/25

各評価指標ごとの比較結果実画像(Real Images)の評価はIS*を除いて最上位のスコアになった →実画像よりも良くなってしまっている指標は良くない（IS*もまだダメ寄りということ） AttnGAN++は結構負けてる気がするが、 RSでは一位になっている・・・？ 14/25

Method IS* (uarr) FID (darr) RP(uarr) SOA-C (uarr)SOA-I (uarr) O-IS
(uarr) O-FID (darr) CA (darr) PA (uarr) RS (uarr) GAN-CLS [29] 10 10 9 10 10 10 10 10 10 10 StackGAN [44] 9 8 10 9 9 9 9 9 9 9 AttnGAN [40] 6 6 6 6 5 6 7 5 8 7 DM-GAN [46] 4 5 4 4 4 3 4 3 6 4 CPGAN [17] 1 7 3 1 1 1 6 7 5 3 DF-GAN [36] 7 1 8 7 7 4 1 6 7 6 AttnGAN + CL [41] 5 4 5 5 6 7 5 4 4 5 DM-GAN + CL [41] 3 2 2 3 3 5 3 2 1 2 DALLE-mini (zero-shot) [3] 8 9 7 8 8 8 8 8 3 8 AttnGAN++ (Ours) 2 3 1 2 2 2 2 1 2 1 手元で順位表示に直してみた結果 • AttnGAN++は2位が多いので最終的に一位になっている • CPGANは1位も多いが、FID、O-FIDとCA、PAの順位が低い 15/25

まとめ • テキストからの画像生成の新しい評価指標TISEを提案 • TISEは複数の評価指標による評価指標（bag of metrics） • TISEは複数の手法同士の相対的な順位付けにより計算する所感
• 異なる指標を順位で総合的に評価するのは良い方針だと思う • Positional AlignmentはPromptのちょっとした工夫で実現していて面白い。ただ、CLIPは位置関係には弱いのでは？fine-tuningをあえてしない理由があったのか少し気になる • O-ISやO-FIDは、物体検出器さえどうにかできれば他のドメインの画像にも応用が利きそう？ • Diffusion modelを評価するとどうなるかは気になるところ • 不満な点として、今回の研究ストーリー的に、各評価指標が人間の主観評価とどう相関するのか詳しく見たいと思った。追試して検討する余地が多そう・・・ 16/25

以下、付録 17/25

Semantic Object Accuracy (SOA) [Hinz+,2019] 入力テキスト中で言及された物体が生成画像に含まれるかを評価 • SOA-I (average recall
between images) • SOA-C (average recall between classes) • 𝐼𝑐 ：カテゴリ𝑐に属する画像 • Object − Detector 𝑖𝑐 ∈ 0,1 [Hinz+,2019] Hinz, T., Heinrich, S., Wermter, S.: Semantic object accuracy for generative text-to-image synthesis. arXiv preprint arXiv:1910.13321 (2019) 18/25

• CPGANで使われていたSOAのYOLO-v3は過学習している恐れ（実画像よりも生成画像の方がスコアが高い点から） • YOLO-v3の代わりにMask-RCNNを利用 SOAの過学習問題の解決 SOAの比較 (supplementary material 表2より引用)
Real Images を超えてる点で不自然 19/25

Inception Score (IS) 𝑐𝑙𝑎𝑠𝑠 𝑦 𝑝 𝑦|𝑥 𝑦1 𝑦2 𝑦3
𝑦4 𝑝 𝑦|𝑥1 𝑝 𝑦|𝑥2 𝑝 𝑦|𝑥3 𝑝 𝑦 log 𝐼𝑆 = 1 𝑁 ቄ ቅ 𝐾𝐿 𝑝 𝑦|𝑥1 || 𝑝 𝑦 + 𝐾𝐿 𝑝 𝑦|𝑥2 || 𝑝 𝑦 + 𝐾𝐿 𝑝 𝑦|𝑥3 || 𝑝 𝑦 + ⋯ 品質と多様性を同時に評価する尺度。学習済み画像認識モデルにおける予測クラス分布𝑝(𝑦|𝑥)と周辺分布𝑝(𝑦)の間のKLの期待値（高いほど良い）各サンプル𝑥について、 • 𝑝(𝑦|𝑥)がとがっているほどISは大きくなる（識別しやすさ≒品質） • 𝑝(𝑦)が滑らかで偏っていないほどISは大きくなる（多様性） 20/25

ISについての議論 • サンプル集合による評価（𝑝(𝑦)が仮定できればサンプルごとに評価可能？） • 性能は学習済みモデルに依存 • ISはFIDに比べるとハックされやすい 21/25

Frechet Inception Distance (FID) 𝝁 ∶ ℎの分布の平均 𝚺 ∶ ℎの分布の共分散行列
品質を評価する尺度。学習済み画像認識モデルにより実画像と生成画像の特徴量の統計量（平均と分散）の距離によって算出する 22/25

FIDについての議論 • サンプル集合による統計的な評価 • 性能は学習済みモデルに依存 • ISと違って実画像を使って評価している • とはいっても、統計量を使っているので参照画像があるわけではない
• 用意されている統計量を使う場合は結局ブラックボックスなのでISと五十歩百歩感はありそう • リサイズの実装によってスコアに影響があると一時期話題に • 現在は解決されている（はず） • 詳細はclean-fid https://github.com/GaParmar/clean-fid 23/25

R-precision (RP) [Xu+,2018] テキストからの画像生成における生成画像の一貫性を評価 (もともとは情報検索で使われている指標) 1. 画像とテキストの埋め込みのコサイン類似度でランキング 2. top
R個 (R=1)を選択したときの、R個中の正解アイテム数rの割合がRP=r/R • クエリ（画像）に対して正解となるアイテム（テキスト）がR個あるとする • アイテムの数は任意、ここでは100個うち1個が正解(R=1)で残りはランダムな負例 [Xu+,2018] AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks (CVPR2018) ? つまり、Recall@1です 24/25

RPの過学習問題の解決 • RPの計算に使われていたDAMSM encoder [Xu,2018]は MSCOCOに過学習している恐れ（実画像よりも生成画像の方がスコアが高い点から） • DAMSM encoderの代わりにCLIPを利用
SOAの比較 (supplementary material 表2より引用) Real Images を超えてる点で不自然 25/25

論文紹介：TISE: Bag of Metrics for Text-to-Image Syn...

論文紹介：TISE: Bag of Metrics for Text-to-Image Synthesis Evaluation (ECCV2022)

Seitaro Shinagawa

More Decks by Seitaro Shinagawa

Other Decks in Technology

Featured

Transcript

TISE: Bag of Metrics for Text- to-Image Synthesis Evaluation 2022.12.14

どんな論文？テキストからの画像生成の新しい評価指標TISEを提案ポイント：従来の評価指標の問題点を指摘して改善した • Inception Score (IS)をcalibrationにより改善 • R-precision

その他の参考情報単一物体生成と多物体生成を得意とするAttnGAN++という手法も提案している • AttnGAN++はAttnGANにspectral normalizationを入れた手法（論文のsupplementaryを参照）比較はGANベースの手法がメイン • 最近のDiffusion

TISE ranking score (RS) TISEによるランキング指標(RS)は以下の評価指標のランキングにより計算 • IS*: 改良版Inception Score

IS*: 改良版Inception Score (IS) calibrationによりISの予測の偏りを修正した calibrationとは、確信度(confidence)とaccuracyを合わせること • ここで確信度とは予測確率のこと • 例：予測確率＝0.7なら正解率も0.7（3割間違う）ようにする

IS*ではcalibrationにtemperature scalingを利用 temperature scaling [Guo+,2017] [Guo+,2017] Guo, C., Pleiss, G.,

O-IS：Object-centric IS O-FID： Object-centric FID 物体検出器による検出領域を一枚の画像として扱い、ISとFIDを計算物体検出器： • MSCOCOで事前訓練したMask- RCNNを利用

PA：Positional Alignment 説明文中の位置情報が生成画像に反映されているかを評価 𝑊 = {above, right, far, outside, between,

PA：Positional Alignment 3. CLIPで画像𝑅𝑤𝑖 と説明文𝑃𝑤𝑖 , 𝑄𝑤𝑖 との類似度を計算 4. 𝑃𝑤𝑖

CA：Counting Alignment 1. MSCOCOのvalidation dataset中の説明文で数量情報 (a, one, two, threeなど)を含む説明文を選別する ”A

CA：Counting Alignment [Cholakkal+,2019] Cholakkal, H., Sun, G., Khan, F.S., Shao,

人手評価の実験設定 MSCOCOのtest setから50の説明文をサンプル 1名あたり、1手法あたり生成画像50枚を評価 • 実験参加者：40名 • 手法:5つ評価方法：妥当性と自然性を総合的に5段階で評価 •

Method IS* (uarr) FID (darr) RP(uarr) SOA-C (uarr)SOA-I (uarr) O-IS

まとめ • テキストからの画像生成の新しい評価指標TISEを提案 • TISEは複数の評価指標による評価指標（bag of metrics） • TISEは複数の手法同士の相対的な順位付けにより計算する所感

以下、付録 17/25

Semantic Object Accuracy (SOA) [Hinz+,2019] 入力テキスト中で言及された物体が生成画像に含まれるかを評価 • SOA-I (average recall

• CPGANで使われていたSOAのYOLO-v3は過学習している恐れ（実画像よりも生成画像の方がスコアが高い点から） • YOLO-v3の代わりにMask-RCNNを利用 SOAの過学習問題の解決 SOAの比較 (supplementary material 表2より引用)

Inception Score (IS) 𝑐𝑙𝑎𝑠𝑠 𝑦 𝑝 𝑦|𝑥 𝑦1 𝑦2 𝑦3

ISについての議論 • サンプル集合による評価（𝑝(𝑦)が仮定できればサンプルごとに評価可能？） • 性能は学習済みモデルに依存 • ISはFIDに比べるとハックされやすい 21/25

Frechet Inception Distance (FID) 𝝁 ∶ ℎの分布の平均 𝚺 ∶ ℎの分布の共分散行列

FIDについての議論 • サンプル集合による統計的な評価 • 性能は学習済みモデルに依存 • ISと違って実画像を使って評価している • とはいっても、統計量を使っているので参照画像があるわけではない

R-precision (RP) [Xu+,2018] テキストからの画像生成における生成画像の一貫性を評価 (もともとは情報検索で使われている指標) 1. 画像とテキストの埋め込みのコサイン類似度でランキング 2. top

RPの過学習問題の解決 • RPの計算に使われていたDAMSM encoder [Xu,2018]は MSCOCOに過学習している恐れ（実画像よりも生成画像の方がスコアが高い点から） • DAMSM encoderの代わりにCLIPを利用