Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:TISE: Bag of Metrics for Text-to-Image Syn...

論文紹介:TISE: Bag of Metrics for Text-to-Image Synthesis Evaluation (ECCV2022)

TISE: Bag of Metrics for Text-to-Image Synthesis Evaluation (ECCV2022)という論文を読んだのをまとめた資料です。

論文:https://www.ecva.net//papers/eccv_2022/papers_ECCV/html/5685_ECCV_2022_paper.php
コード:https://github.com/VinAIResearch/tise-toolbox

Seitaro Shinagawa

December 14, 2022
Tweet

More Decks by Seitaro Shinagawa

Other Decks in Technology

Transcript

  1. TISE: Bag of Metrics for Text- to-Image Synthesis Evaluation 2022.12.14

    品川 政太朗 (NAIST) ECCV2022 論文紹介
  2. どんな論文? テキストからの画像生成の新しい評価指標TISEを提案 ポイント: 従来の評価指標の問題点を指摘して改善した • Inception Score (IS)をcalibrationにより改善 • R-precision

    (RP) と Semantic Object Accuracy (SOA)の過学 習問題を改善→付録で説明 • これまであまりやられてこなかった、多物体生成についての忠 実度や、位置、数の評価の提案 • 以上の改善を行った混合評価指標TISEをランキングに使うと 人間の評価と一貫する(今まではあまりしていなかった) 書誌情報: TISE: Bag of Metrics for Text-to-Image Synthesis Evaluation (ECCV2022) Tan M. Dinh, Rang Nguyen, Binh-Son Hua コード: https://github.com/VinAIResearch/tise-toolbox 2/25
  3. TISE ranking score (RS) TISEによるランキング指標(RS)は以下の評価指標のランキン グにより計算 • IS*: 改良版Inception Score

    (IS) • FID:Frechet Inception Distance • O-IS:Object-centric IS • O-FID: Object-centric FID • PA:Positional Alignment • CA:Counting Alignment • RP:R-precision (#は各指標のランキング指標という意味) 比較手法がN個ある時、 1番はN点、2番はN-1点 という計算 4/25
  4. IS*ではcalibrationにtemperature scalingを利用 temperature scaling [Guo+,2017] [Guo+,2017] Guo, C., Pleiss, G.,

    Sun, Y., Weinberger, K.Q.: On calibration of modern neural networks. arXiv preprint arXiv:1706.04599 (2017) 𝜎 ⋅ ソフトマックス関数 𝑧:logit 𝑇:温度パラメータ 𝑘:クラスラベル 負の対数尤度を目的関数として、validation setを用いて𝑇を最適化 CUBについては、T = 0.598 (分布を急峻にしてconfidenceを底 上げ) →ISのunder-confidentが改善 6/25
  5. O-IS:Object-centric IS O-FID: Object-centric FID 物体検出器による検出領域を一枚の画像として扱い、ISとFIDを計算 物体検出器: • MSCOCOで事前訓練したMask- RCNNを利用

    ISとFIDの計算: • Inception-v3をMSCOCOの物体領域 の矩形画像のデータセットでfine- tuningして使う 物体検出 (Mask-RCNN) IS, FID計算 (Inception-v3) 7/25
  6. PA:Positional Alignment 説明文中の位置情報が生成画像に反映されているかを評価 𝑊 = {above, right, far, outside, between,

    below, on top of, bottom, left, inside, in front of, behind, on, near, under } 1. 位置に関する単語集合を用意 2. 評価データセット中の単語𝑤 ∈ 𝑊を含む説明文の集合𝑃𝑤 か ら、以下のTripletを作成 𝑃𝑤𝑖 :"A man is in front of the blue car" 𝑄𝑤𝑖: "A man is behind the blue car" 𝐷𝑤 = 𝑅𝑤𝑖 , 𝑃𝑤𝑖 , 𝑄𝑤𝑖 𝑖=1 𝑁𝑤 𝑅𝑤𝑖 :生成画像 𝑃𝑤𝑖 :正例の説明文 𝑄𝑤𝑖 :負例の説明文 𝑁𝑤 :𝑃𝑤 のサンプルサイズ 負例𝑄𝑤𝑖 は、𝑃𝑤𝑖 中の𝑤を対義語に置き換えて作成 8/25
  7. PA:Positional Alignment 3. CLIPで画像𝑅𝑤𝑖 と説明文𝑃𝑤𝑖 , 𝑄𝑤𝑖 との類似度を計算 4. 𝑃𝑤𝑖

    による類似度が高かった回数𝑘𝑤 を計算して単語𝑤ごとに 成功率𝑘𝑤 /𝑁𝑤 を算出 5. 上記を全ての単語𝑤 ∈ 𝑊について平均してPAを得る 9/25
  8. CA:Counting Alignment 1. MSCOCOのvalidation dataset中の説明文で数量情報 (a, one, two, threeなど)を含む説明文を選別する ”A

    group of seven people having a light meal and discussion at a single large table” {”person”: 7.0, ”dining table”: 1.0} 説明文中の数量情報をラベル付けして、生成画像の数量の反映度 合を評価 2. 数量のラベル付けを行う(カウント可能なもののみ事前に定義) 1000サンプルに付与 ラベル付けの例 10/25
  9. CA:Counting Alignment [Cholakkal+,2019] Cholakkal, H., Sun, G., Khan, F.S., Shao,

    L.: Object counting and instance segmentation with image-level supervision. In: CVPR (2019) 3. 生成画像の物体のカウントを行う • object counting model [Cholakkal+,2019] を利用 4. 操作2.で得た正解の物体カウント数と操作3.で得た予測の 物体カウント数をRMSEで比較したサンプル平均でCAを得る Ƹ 𝑐𝑖𝑗 :物体カウント数(正解) 𝑐𝑖𝑗 :物体カウント数(予測) 11/25
  10. 人手評価の実験設定 MSCOCOのtest setから50の説明文をサンプル 1名あたり、1手法あたり生成画像50枚を評価 • 実験参加者:40名 • 手法:5つ 評価方法:妥当性と自然性を総合的に5段階で評価 •

    妥当性(plausibility)は物体の存在、数量、位置、テキストの反映度 合を総合的に評価 • 自然性は生成画像の画像としての自然さ 12/25
  11. Method IS* (uarr) FID (darr) RP(uarr) SOA-C (uarr)SOA-I (uarr) O-IS

    (uarr) O-FID (darr) CA (darr) PA (uarr) RS (uarr) GAN-CLS [29] 10 10 9 10 10 10 10 10 10 10 StackGAN [44] 9 8 10 9 9 9 9 9 9 9 AttnGAN [40] 6 6 6 6 5 6 7 5 8 7 DM-GAN [46] 4 5 4 4 4 3 4 3 6 4 CPGAN [17] 1 7 3 1 1 1 6 7 5 3 DF-GAN [36] 7 1 8 7 7 4 1 6 7 6 AttnGAN + CL [41] 5 4 5 5 6 7 5 4 4 5 DM-GAN + CL [41] 3 2 2 3 3 5 3 2 1 2 DALLE-mini (zero-shot) [3] 8 9 7 8 8 8 8 8 3 8 AttnGAN++ (Ours) 2 3 1 2 2 2 2 1 2 1 手元で順位表示に直してみた結果 • AttnGAN++は2位が多いので最終的に一位になっている • CPGANは1位も多いが、FID、O-FIDとCA、PAの順位が低い 15/25
  12. まとめ • テキストからの画像生成の新しい評価指標TISEを提案 • TISEは複数の評価指標による評価指標(bag of metrics) • TISEは複数の手法同士の相対的な順位付けにより計算する 所感

    • 異なる指標を順位で総合的に評価するのは良い方針だと思う • Positional AlignmentはPromptのちょっとした工夫で実現していて 面白い。ただ、CLIPは位置関係には弱いのでは?fine-tuningを あえてしない理由があったのか少し気になる • O-ISやO-FIDは、物体検出器さえどうにかできれば他のドメインの 画像にも応用が利きそう? • Diffusion modelを評価するとどうなるかは気になるところ • 不満な点として、今回の研究ストーリー的に、各評価指標が人間 の主観評価とどう相関するのか詳しく見たいと思った。追試して検 討する余地が多そう・・・ 16/25
  13. Semantic Object Accuracy (SOA) [Hinz+,2019] 入力テキスト中で言及された物体が生成画像に含まれるかを評価 • SOA-I (average recall

    between images) • SOA-C (average recall between classes) • 𝐼𝑐 :カテゴリ𝑐に属する画像 • Object − Detector 𝑖𝑐 ∈ 0,1 [Hinz+,2019] Hinz, T., Heinrich, S., Wermter, S.: Semantic object accuracy for generative text-to-image synthesis. arXiv preprint arXiv:1910.13321 (2019) 18/25
  14. Inception Score (IS) 𝑐𝑙𝑎𝑠𝑠 𝑦 𝑝 𝑦|𝑥 𝑦1 𝑦2 𝑦3

    𝑦4 𝑝 𝑦|𝑥1 𝑝 𝑦|𝑥2 𝑝 𝑦|𝑥3 𝑝 𝑦 log 𝐼𝑆 = 1 𝑁 ቄ ቅ 𝐾𝐿 𝑝 𝑦|𝑥1 || 𝑝 𝑦 + 𝐾𝐿 𝑝 𝑦|𝑥2 || 𝑝 𝑦 + 𝐾𝐿 𝑝 𝑦|𝑥3 || 𝑝 𝑦 + ⋯ 品質と多様性を同時に評価する尺度。学習済み画像認識モデルに おける予測クラス分布𝑝(𝑦|𝑥)と周辺分布𝑝(𝑦)の間のKLの期待値(高 いほど良い) 各サンプル𝑥について、 • 𝑝(𝑦|𝑥)がとがっているほどISは大きくなる(識別しやすさ≒品質) • 𝑝(𝑦)が滑らかで偏っていないほどISは大きくなる(多様性) 20/25
  15. Frechet Inception Distance (FID) 𝝁 ∶ ℎの分布の平均 𝚺 ∶ ℎの分布の共分散行列

    品質を評価する尺度。学習済み画像認識モデルにより実画像と生成 画像の特徴量の統計量(平均と分散)の距離によって算出する 22/25
  16. FIDについての議論 • サンプル集合による統計的な評価 • 性能は学習済みモデルに依存 • ISと違って実画像を使って評価している • とはいっても、統計量を使っているので参照画像があるわけ ではない

    • 用意されている統計量を使う場合は結局ブラックボックスな のでISと五十歩百歩感はありそう • リサイズの実装によってスコアに影響があると一時期話題に • 現在は解決されている(はず) • 詳細はclean-fid https://github.com/GaParmar/clean-fid 23/25
  17. R-precision (RP) [Xu+,2018] テキストからの画像生成における生成画像の一貫性を評価 (もともとは情報検索で使われている指標) 1. 画像とテキストの埋め込みのコサイン類似度 でランキング 2. top

    R個 (R=1)を選択したときの、R個中の正 解アイテム数rの割合がRP=r/R • クエリ(画像)に対して正解となるアイテム(テ キスト)がR個あるとする • アイテムの数は任意、ここでは100個うち1個 が正解(R=1)で残りはランダムな負例 [Xu+,2018] AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks (CVPR2018) ? つまり、Recall@1です 24/25