Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 / Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality

Kyosuke Nishida
September 22, 2022

論文紹介 / Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality

第14回最先端NLP勉強会 の発表スライドです.

Tristan Thrush, Ryan Jiang, Max Bartolo, Amanpreet Singh, Adina Williams, Douwe Kiela, Candace Ross; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022, pp. 5238-5248

Kyosuke Nishida

September 22, 2022
Tweet

More Decks by Kyosuke Nishida

Other Decks in Research

Transcript

  1. • 何をする研究か︖ – 視覚・⾔語の融合理解の能⼒を評価する • 貢献は何か︖ – 2件の画像・テキストペアのマッチングタスクのデータ セット Winoground

    を公開(合計400問) – CLIP など最新モデルを⽤いて評価・考察を⾏い,⼈間に ⽐べ(特に⾔語理解の観点で)⼤きな差がある事を⽰す • 嬉しさは︖ – 本データセットにより現在の視覚・⾔語モデルの弱点が 明確になり,今後のモデル・学習アルゴリズム開発への 貢献が期待される まとめ 2
  2. • 4⼈の専⾨家(⾔語学+V&L研究に詳しい)によって⼿作業で作成 • Winogroundスキーマを満たす2つのキャプションの作成と2つの画像の収 集を同時に⾏う – 画像は ストックフォトサイト Getty Images

    から収集 • 合計 400 問を作成 – 800 の 正しい画像・キャプションペア – 800 の 誤った画像・キャプションペア – https://huggingface.co/spaces/CVPR/winoground-explorer – https://huggingface.co/datasets/facebook/winoground などでデータを確認可能 • 作成されたデータを専⾨家によりタグ付 – ⾔語学の観点 – 視覚的推論の観点(全体の10%程度) 9 データの作成プロセス
  3. 13 Linguistic Tag: 1 or 2 Main Preds (292, 108/400)

    • 述部の数(1つあるいは2つ)による分類. • 述部2つの⽅がより⻑く,複雑な⽂になりやすい there are more [humans] than [balls] there's a [phone] on a [map] the [plant] is eating the [bug] [out]1[swam]2 the person in the red swimcap []2[]1 looking from [above] at a collection of similar objects [below] the [sail] rests below the [water] [gold] for [pan] there are more [hats] than [people] [circular] food on [heart-shaped] wood the [water] is filled with [plastic] 1 Main Predsの例 [it] ran away while [they] pursued the person in a [brown] coat looks back and the person in a [black] coat looks forward the melting white food is [cold] while the brown is [warm] a kid [jumped] then [threw] a basketball the person is [jumping] while the cat is [sitting] a person wearing [yellow] with their feet in the air and a person wearing [stripes] the [computer's] screen is on and the [phone's] screen is off the person with facial hair [cycles] and the other person [runs] the person with green legs is running quite [slowly] and the red legged one runs [faster] a [] person wearing yellow and a person wearing stripes [jumping] 2 Main Predsの例
  4. • comprises examples where the images need to be interpreted

    non-literally (前置詞句の付与場所が違う,”idiomatic use”など) 14 Visual Tag: Pragmatics (41/400) It starts with ["A”] and ends with ["Z”] It starts with ["Z”] and ends with ["A”]
  5. 18 検証モデル(1/2) • CLIP[1], FLAVAContrastive [2]︓ デュアルエンコーダによる対照学習 • FLAVAITM [2]︓上記にクロスエンコーダを加え,Image-Text

    Matchingを同 時に⾏うモデル Vision Text some plants surrounding a lightbulb Vision Text some plants surrounding a lightbulb Joint CLIP, FLAVAContrastive FLAVAITM ※ ざっくりとしたイメージ.各モデルの細部は異なります
  6. 19 モデル(2/2) • UNITER[3], VILLA[4], VinVL[5], ViLT[6], VisualBERT[7]︓物体検出(Object Detection) やパッチ埋め込みを⽤いたクロスエンコーダモデル

    • LXMERT[8], UniT[9], ViLBERT[10]︓物体検出を⽤いたデュアル+クロスエン コーダモデル • VSRN, VSE++︓RNN利⽤モデル(説明割愛) Vision Text some plants surrounding a lightbulb Joint LXMERT, UniT, ViLBERT Joint some plants surrounding a lightbulb OD/Patch OD UNITER, ViLLA, VinVL, ViLT, VisualBERT ※ ざっくりとしたイメージ.各モデルの細部は異なります
  7. • はっきりとした理由は書かれていない • More investigation is required to pinpoint the

    reasons: perhaps textual encoders are stronger, … (...違うのでは︖) (Text-Scoreはまずまずなのに)なぜ全モデルのImage-Score がチャンスレベルを下回ったのか︖ Vision Text some plants surrounding a lightbulb Image-Score a lightbulb surroundin g some plants テキストエンコーダが「弱く」,キャプショ ンC0とC1に対して特徴表現に差がない場合, • s(C0 ,I0 ) > s(C0 ,I1 ) ⇒ s(C1 ,I0 ) > s(C1 ,I1 ) • s(C1 ,I1 ) > s(C1 ,I0 ) ⇒ s(C0 ,I1 ) > s(C0 ,I0 ) のいずれか(どちらもスコア=0)になること がランダムにも届かない原因と思われる 24
  8. 26 タグ別の結果(Linguistic /順序交換) • CLIPの”Both”はかなり良い.[fire] [truck] / [truck] [fire] のように,描写対

    象が⼤きく変わるものについてはテキストエンコーダが区別出来ている • ただし,“Both”は件数が少ないので,スコアは参考程度.
  9. • 何をする研究か︖ – 視覚・⾔語の融合理解の能⼒を評価する • 貢献は何か︖ – 2件の画像・テキストペアのマッチングタスクのデータ セット Winoground

    を公開(合計400問) – CLIP など最新モデルを⽤いて評価・考察を⾏い,⼈間に ⽐べ(特に⾔語理解の観点で)⼤きな差がある事を⽰す • 嬉しさは︖ – 本データセットにより現在の視覚・⾔語モデルの弱点が 明確になり,今後のモデル・学習アルゴリズム開発への 貢献が期待される まとめ 31
  10. [1] Alec Radford et al.: Learning Transferable Visual Models From

    Natural Language Supervision. ICML 2021: 8748-8763 [2] Amanpreet Singh et al.: FLAVA: A Foundational Language And Vision Alignment Model. CoRR abs/2112.04482 (2021) [3] Yen-Chun Chen et al.: UNITER: UNiversal Image-TExt Representation Learning. ECCV (30) 2020: 104-120 [4] Zhe Gan et al.: Large-Scale Adversarial Training for Vision-and-Language Representation Learning. NeurIPS 2020 [5] Pengchuan Zhang et al.: VinVL: Revisiting Visual Representations in Vision-Language Models. CVPR 2021: 5579-5588 [6] Wonjae Kim et al.: ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision. ICML 2021: 5583-5594 [7] Liunian Harold Li et al.: VisualBERT: A Simple and Performant Baseline for Vision and Language. CoRR abs/1908.03557 (2019) [8] Hao Tan et al.: LXMERT: Learning Cross-Modality Encoder Representations from Transformers. EMNLP/IJCNLP (1) 2019: 5099-5110 [9] Ronghang Hu et al.: UniT: Multimodal Multitask Learning with a Unified Transformer. ICCV 2021: 1419-1429 [10] Jiasen Lu et al.: ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision- and-Language Tasks. NeurIPS 2019: 13-23 32 参考⽂献(V&Lモデル)