Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club ] PHyCLIP: 𝒍𝟏-Product of Hyperbol...

[Journal club ] PHyCLIP: 𝒍𝟏-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. PHyCLIP: 𝒍𝟏 -Product of Hyperbolic Factors Unifies Hierarchy and Compositionality

    in Vision- Language Representation Learning ICLR26 慶應矩塟倧孊 杉浊孔明研究宀 高科明哲 Daiki Yoshikawa1, Takashi Matsubara1, 2 1Hokkaido University, 2CyberAgent Daiki Yoshikawa, et al. PHyCLIP: 𝒍𝟏 -Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning. ICLR2026.
  2. 2 PHyCLIP: 階局性ず構成性を考慮した双曲空間ぞの埋め蟌み ⚫ 背景 ⚫ VLM は 階局性 (hierarchy)

    ず 構成性 (compositionality) の䞡方を扱う ⚫ CLIP [Radford+, ICML21] は単䞀ナヌクリッド空間ぞの埋め蟌み → hierarchy ず compositionality を同時に衚珟するこずが難しい ⚫ 双曲空間は hierarchy の衚珟に適する䞀方, compositionality を衚珟しにくい ⚫ 提案手法: PHyCLIP ⚫ 耇数の hyperbolic factor の 𝑙1 -product 空間ぞの埋め蟌み ⚫ 耇数 factor の同時掻性化により compositionality を衚珟 ⚫ 結果 ⚫ zero-shot の classification / retrieval で既存手法を䞊回る ⚫ hierarchy の衚珟や compositionality の理解が改善 抂芁 • • • •
  3. 3 階局性ず構成性を同時に衚珟するこずは難しい VLMが扱うべき2皮類の意味構造 ⚫ 階局性 (hierarchy) ⚫ 蚀語抂念は朚構造的に分類できる (e.g., WordNet

    [Miller, 95]) ⚫ 䟋: dog ⪯ mammal ⪯ animal ⚫ 䞋䜍の抂念ほど具䜓的 ⚫ 構成性 (compositionality) ⚫ 䟋: “a dog in a car” ⚫ 画像や文章は耇数抂念の共起 CLIP [Radford+, ICML21] は単䞀のナヌクリッド空間䞊の぀のベクトルずしお衚珟  hierarchy ず compositionality を同䞀空間で同時に衚珟できない 背景 (1/3) • • • •
  4. 4 双曲空間は hierarchy を自然に衚珟できる Poincaré Embeddings [Nickel+, NeurIPS17] ⚫ 背景

    ⚫ 単語・グラフには朜圚的な hierarchy が存圚 ⚫ 䜎次元のナヌクリッド空間では深い階局構造を 衚せない (∵ ℝ𝑑: 倚項匏的 階局構造: 指数関数的) ⚫ 提案: ポアンカレモデルぞの埋め蟌み ⚫ 双曲空間では空間が指数関数的に広がる → 連続的な朚構造ずしお階局構造を自然に衚珟 ⚫ ノルム 𝒙 が階局, 距離 𝑑 𝒖, 𝒗 が類䌌床を衚す ⚫ 結果 ⚫ WordNet [Miller, 95] のような倧芏暡分類䜓系の埋め蟌み ☺ 衚珟容量・汎化性胜ずもに埓来手法を凌駕 ☺ 特に䜎次元でも高い粟床を維持 背景 (2/3) • • • • WordNet の哺乳類 subtree を双曲空間 (𝑑 = 2) で蚓緎
  5. 5 ⚫ 画像・文章は耇数抂念の共起ずしお衚せる ⚫ “a dog in a car” ≒

    {dog, car} ⚫ “a cat and a bike” ≒ {cat, bike}  耇数抂念の共起を hierarchy を衚す単䞀の双曲空間で衚珟できない ⚫ ブヌル代数ずしおの解釈 ⚫ atomic concepts: 𝐶 = {𝑐1 , 𝑐2 , 
 , 𝑐𝑛 } ⚫ 耇合抂念: 𝑆 ⊆ 𝐶 ⚫ 各 atomic concept が含たれるかどうか bit で捉える → 耇合抂念 𝑆, 𝑇 の距離はハミング距離 𝒍𝟏 -product (各双曲空間の距離の和) Compositionality は Boolean-like な構造を持぀ 背景 (3/3) • • • • 𝐶 = {dog, cat, car, bike} 𝑆 = {dog, car}, 𝑇 = {dog} 𝜒 𝑆 = 1,0,1,0 𝜒 𝑇 = 1,0,0,0 ハミング距離: 𝑑Ham 𝜒 𝑆 , 𝜒 𝑇 = 1 𝒍𝟏 -product: 𝑑1 𝑋, 𝑌 = ෍ 𝑖=1 𝑘 𝑑 ℍ𝑖 𝑑 𝑥 𝑖 , 𝑊 𝑖
  6. 6 Vision-Language Representation Learning • • • • 手法 抂芁

    特城 CLIP [Radford+, ICML21] 画像・テキストを単䞀のナヌクリッ ド空間ぞ写像  hierarchy や compositionality を明瀺的に 扱わない MERU [Desai+, ICML23] CLIP の埋め蟌み空間を双曲空間ぞ 拡匵 ☺ hierarchy の朚構造を衚珟  compositionality は考慮しおいない HyCoCLIP [Pal+, ICLR25] bounding box supervision を導入 hyperbolic entailment cone を導入 ☺ object-level の hierarchy を明瀺的に孊習  compositionality の扱いは限定的 関連研究 MERU HyCoCLIP
  7. 7 PHyCLIP の党䜓像 ⚫ 耇数の hyperbolic factor の空間ぞ埋め蟌む ⚫ 𝑘

    個の 𝑑 次元双曲空間 ℍ𝑑 𝑘 → 党䜓で 𝑘𝑑 次元 提案手法 (1/3) • • • •
  8. 8 画像・テキストを双曲空間ぞ埋め蟌む ⚫ 双曲空間ぞの埋め蟌み ⚫ 𝑘𝑑 次元特城量を 𝑘 個に分割 ⚫

    分割した 𝒗 𝑖 を双曲空間に写像 𝒗 𝑖 ∈ ℝ𝑑 → 𝒙 𝑖 ∈ ℍ𝑖 𝑑 ⚫ 距離の定矩 (𝒍𝟏 -product metric) 𝑑1 𝑿, 𝒀 = ෍ 𝑖=1 𝑘 𝑑 ℍ𝑖 𝑑 𝒙(𝑖), 𝒚(𝑖) 𝑑avg 𝑿, 𝒀 = 1 𝑘 𝑑1 𝑿, 𝒀 ⚫ object-level にクロップした画像・テキストも䜿甚 ⚫ 入力: 𝑰, 𝑻, 𝑰box, 𝑻box ⚫ image は text より具䜓的 ⚫ 元の image/text はクロップされたものより具䜓的 提案手法 (2/3) • • • • Entailment Relation 𝑰 ⪯ 𝑻 𝑰box ⪯ 𝑻box 𝑰 ⪯ 𝑰box 𝑻 ⪯ 𝑻box
  9. 9 Loss function: 察応関係ず階局関係を同時に孊習 損倱関数: ℒoverall = ℒcont + 𝛟ℒent

    提案手法 (3/3) • • • • Contrastive Loss ⚫ 暙準的な InfoNCE ℒcont {𝑿𝑏 }, {𝒀𝑏 } = − ෍ 𝑏∈𝐵 log exp −𝑑avg 𝑿𝑏 , 𝒀𝑏 /𝜏 σ 𝑎∈𝐵 exp −𝑑avg 𝑿𝑏 , 𝒀𝑎 /𝜏 ⚫ すべおのペアで平均 ℒcont = 1 4 ൬ ൰ ℒcont {𝑰𝑏 }, {𝑻𝑏 } + ℒcont {𝑻𝑏 }, {𝑰𝑏 } + ℒcont {𝑰𝑏 box}, {𝑻𝑏 box} + ℒcont {𝑻𝑏 box}, {𝑰𝑏 box} Entailment Loss ⚫ entailment cone で順序関係を衚す 𝒙 𝑖 ∈ 𝐶 𝒚 𝑖 ⟺ 𝒙 𝑖 ⪯ 𝒚 𝑖 ⚫ entailment cone から倖れたら眰則 ℒent, 𝑖 𝑿, 𝒀 = max 0, 𝜙 𝒙 𝑖 , 𝒚 𝑖 − 𝜂𝜔 𝒚 𝑖 ℒent 𝑿, 𝒀 = 1 𝑘 ෍ 𝑖=1 𝑘 ℒent, 𝑖 𝑿, 𝒀 𝜙 𝒙 𝑖 , 𝒚 𝑖 : y から x の角床 𝜔 𝒚 𝑖 : cone の半開口角 𝜂: マヌゞン
  10. 10 GRIT を甚いた孊習 ⚫ 蚓緎デヌタセット ⚫ GRIT [Peng+, ICCV23]: 自動アノテヌションされた

    image-text ペア + bbox ⚫ 14.0M image-text pairs / 26.6M box annotations ⚫ PHyCLIP の蚭定 ⚫ 𝑘 = 64, 𝑑 = 8 (合蚈: 512次元) ⚫ 𝛟 = 0.2 ⚫ optimizer: AdamW ⚫ 実隓環境 ⚫ GPU: A100 ×4 ⚫ iterations: 500,000 ⚫ batch size: 768 実隓蚭定 • • • •
  11. 11 ⚫ Zero-shot Image Classification ☺ PHyCLIP は党䜓を通しお既存手法を䞊回る (specialized は

    GRIT の分垃倖) ☺ 特に General で高いスコア → 耇数の双曲空間による concept families の理解が有効 PHyCLIP は画像分類タスクで既存手法を䞊回る 定量的結果 (1/3) • • • •
  12. 12 PHyCLIP は retrieval ず階局分類で既存手法を䞊回る ⚫ Zero-shot Retrieval & Hierarchical

    Classification ☺ PHyCLIP はほずんどの retrieval 指暙で既存手法を䞊回る ☺ Hierarchical Classification (予枬ラベルず GT がどれだけ WordNet 䞊で近いか) の 党おの指暙で既存手法を䞊回る 定量的結果 (2/3) • • • •
  13. 13 PHyCLIP は compositionality の理解を改善 ⚫ Compositional Understanding ⚫ キャプションの䞀郚を倉曎した

    hard negative から GT のキャプションを識別 ⚫ VL-CheckList-Object: キャプション䞭の物䜓を別の物䜓に眮換 ⚫ SugarCrepe: object/attribute/relation に察しお replace/swap/add ☺ VL-CheckList-Object では党おのサブセットで PHyCLIP が既存手法を䞊回る → 䜍眮や倧きさに頑健に物䜓の存圚を衚珟  relation replacement や object swapping では性胜が䜎䞋 → Boolean-like な蚭蚈により物䜓同士の関係性の理解に匱い 定量的結果 (3/3) • • • •
  14. 14 ⚫ 画像のノルムはテキストのノルムより倧きく狭い範囲に集䞭 (∵ 画像はテキストより具䜓的: 𝑰𝑏 ⪯ 𝑻𝑏 ) ⚫

    個々の factor 内ではそれぞれのノルムの分垃が重なり広く分散 ☺ PHyCLIP は埋め蟌み空間の広い領域を掻甚 個々の factor で埋め蟌み空間を有効掻甚 定性的結果 (1/2) • • • •
  15. 15 ⚫ dog は ℍ39 𝑑 , car は ℍ9

    𝑑 で 掻性化 ⚫ dog and car では同時に掻 性化 ⚫ ℍ39 𝑑 では哺乳類, ℍ9 𝑑 では乗り物/日甚品 の階局構造が珟れる 各 hyperbolic factor は抂念ごずの hierarchy を衚す 定性的結果 (2/2) • • • •
  16. 18 PHyCLIP: 階局性ず構成性を考慮した双曲空間ぞの埋め蟌み ⚫ 背景 ⚫ VLM は 階局性 (hierarchy)

    ず 構成性 (compositionality) の䞡方を扱う ⚫ CLIP [Radford+, ICML21] は単䞀ナヌクリッド空間ぞの埋め蟌み → hierarchy ず compositionality を同時に衚珟するこずが難しい ⚫ 双曲空間は hierarchy の衚珟に適する䞀方, compositionality を衚珟しにくい ⚫ 提案手法: PHyCLIP ⚫ 耇数の hyperbolic factor の 𝑙1 -product 空間ぞの埋め蟌み ⚫ 耇数 factor の同時掻性化により compositionality を衚珟 ⚫ 結果 ⚫ zero-shot の classification / retrieval で既存手法を䞊回る ⚫ hierarchy の衚珟や compositionality の理解が改善 たずめ • • • •
  17. 19 Poincaré Embeddings [Nickel+, NeurIPS17] の詳现 ⚫ Poincaré モデル ⚫

    Riemannian metric tensor 𝑔𝑥 = 2 1− 𝒙 2 2 𝑔𝐞 (𝑔𝐞 : Euclidean metric tensor) ⚫ 点 𝑢, 𝑣 ∈ ℬ𝒹 間の距離 𝑑 𝒖, 𝒗 = arcosh 1 + 2 𝒖 − 𝒗 2 1 − 𝒖 2 1 − 𝒗 2 ⚫ Optimization 𝜜𝑡+1 ← 𝑝𝑟𝑜𝑗 𝜜𝑡 − 𝜂𝑡 1 − 𝜜𝑡 2 2 4 ∇𝐞 ⚫ Loss ℒ Θ = ෍ 𝑢,𝑣 ∈𝒟 log 𝑒−𝑑 𝒖,𝒗 σ 𝒗′∈𝒩 𝑢 𝑒−𝑑 𝒖,𝒗′ Appendix (1/4) • • • •
  18. 20 PHyCLIP の実装詳现 Appendix (2/4) • • • • PHyCLIP

    は Lorents model [Nickel+, ICML18] で hyperbolic factor を実装 (曲率 −𝜶𝒊 は learnable) ⚫ Minkowski inner product: 時間方向のみ負の内積 ෝ 𝒙 = 𝑥0 , 𝑥1 , 
 , 𝑥𝑑 , 𝒙 = 𝑥1 , 
 , 𝑥𝑑 ∈ ℝ𝑑 ෝ 𝒙, ෝ 𝒚 ℝ𝑑,1 = −𝑥0 𝑊0 + 𝒙, 𝒚 ℝ𝑑 ⚫ 双曲空間を双曲面ずしお衚珟 𝕃𝛌 𝑑 = ෝ 𝒙 ∈ ℝ𝑑,1 ෝ 𝒙, ෝ 𝒙 ℝ𝑑,1 = −𝛌−1, 𝑥0 > 0 ⚫ Lorentz distance 𝑑 𝕃𝛌 𝑑 ෝ 𝒙, ෝ 𝒚 = 𝛌−1/2 arccosh −𝛌 ෝ 𝒙, ෝ 𝒚 ℝ𝑑,1 ⚫ Exponential map: 𝒗 を双曲空間䞊の点ぞ写像 ෝ 𝒙 = expෝ 𝐚 𝛌 𝒗 = cosh 𝛌 𝒗 ෝ 𝒐 + sinh 𝛌 𝒗 𝛌 𝒗 𝒗 ⚫ Entailment Cones in the Lorents Model 𝜔 𝒚 = sin−1 min 1, 2𝐟 𝛌 𝒚 ℝ𝕕 𝜙 𝒙, 𝒚 = cos−1 𝑥0 + 𝛌 𝒙, 𝒚 ℍ𝛌 𝕕 𝑊0 𝒚 ℝ𝕕 𝛌 𝒙, 𝒚 ℍ𝛌 𝕕 2 − 1