Upgrade to Pro — share decks privately, control downloads, hide ads and more …

集合間Bregmanダイバージェンスと置換不変NNによるその学習

 集合間Bregmanダイバージェンスと置換不変NNによるその学習

2025年度人工知能学会(JSAI2025)で発表した資料です.出版済みの元論文は以下:
Masanari Kimura, Takahiro Kawashima, Tasuku Soma, and Hideitsu Hino, "Difference-of-submodular Bregman Divergence," ICLR2025

Avatar for Takahiro Kawashima

Takahiro Kawashima

May 27, 2025
Tweet

More Decks by Takahiro Kawashima

Other Decks in Research

Transcript

  1. 集合間 Bregman ダイバージェンスと 置換不変 NN によるその学習  川島貴大(ZOZO Research) ,木村正成(メルボルン大)

    , 相馬輔(統数研,理研 AIP) ,日野英逸(統数研,早稲田大) @ JSAI2025  May 27, 2025
  2. 集合間の距離の難しさ 既存尺度のほとんどは|𝑋 ∩ 𝑌 |, |𝑋 ∪ 𝑌 |, |𝑋

    \ 𝑌 |などの数え上げで定義 Jaccard Index 台集合が大きく𝑋, 𝑌 が小さいと 類似度/距離はすぐに 0/∞ になる   よりリッチな距離尺度の開発が課題 5 / 22
  3. 本研究の貢献 本研究の主な貢献は以下の 2 つ: • 既存手法を拡張する形で,よりリッチな表現能力をもつ新たな集合間 ダイバージェンスを開発  非対称性を許した距離の一般化 •

    提案する集合間ダイバージェンスを置換不変 NN によって学習する フレームワークを提案  集合的な構造をもつデータに用いられる NN 6 / 22
  4. Bregman ダイバージェンス Bregman ダイバージェンスは凸関数に基づいて 2 点の乖離度を測る指標 𝐷𝑓 (𝑥, 𝑦) ≔

    𝑓(𝑥) − 𝑓(𝑦) − ⟨∇𝑓(𝑦), 𝑥 − 𝑦⟩ 内積 KL, L2 距離の 2 乗などの一般化 8 / 22
  5. 劣モジュラ Bregman ダイバージェンス 劣モジュラ関数は集合関数𝑓 : 2𝑉 → ℝの世界における凸関数のアナロジー  「𝑓

    を下から抑える線形関数(劣勾配) 」が存在! 集合間に劣モジュラ Bregman ダイバージェンスを定義可能 [Iyer & Bilmes, 2012] 𝐷𝑓 (𝑋, 𝑌 ) = 𝑓(𝑋) − 𝑓(𝑌 ) − ⟨ℎ𝑌 , 1𝑋 − 1𝑌 ⟩ ℎ𝑌 :点 𝑌 における 𝑓 の劣勾配 1𝑋 :指示関数(指示モジュラ関数)  劣モジュラ関数: 𝑓(𝑋) + 𝑓(𝑌 ) ≥ 𝑓(𝑋 ∪ 𝑌 ) + 𝑓(𝑋 ∩ 𝑌 ) 正確にはモジュラ関数 10 / 22
  6. 劣モジュラ Bregman ダイバージェンス  𝐷𝑓 (𝑋, 𝑌 ) = 𝑓(𝑋)

    − 𝑓(𝑌 ) − ⟨ℎ𝑌 , 1𝑋 − 1𝑌 ⟩ 劣モジュラ関数𝑓に具体的な形を与えれば具体的な乖離度指標を構成可能 • ハミング距離 • Precision • Recall などが含まれる 手元にデータがあるとき,適切な 𝑓 を自前で設計することは難  11 / 22
  7. 劣モジュラ関数の性質 劣モジュラ関数にまつわる離散世界特有の 2 つの性質を用いて, 劣モジュラ Bregman ダイバージェンスの表現能力を拡張する • 任意の集合関数𝑓 :

    2𝑉 → ℝは 2 つの劣モジュラ関数の差に分解可能  𝑓 = 𝑓1 − 𝑓2 • 劣モジュラ関数には各点で劣勾配だけでなく優勾配も存在  上から抑える線形関数(モジュラ関数) 13 / 22
  8. 提案手法:DBD 次の方針で,提案する Difference-of-submodular Bregman ダイバージェンス (DBD) を構成: 1. 一般の集合関数 𝑓

    を劣モジュラ関数の差 𝑓 = 𝑓1 − 𝑓2 の形式に分解 2. 𝑓1 は劣勾配 ℎ1 𝑌 で下から抑え,𝑓2 は優勾配 𝑔2 𝑌 で上から抑える 3. 𝑓1 の劣勾配と 𝑓2 の優勾配の差により,𝑓 全体は線形関数(モジュラ関数) で下から抑えられる  Bregman ダイバージェンスが作れる!  𝐷𝑓 (𝑋, 𝑌 ) = 𝑓(𝑋) − 𝑓(𝑌 ) − ⟨ℎ1 𝑌 − 𝑔2 𝑌 , 1𝑋 − 1𝑌 ⟩ 14 / 22
  9. 置換不変 NN による DBD の構成 DBD を与える集合関数 𝑓 を置換不変 NN

    を用いて学習する  入力列の置換に対して出力が不変; e.g., 𝑓NN (𝒙1 , 𝒙2 ) = 𝑓NN (𝒙2 , 𝒙1 ) 問題:一般に集合関数 𝑓 から分解 𝑓 = 𝑓1 − 𝑓2 をみつけるのは NP 困難  劣モジュラ性が担保されるふたつの置換不変 NN を用意し, 𝑓1, 𝑓2 をそれぞれモデリングする と予想されている 15 / 22
  10. 𝜀-PointNet 劣モジュラ性が担保される新たな置換不変 NN のアーキテクチャを開発 𝜀-PointNet 𝑓PN,𝜀 ([𝒙𝑖 ] 𝑖∈𝑋 )

    = 𝛾(𝜀 log ∑ 𝑖∈𝑋 𝑒𝜑1 (𝒙𝑖 )/𝜀, …, 𝜀 log ∑ 𝑖∈𝑋 𝑒𝜑𝐾 (𝒙𝑖 )/𝜀) 𝛾, 𝜑1 , …, 𝜑𝐾 :NN, 𝜀 > 0:ハイパラ • 𝜀 → 0 で 𝛾 の各入力次元は max𝑖∈𝑋 𝜑𝑘 (𝒙𝑖 ) に漸近 • 𝛾 が重み付き和なら劣モジュラ性が担保される 狭義 狭義 𝝋 による 𝐾 次元中間出力 16 / 22
  11. DBD の学習 Triplet loss などの距離学習の損失関数で 𝑓 を学習可能 Triplet loss ℒ(𝑓)

    ≔ ∑ 𝑛 𝑖=1 max(𝐷𝑓 (𝑋𝑖 𝐴 , 𝑋𝑖 𝑃 ) − 𝐷𝑓 (𝑋𝑖 𝐴 , 𝑋𝑖 𝑁 ), 0) 𝑋𝑖 𝐴 : アンカー集合, 𝑋𝑖 𝑃 : 正例集合, 𝑋𝑖 𝑁 : 負例集合 • アンカー集合と同ラベルの集合は近く,別ラベルの集合は遠くなる ように学習 • 通常の距離学習と違い,インスタンスの埋め込みベクトルでなく, 乖離度を定める関数 𝑓 を学習 17 / 22
  12. おわりに • 集合間の乖離度を測る指標として,Difference-of-submodular Bregman ダイバージェンス (DBD) を提案  劣モジュラ Bregman

    ダイバージェンスの拡張  理論的にも表現能力の向上が示せる(今回は割愛) • 置換不変 NN を用いて DBD を学習するフレームワークを提案  必要な仮定を満たす新しいアーキテクチャ𝜀-PointNet を開発・利用 • MNIST& 点群データでの数値実験  小さいアーキテクチャでも SoTA に迫るパフォーマンスを達成! 22 / 22