集合間Bregmanダイバージェンスと置換不変NNによるその学習

集合間 Bregman ダイバージェンスと置換不変 NN によるその学習  川島貴大（ZOZO Research），木村正成（メルボルン大）
，相馬輔（統数研，理研 AIP），日野英逸（統数研，早稲田大） @ JSAI2025  May 27, 2025

はじめに

有限集合間の距離ほとんどの機械学習アルゴリズムは陰に陽に距離構造を仮定  集合間のリッチな距離尺度がほしい！  コーディネート推薦，点群処理など多様な応用が期待 3 / 22

有限集合間の距離集合間の距離や類似度を測る指標は大量に存在 from Choi et al. (2010) 4 / 22

集合間の距離の難しさ既存尺度のほとんどは|𝑋 ∩ 𝑌 |, |𝑋 ∪ 𝑌 |, |𝑋
\ 𝑌 |などの数え上げで定義 Jaccard Index 台集合が大きく𝑋, 𝑌 が小さいと類似度/距離はすぐに 0/∞ になる   よりリッチな距離尺度の開発が課題 5 / 22

本研究の貢献本研究の主な貢献は以下の 2 つ： • 既存手法を拡張する形で，よりリッチな表現能力をもつ新たな集合間ダイバージェンスを開発  非対称性を許した距離の一般化 •
提案する集合間ダイバージェンスを置換不変 NN によって学習するフレームワークを提案  集合的な構造をもつデータに用いられる NN 6 / 22

先行研究：劣モジュラ Bregman ダイバージェンス

Bregman ダイバージェンス Bregman ダイバージェンスは凸関数に基づいて 2 点の乖離度を測る指標 𝐷𝑓 (𝑥, 𝑦) ≔
𝑓(𝑥) − 𝑓(𝑦) − ⟨∇𝑓(𝑦), 𝑥 − 𝑦⟩ 内積 KL, L2 距離の 2 乗などの一般化 8 / 22

劣勾配と Bregman ダイバージェンス Bregman ダイバージェンスを構成するためには，「関数を下から抑える接線」が引ければ OK  離散空間でも「下から抑える接線」は考えうる（劣勾配）微分不可能な点
9 / 22

劣モジュラ Bregman ダイバージェンス劣モジュラ関数は集合関数𝑓 : 2𝑉 → ℝの世界における凸関数のアナロジー  「𝑓
を下から抑える線形関数（劣勾配）」が存在！集合間に劣モジュラ Bregman ダイバージェンスを定義可能 [Iyer & Bilmes, 2012] 𝐷𝑓 (𝑋, 𝑌 ) = 𝑓(𝑋) − 𝑓(𝑌 ) − ⟨ℎ𝑌 , 1𝑋 − 1𝑌 ⟩ ℎ𝑌 ：点 𝑌 における 𝑓 の劣勾配 1𝑋 ：指示関数（指示モジュラ関数）  劣モジュラ関数: 𝑓(𝑋) + 𝑓(𝑌 ) ≥ 𝑓(𝑋 ∪ 𝑌 ) + 𝑓(𝑋 ∩ 𝑌 ) 正確にはモジュラ関数 10 / 22

劣モジュラ Bregman ダイバージェンス  𝐷𝑓 (𝑋, 𝑌 ) = 𝑓(𝑋)
− 𝑓(𝑌 ) − ⟨ℎ𝑌 , 1𝑋 − 1𝑌 ⟩ 劣モジュラ関数𝑓に具体的な形を与えれば具体的な乖離度指標を構成可能 • ハミング距離 • Precision • Recall などが含まれる手元にデータがあるとき，適切な 𝑓 を自前で設計することは難  11 / 22

提案手法：Difference-of-submodular Bregman ダイバージェンス

劣モジュラ関数の性質劣モジュラ関数にまつわる離散世界特有の 2 つの性質を用いて，劣モジュラ Bregman ダイバージェンスの表現能力を拡張する • 任意の集合関数𝑓 :
2𝑉 → ℝは 2 つの劣モジュラ関数の差に分解可能  𝑓 = 𝑓1 − 𝑓2 • 劣モジュラ関数には各点で劣勾配だけでなく優勾配も存在  上から抑える線形関数（モジュラ関数） 13 / 22

提案手法：DBD 次の方針で，提案する Difference-of-submodular Bregman ダイバージェンス (DBD) を構成： 1. 一般の集合関数 𝑓
を劣モジュラ関数の差 𝑓 = 𝑓1 − 𝑓2 の形式に分解 2. 𝑓1 は劣勾配 ℎ1 𝑌 で下から抑え，𝑓2 は優勾配 𝑔2 𝑌 で上から抑える 3. 𝑓1 の劣勾配と 𝑓2 の優勾配の差により，𝑓 全体は線形関数（モジュラ関数）で下から抑えられる  Bregman ダイバージェンスが作れる！  𝐷𝑓 (𝑋, 𝑌 ) = 𝑓(𝑋) − 𝑓(𝑌 ) − ⟨ℎ1 𝑌 − 𝑔2 𝑌 , 1𝑋 − 1𝑌 ⟩ 14 / 22

置換不変 NN による DBD の構成 DBD を与える集合関数 𝑓 を置換不変 NN
を用いて学習する  入力列の置換に対して出力が不変； e.g., 𝑓NN (𝒙1 , 𝒙2 ) = 𝑓NN (𝒙2 , 𝒙1 ) 問題：一般に集合関数 𝑓 から分解 𝑓 = 𝑓1 − 𝑓2 をみつけるのは NP 困難  劣モジュラ性が担保されるふたつの置換不変 NN を用意し， 𝑓1, 𝑓2 をそれぞれモデリングすると予想されている 15 / 22

𝜀-PointNet 劣モジュラ性が担保される新たな置換不変 NN のアーキテクチャを開発 𝜀-PointNet 𝑓PN,𝜀 ([𝒙𝑖 ] 𝑖∈𝑋 )
= 𝛾(𝜀 log ∑ 𝑖∈𝑋 𝑒𝜑1 (𝒙𝑖 )/𝜀, …, 𝜀 log ∑ 𝑖∈𝑋 𝑒𝜑𝐾 (𝒙𝑖 )/𝜀) 𝛾, 𝜑1 , …, 𝜑𝐾 ：NN, 𝜀 > 0：ハイパラ • 𝜀 → 0 で 𝛾 の各入力次元は max𝑖∈𝑋 𝜑𝑘 (𝒙𝑖 ) に漸近 • 𝛾 が重み付き和なら劣モジュラ性が担保される狭義狭義 𝝋 による 𝐾 次元中間出力 16 / 22

DBD の学習 Triplet loss などの距離学習の損失関数で 𝑓 を学習可能 Triplet loss ℒ(𝑓)
≔ ∑ 𝑛 𝑖=1 max(𝐷𝑓 (𝑋𝑖 𝐴 , 𝑋𝑖 𝑃 ) − 𝐷𝑓 (𝑋𝑖 𝐴 , 𝑋𝑖 𝑁 ), 0) 𝑋𝑖 𝐴 : アンカー集合， 𝑋𝑖 𝑃 : 正例集合， 𝑋𝑖 𝑁 : 負例集合 • アンカー集合と同ラベルの集合は近く，別ラベルの集合は遠くなるように学習 • 通常の距離学習と違い，インスタンスの埋め込みベクトルでなく，乖離度を定める関数 𝑓 を学習 17 / 22

実験

数値実験：MNIST 同じラベルの数字を含む集合同士の距離が近くなるよう学習よさそう  19 / 22

点群検索非常にシンプルな MLP ベースの DBD で SoTA に迫るパフォーマンス  提案フレームワークの有効性が示された
 64x64 の中間層，CPU のみで学習 Our method 20 / 22

おわりに

おわりに • 集合間の乖離度を測る指標として，Difference-of-submodular Bregman ダイバージェンス (DBD) を提案  劣モジュラ Bregman
ダイバージェンスの拡張  理論的にも表現能力の向上が示せる（今回は割愛） • 置換不変 NN を用いて DBD を学習するフレームワークを提案  必要な仮定を満たす新しいアーキテクチャ𝜀-PointNet を開発・利用 • MNIST& 点群データでの数値実験  小さいアーキテクチャでも SoTA に迫るパフォーマンスを達成！ 22 / 22

集合間Bregmanダイバージェンスと置換不変NNによるその学習

集合間Bregmanダイバージェンスと置換不変NNによるその学習

Takahiro Kawashima

More Decks by Takahiro Kawashima

Other Decks in Research

Featured

Transcript