[Journal club] On the Versatile Uses of Partial Distance Correlation in Deep Learning

On the Versatile Uses of Partial Distance Correlation in Deep
Learning Xingjian Zhen1 , Zihang Meng1 , Rudrasis Chakraborty2 , Vikas Singh1 (1University of Wisconsin-Madison, 2Butlr) 慶應義塾⼤学杉浦孔明研究室 B4 和⽥唯我 Xingjian Zhen et al., “On the Versatile Uses of Partial Distance Correlation in Deep Learning”, in ECCV(2022) ECCV 2022

概要 2 ü 背景 • ⼆つのモデルの挙動を⽐較することは極めて重要 • しかし, 異なるアーキテクチャ同⼠の⽐較⼿法は依然として研究が不⼗分 ü
提案⼿法 • Distance CorrelationとPartial Distance CorrelationをDNNの解析に応⽤する汎⽤的な⼿法を提案 ü 結果 • 異なるアーキテクチャ同⼠の⽐較, 敵対的サンプルへの防御, Disentangledな表現の学習など, 多様な応⽤への有効性が検証された

背景 : 異なるアーキテクチャ同⼠の⽐較⼿法は依然として研究が不⼗分 3 • ⼆つのモデルの挙動を⽐較することは極めて重要 • しかし, 異なるアーキテクチャ同⼠の⽐較⼿法は依然として研究が不⼗分 •
構造の異なるモデル同⼠の中間層を⽐較する場合, 次元が揃わないことが多い https://github.com/zhenxingjian/DC_webpage/raw/main/DC_slides.pdf 次元に依存しない出⼒の⽐較⼿法が必要 𝑥 ∈ ℝ! × # 𝑦 ∈ ℝ! × $

DCとPDCをDNNの解析に応⽤する汎⽤的な⼿法を提案 4 o Distance Correlation (DC)とPartial Distance Correlation (PDC)をDNNの解析に応⽤する汎⽤的な⼿法を提案
o 提案されている応⽤例 1. モデルにおける情報量の⽐較 2. 敵対的サンプルへの防御 3. Disentangledな表現の学習

Distance Correlation : 点同⼠の距離を⽤いた相関係数 5 o Distance Correlation (DC) •
点同⼠の距離を⽤いた相関係数 • Pearsonは線形な関係しか捉えないのに対して, DCは距離に応じた相関を捉えることが可能 • 計算⽅法は次⾴にて記載

Distance Correlation : 点同⼠の距離を⽤いた相関係数 6 • あるサンプル 𝑥, 𝑦 =
{ 𝑋% , 𝑌% ∶ 𝑖 = 1, … , 𝑛} に対して, • としたとき, 以下の式で定義される⾏列 𝐴 をDistance Matrixと定義する. • 上の⾏列 𝐴 は要素の列・⾏・全体の平均が0になるので, 期待値を取ると, 平均周りのモーメントのように振る舞う

Distance Correlation : 点同⼠の距離を⽤いた相関係数 7 • このとき, 以下に⽰す ℛ& '(𝑥,
𝑦) をDistance Correlationと定義する. • ただし, 𝐵を 𝑌% %() & のDistance Matrixとして, 𝒱& ' 𝑥, 𝑦 , 𝒱& ' 𝑥, 𝑥 は以下の通り.

主張 : DCは次元の揃わない中間層の出⼒を⽐較することが可能 8 • モデル 𝑋, 𝑌 のある層の出⼒をそれぞれ 𝑥
∈ ℝ* × ,!, 𝑦 ∈ ℝ* × ," とすると, Distance Matrixはどちらも 𝐵 × 𝐵 の正⽅⾏列になる ⇒ DC を⽤いれば𝑑- ≠ 𝑑. であろうと, 中間層の出⼒の相関を計算することが可能 𝑥 ∈ ℝ! × %! 𝑦 ∈ ℝ! × %" Distance Matrix (𝐵 × 𝐵)

Partial Distance Correlation : DCを拡張した相関係数 9 o Partial Distance Correlation
(PDC) • 内積の期待値が 𝒱& ' 𝑥, 𝑦 となるようなヒルベルト空間を定義 (後述) • PDCによって ℛ 𝑋 𝑍, 𝑌 𝑍 = ℛ∗ 𝑋, 𝑌; 𝑍 が計算可能に • つまり, あるモデルによって条件付けされた相関係数が計算できる • まず, Distance Matrix 𝐴 = (𝑎%,2) を以下のように拡張 • 拡張された⾏列を = 𝐴 とする

Partial Distance Correlation : 性質の良いヒルベルト空間を⽤意 10 • このとき, = 𝐴
と > 𝐵 の内積を以下のように定義したヒルベルト空間を⽤意すると, • 内積の期待値が𝒱& ' 𝑥, 𝑦 と⼀致する (不変推定量となる → Appendix参照) • 上のような = 𝐴 を定義すると, 以下が成り⽴つ. 1. 要素の⾏と列の平均がそれぞれ0になる 2. = = 𝐴 = = 𝐴 となる 3. = 𝐴はdouble centeringに対して不変 (⾏と列の平均は常に0)

Partial Distance Correlation : ℛ 𝑋 𝑍, 𝑌 𝑍 =
ℛ∗ 𝑋, 𝑌; 𝑍 の計算 11 o ℛ 𝑋 𝑍, 𝑌 𝑍 = ℛ∗ 𝑋, 𝑌; 𝑍 の計算について • ヒルベルト空間 ℋ& 上で 𝑋, 𝑌 を 𝑍 に投影する必要がある • サンプル 𝑥, 𝑦, 𝑧 における拡張されたDistance Matrix = 𝐴 , > 𝐵 , = 𝐶 ∈ ℋ& について, • をそれぞれ, = 𝐴 𝑥 を = 𝐶 𝑧 3 に, > 𝐵 𝑥 を = 𝐶 𝑧 3 に射影したものとする. • すると, ℛ∗ 𝑋, 𝑌; 𝑍 は以下のようにcosine類似度から定義される.

提案⼿法1. モデルにおける情報量の⽐較 12 • DCは出⼒の次元に依存しないので, 異なるアーキテクチャのモデル同⼠を⽐較することが可能 (e.g. ViT [Dosovitskiy+,
ICLR21] vs ResNet [He+, CVPR16]など) • (a) : ViTとResNetとで, 層ごとの相関パターンが異なることがわかる. • (b) : ViTとResNetとでは, 最初の1/6層の相関が⾮常に⾼い. ⼀⽅で, 最終層付近の相関は極めて低い • 特に, 相関が全体的に⾼く, 各モデルの層ごとの役割の違いが⽰唆される (a) (b)

提案⼿法1. モデルにおける情報量の⽐較 13 • PDCを⽤いることで, 「モデルYが学習した情報」以外にモデルXが何を学習したのかを定量化することが可能 • ℛ' 𝑋
| 𝑌, 𝐺𝑇 を計算すれば, Yで条件付けされたXとGTの相関を計算できる • ここで, 「Yで条件付けされたX」とは「Yを前提とするX」に等しいので, モデル𝑋 | 𝑌 は「モデルYが学習した情報」を除いたモデルX を指す. • GTにはラベル名に対するBERT[Devlin+, NAACL19]の埋め込み表現を使⽤ • One-hot ベクトルよりも距離関係においてrichな表現を⽤いる.

提案⼿法1. ⽚⽅のモデルの学習情報を取り除くための損失を定義 14 o ⽬標 : モデルXとモデルYの学習情報の違いを解析する • モデルXから「モデルYの学習情報」を取り除くため, 以下のような損失を使⽤
• ただし, モデルX,Yをそれぞれ 𝑓) , 𝑓' としたとき, 中間層を𝑔) , 𝑔' と定義する. • 本論⽂では, 𝑔) , 𝑔' を最終層直前の層を採⽤ • モデルX, Yをpretrainした後に, Xのみ上式の損失でfine-tuning

結果1-1. ℛ" 𝑋 | 𝑌, 𝐺𝑇 から様々な可能性が⽰唆される 15 • ViTはResNetと⽐べてより⾔語的
にrichな情報を保持している ImageNet で学習した結果 • Accuracyが⾼くても⾔語的情報量が低い場合がある • e.g. ResNet-50はResNet-152よりも accuracyが低いが, より⾔語的にrich な情報を持っている → ResNet-152は細かい領域に注⽬できるが, 不必要な情報も保持している可能性が⽰唆される

結果1-2. ViTはResNetとは異なり詳細な領域を捉えている可能性 16 • Grad-CAM[Selvaraju, ICCV17]による可視化 • ViT \ ResNet
→ より被写体に注⽬していることから, ViTはResNetでは捉えられない細かい領域を捉えている可能性が⽰唆される.

提案⼿法2. 敵対的サンプルへの防御 17 • あるモデル𝑓) において有効な敵対的サンプル G 𝑥 が存在する場合, 同じ構造の
モデル𝑓' においてもG 𝑥が敵対的に有効であることが多い. [Domontis+, 18] → 同じアーキテクチャのモデル𝑓) , 𝑓' について, それらの中間層 𝑔) , 𝑔' の相関を下げれば, 敵対的サンプルへの防御に繋がる → そこで, 以下のような損失を定義 • 𝑔) (𝑥), 𝑔' (𝑥) の次元は⼀致しなくても良いことに注意

結果2. 相関を損失に加えることで敵対的サンプルへの防御率が向上 18 • 攻撃⼿法: FGM[Goodfellow+, ICLR14], PGD[Madry+, ICLR18] •
どの攻撃⼿法においても敵対的サンプルへの防御率が上がっている • 特にResNet-18 + PGDにおいては約10%もaccuracyが向上

提案⼿法3. Disentangledな表現の学習 19 • Disentangledな表現 : 互いに独⽴な潜在表現を獲得すること • e.g. 顔写真に対して,
ageやgenderに対応する潜在表現を得る • [Gabbay+, NeurIPS21]と同じ要領で学習 (Appendix参照) • 元論⽂では latent code 𝑟 に対して, 以下を損失の⼀部に使⽤したが, • 本論⽂では, 属性 𝑓), 𝑓', … , 𝑓4 に対して以下を 𝐿567 とする [Gabbay+, NeurIPS21]

結果3. 別の属性に影響されることなく特定の属性のみを変更可能 20 • データセット: FFHQ[Karras+, CVPR19] • GeneratorにStyleGAN2[Karras+, CVPR20]を使⽤
• 別の属性に影響されることなく, 特定の属性のみを変更することが出来ている

まとめ 21 ü 背景 • ⼆つのモデルの挙動を⽐較することは極めて重要 • しかし, 異なるアーキテクチャ同⼠の⽐較⼿法は依然として研究が不⼗分 ü
提案⼿法 • Distance CorrelationとPartial Distance CorrelationをDNNの解析に応⽤する汎⽤的な⼿法を提案 ü 結果 • 異なるアーキテクチャ同⼠の⽐較, 敵対的サンプルへの防御, Disentangledな表現の学習など, 多様な応⽤への有効性が検証された

Appendix : [Gabbay+, NeurIPS21]について 22 • 注⽬したい属性 𝑓), 𝑓', …
, 𝑓4 と残差属性 𝑟 をもとに画像を⽣成する • したがって, 𝑟 に 𝑓), 𝑓', … , 𝑓4 がleakしないようにしたい → 𝑟 との相関を下げる上で, DCの応⽤が期待できる

Appendix : DCの実装⽅法 23

Appendix : PDCの実装 24 ℛ& 𝑋 | 𝑌, 𝐺𝑇

Appendix : Double Centeringについて 25 • Double Centering • 単位⾏列
𝐼 と全ての成分が1の 𝑛 × 𝑛 ⾏列 𝐽 を⽤いて, • 上式を計算することをDouble Centeringと呼ぶ. • この計算により, ⾏と列の平均はそれぞれ0となる.

Appendix :内積の期待値が𝒱# " 𝑥, 𝑦 となる証明 (1/2) 26 G ́
abor J. Sz ́ ekely et al., “Partial distance correlation with methods for dissimilarities”, The Annals of Statistics, Vol. 42, No. 6, pp. 2382 – 2412 (2014)

Appendix :内積の期待値が𝒱# " 𝑥, 𝑦 となる証明 (2/2) 27 G ́
abor J. Sz ́ ekely et al., “Partial distance correlation with methods for dissimilarities”, The Annals of Statistics, Vol. 42, No. 6, pp. 2382 – 2412 (2014)

[Journal club] On the Versatile Uses of Partial...

[Journal club] On the Versatile Uses of Partial Distance Correlation in Deep Learning

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

On the Versatile Uses of Partial Distance Correlation in Deep

概要 2 ü 背景 • ⼆つのモデルの挙動を⽐較することは極めて重要 • しかし, 異なるアーキテクチャ同⼠の⽐較⼿法は依然として研究が不⼗分 ü

背景 : 異なるアーキテクチャ同⼠の⽐較⼿法は依然として研究が不⼗分 3 • ⼆つのモデルの挙動を⽐較することは極めて重要 • しかし, 異なるアーキテクチャ同⼠の⽐較⼿法は依然として研究が不⼗分 •

DCとPDCをDNNの解析に応⽤する汎⽤的な⼿法を提案 4 o Distance Correlation (DC)とPartial Distance Correlation (PDC)をDNNの解析に応⽤する汎⽤的な⼿法を提案

Distance Correlation : 点同⼠の距離を⽤いた相関係数 5 o Distance Correlation (DC) •

Distance Correlation : 点同⼠の距離を⽤いた相関係数 6 • あるサンプル 𝑥, 𝑦 =

Distance Correlation : 点同⼠の距離を⽤いた相関係数 7 • このとき, 以下に⽰す ℛ& '(𝑥,

主張 : DCは次元の揃わない中間層の出⼒を⽐較することが可能 8 • モデル 𝑋, 𝑌 のある層の出⼒をそれぞれ 𝑥

Partial Distance Correlation : DCを拡張した相関係数 9 o Partial Distance Correlation

Partial Distance Correlation : 性質の良いヒルベルト空間を⽤意 10 • このとき, = 𝐴

Partial Distance Correlation : ℛ 𝑋 𝑍, 𝑌 𝑍 =

提案⼿法1. モデルにおける情報量の⽐較 12 • DCは出⼒の次元に依存しないので, 異なるアーキテクチャのモデル同⼠を⽐較することが可能 (e.g. ViT [Dosovitskiy+,

提案⼿法1. モデルにおける情報量の⽐較 13 • PDCを⽤いることで, 「モデルYが学習した情報」以外にモデルXが何を学習したのかを定量化することが可能 • ℛ' 𝑋

提案⼿法1. ⽚⽅のモデルの学習情報を取り除くための損失を定義 14 o ⽬標 : モデルXとモデルYの学習情報の違いを解析する • モデルXから「モデルYの学習情報」を取り除くため, 以下のような損失を使⽤

結果1-1. ℛ" 𝑋 | 𝑌, 𝐺𝑇 から様々な可能性が⽰唆される 15 • ViTはResNetと⽐べてより⾔語的

結果1-2. ViTはResNetとは異なり詳細な領域を捉えている可能性 16 • Grad-CAM[Selvaraju, ICCV17]による可視化 • ViT \ ResNet

提案⼿法2. 敵対的サンプルへの防御 17 • あるモデル𝑓) において有効な敵対的サンプル G 𝑥 が存在する場合, 同じ構造の

結果2. 相関を損失に加えることで敵対的サンプルへの防御率が向上 18 • 攻撃⼿法: FGM[Goodfellow+, ICLR14], PGD[Madry+, ICLR18] •

提案⼿法3. Disentangledな表現の学習 19 • Disentangledな表現 : 互いに独⽴な潜在表現を獲得すること • e.g. 顔写真に対して,

結果3. 別の属性に影響されることなく特定の属性のみを変更可能 20 • データセット: FFHQ[Karras+, CVPR19] • GeneratorにStyleGAN2[Karras+, CVPR20]を使⽤

まとめ 21 ü 背景 • ⼆つのモデルの挙動を⽐較することは極めて重要 • しかし, 異なるアーキテクチャ同⼠の⽐較⼿法は依然として研究が不⼗分 ü

Appendix : [Gabbay+, NeurIPS21]について 22 • 注⽬したい属性 𝑓), 𝑓', …

Appendix : DCの実装⽅法 23

Appendix : PDCの実装 24 ℛ& 𝑋 | 𝑌, 𝐺𝑇

Appendix : Double Centeringについて 25 • Double Centering • 単位⾏列

Appendix :内積の期待値が𝒱# " 𝑥, 𝑦 となる証明 (1/2) 26 G ́

Appendix :内積の期待値が𝒱# " 𝑥, 𝑦 となる証明 (2/2) 27 G ́