Variance of the FIM Estimators Effect of Neural Network Derivatives References 論文紹介:On the Variance of the Fisher Information for Deep Learning Masanari Kimura 総研大 統計科学専攻 日野研究室 [email protected]
Variance of the FIM Estimators Effect of Neural Network Derivatives References TL;DR ▶ DNN の Fisher 情報行列の推定量について,それらの振る舞いを分散の意味で分析; ▶ Soen and Sun [2021] 4/25
Variance of the FIM Estimators Effect of Neural Network Derivatives References Basic notations 全体を通して Einstein 縮約を採用(e.g.,ai bi = i ai bi ) . ▶ I(θ):Fisher information matrix(FIM) ; ▶ ˆ I(θ):FIM の推定量; ▶ hl :ニューラルネットワークの l 層の出力; ▶ hL :ニューラルネットワークの最終層の出力(自然パラメータ) ; ▶ nl :ニューラルネットワークの l 層のサイズ; ▶ θ = {Wl−1 }L l−1 }L l=1 :L 層のニューラルネットワークのパラメータ; ▶ z = (x, y). 5/25
Variance of the FIM Estimators Effect of Neural Network Derivatives References Estimators for FIM ▶ FIM は DNNs の理論上,応用上ともに重要な概念(e.g. natural gradient) ; ▶ 期待値を含む FIM の真の値は得られないため,推定量を考える必要がある. ˆ I1 (θ) = 1 N N i=1 ∂ℓi ∂θ ∂ℓi ∂θT , (3) ˆ I2 (θ) = − 1 N N i=1 ∂2ℓi ∂θ∂θT . (4) これらが真の I(θ) からどれだけ離れているか,もしくはどれだけ早く収束するかを議論 するために分散を考えたい. 8/25
Variance of the FIM Estimators Effect of Neural Network Derivatives References Estimators for FIM on the Neural Networks ˆ I1 (θ) と ˆ I2 (θ) は現実的な計算量の元での FIM の推定量になる.p(y|x, θ) が Eq. (5)で与 えられる形のとき,Eq. (7)および Eq. (8)から,これらは以下で計算される. ˆ I1 (θ) = ∂ha L ∂θ · 1 N N i=1 (ta(yi) − ηa)(tb(yi) − ηb) · ∂hb L ∂θT , (10) ˆ I2 (θ) = ηa − 1 N N i=1 ta(yi) ∂2ha L ∂θ∂θT + ∂ha L ∂θ Iab(hL) ∂hb L ∂θT . (11) Eq. (11)の右辺の第二項は FIM そのものになることから,第一項がバイアス項であること がわかる. 14/25
Variance of the FIM Estimators Effect of Neural Network Derivatives References Effect of Neural Network Derivatives I 前定理から,DNNs の微分が2つの推定量の分散に影響を与えることがわかる. Lemma ∂ℓ ∂Wi = Di ∂ℓ ∂hl+1 , ∂ℓ ∂hl = BT i (t(y) − η(hL)), ∂ha L ∂Wl = Dl BT l+1 ea ¯ hT l , (19) ここで ea は a 番目の標準基底ベクトルであり,Bl と Dl は以下のように再帰的に定義さ れる. BL = I, Bl = Bl+1 Dl W− l , DL−1 = I, Dl = diag(σ′(Wl ¯ hl)). 20/25
Variance of the FIM Estimators Effect of Neural Network Derivatives References Effect of Neural Network Derivatives II 全補題から,隠れ層 hl についての FIM は以下のように推定できる: ˆ I1 (hl) = 1 N N i=1 ∂ℓi ∂hl ∂ℓi ∂hT l = BT l 1 N N i=1 (t(yi) − η(hL))(t(yi) − η(hL))T Bl. Bl は1つ前の層から次の層へ再帰的に評価されるため,FIM も同様に ˆ I(θ) に基づいて再 帰的に推定できる.これは誤差逆伝播法の手続きに類似. 21/25
Variance of the FIM Estimators Effect of Neural Network Derivatives References Conclusion ▶ FIM の推定精度向上 →FIM に依存するアルゴリズム(e.g., natural gradient descent) の性能向上なので,FIM の推定量の精度評価は重要; ▶ FIM の 2 つの推定量の分散の挙動をそれぞれ分析し上界を導出; ▶ 重みパラメータへの適切な正則化が FIM の推定性能向上に寄与することを導出. 24/25
Variance of the FIM Estimators Effect of Neural Network Derivatives References References I Alexander Soen and Ke Sun. On the variance of the fisher information for deep learning. In M. Ranzato, A. Beygelzimer, Y. Dauphin, P.S. Liang, and J. Wortman Vaughan, editors, Advances in Neural Information Processing Systems, volume 34, pages 5708–5719. Curran Associates, Inc., 2021. URL https://proceedings.neurips.cc/ paper/2021/file/2d290e496d16c9dcaa9b4ded5cac10cc-Paper.pdf. 25/25