Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:Inter-domain Gaussian Processes

論文紹介:Inter-domain Gaussian Processes

原論文: Miguel Lázaro-Gredilla, Aníbal Figueiras-Vidal, "Inter-domain Gaussian Processes for Sparse Inference using Inducing Features," NeurIPS'09.

Takahiro Kawashima

June 14, 2022
Tweet

More Decks by Takahiro Kawashima

Other Decks in Research

Transcript

  1. 論文情報 • Title: Inter-domain Gaussian Processes for Sparse Inference using

    Inducing Features • Authors: Miguel Lázaro-Gredilla, Aníbal Figueiras-Vidal • Published in: NeurIPS 2009 GP の出力を適当な特徴空間に写し,特徴空間上での inducing points を考える1 1変分推論ではなく FITC の意味で. 3
  2. GP の変換 𝒙 ∈ ℝ𝐷 を入力とする GP𝑓(𝒙) ∼ GP(𝑚(𝒙), 𝑘(𝒙,

    𝒙′)) を 𝑢(𝒛) = ∫ ℝ𝐷 𝑓(𝒙)𝑔(𝒙, 𝒛)𝑑𝒙 なる 𝑢(𝒛) に変換.𝑔(𝒙, 𝒛) は適当な決定論的関数2. • 𝑢 は GP𝑓 の線形変換なので,やはり GP • 𝒙 が属する入力空間から,𝒛 の属する特徴空間へ GP𝑓 を変換 している • 𝑓 ↦ 𝑢 の変換は非可逆でもよい 考えられる 𝑔(𝒙, 𝒛) の代表例はフーリエ特徴. 2𝑔(𝒙, 𝒛) = 𝛿(𝒙 − 𝒛) なら恒等変換. 4
  3. IDGP の特徴づけ 𝑓(𝒙) が zero-mean GP とすれば,“inter-domain” な共分散関数は 𝑘(𝒙, 𝒛′)

    = 𝔼[𝑓(𝒙)𝑢(𝒛′)] = 𝔼 [𝑓(𝒙) ∫ 𝑓(𝒙′)𝑔(𝒙′, 𝒛′)𝑑𝒙′] = ∫ 𝔼[𝑓(𝒙)𝑓(𝒙′)]𝑔(𝒙′, 𝒛′)𝑑𝒙′ = ∫ 𝑘(𝒙, 𝒙′)𝑔(𝒙′, 𝒛′)𝑑𝒙′. また transformed domain での共分散関数も同様に, 𝑘(𝒛, 𝒛′) = 𝔼[𝑢(𝒛)𝑢(𝒛′)] = ∬ 𝑘(𝒙, 𝒙′)𝑔(𝒙, 𝒛)𝑔(𝒙′, 𝒛′)𝑑𝒙𝑑𝒙′. 5
  4. transformed domain からのサンプル “inter-domain” な同時分布 𝑝 ([ 𝒇 𝒖 ]∣

    𝑿, 𝒁) = N ([ 𝒇 𝒖 ]∣ 𝟎, [ 𝑲ff 𝑲fu 𝑲⊤ fu 𝑲uu ]) から条件付き分布 𝑝(𝒇|𝒖) を考えれば,特徴空間上の表現を加味 したサンプルが得られる. ここで 𝒇 = (𝑓(𝒙1 ), … , 𝑓(𝒙𝑛 ))⊤, 𝒖 = (𝑢(𝒛1 ), … , 𝑢(𝒛𝑚 ))⊤. また 𝑲ff , 𝑲fu , 𝑲uu はそれぞれ入力点 𝒙1 , … , 𝒙𝑛 , 𝒛1 , … , 𝒛𝑚 と 共 分散関数 𝑘(𝒙, 𝒙′), 𝑘(𝒙, 𝒛), 𝑘(𝒛, 𝒛′) から算出される行列. 6
  5. FITC における独立性の仮定 特徴空間上の GP 出力 𝒖 を inducing points と考え,FITC3により

    事後分布を近似. すなわち 𝑝(𝒇|𝑿, 𝒁, 𝒖) ≈ 𝑛 ∏ 𝑗=1 𝑝(𝑓𝑗 |𝒙𝑗 , 𝒁, 𝒖) = 𝑛 ∏ 𝑗=1 N(𝑓𝑗 |𝒌𝑗 𝑲−1 uu 𝒖, 𝜆𝑗 ) と事後分布の独立性を仮定する.ここで 𝒌𝑗 = (𝑘(𝒙𝑗 , 𝒛1 ), … , 𝑘(𝒙𝑗 , 𝒛𝑚 ))⊤, 𝜆𝑗 = [𝜦f ]𝑗𝑗 , 𝜦f = diag(𝑲ff − 𝑲fu 𝑲−1 uu 𝑲⊤ fu ). 3Fully Independent Training Conditional model. 7
  6. FITC による事後分布と予測分布 𝑝(𝒖|𝒁) も Gaussian なので 𝒇 の条件付き事前分布も Gaussian: 𝑝(𝒇|𝑿,

    𝒁) ≈ ∫ 𝑛 ∏ 𝑗=1 𝑝(𝑓𝑗 |𝒙𝑗 , 𝒁, 𝒖)𝑝(𝒖|𝒁)𝑑𝒖 = N(𝒇|𝟎, 𝑲fu 𝑲−1 uu 𝑲⊤ fu − 𝜦f ). また D = {(𝒙𝑖 , 𝑦𝑖 )𝑛 𝑖=1 } のもとの予測分布も次のように近似可能: 𝑝IDGP (𝑦∗ |𝒙∗ D, 𝒁) = N(𝑦∗ |𝑚∗ , 𝜎2 ∗ ) 𝑚∗ = 𝒌⊤ u∗ 𝑸−1𝑲⊤ fu 𝜦−1 y 𝒚, 𝜎2 ∗ = 𝜎2 + 𝑘∗∗ + 𝒌⊤ u∗ (𝑸−1 − 𝑲−1 uu 𝒌u∗ ), 𝑸 = 𝑲uu + 𝑲⊤ fu 𝜦−1 y 𝑲fu 𝜦y = 𝜦f + 𝜎2𝑰 ∠  O(𝑚2𝑛) で評価可能 8
  7. 特徴抽出関数の選択 𝑔(𝒙, 𝒛) はいわば 𝑓 ∼ GP の特徴抽出関数 原論文では 𝑔(𝒙,

    𝒛) として 3 種が提案されている: • Sparse Multiscale GP (SMGP) ∠ 次元ごとに異なる lengthscales の ARD 基底から特徴抽出 • Frequency Inducing Features (FIF) ∠ フーリエ特徴量に窓関数をかけたもの • Time-Frequency Inducing Features (TFIF) ∠ FIF の窓関数の位相に自由度をもたせたもの 9
  8. 特徴抽出関数:SMGP Sparse Multiscale GP (SMGP) [1] の特徴抽出関数は次で定義: 𝑔SMGP (𝒙, 𝒛)

    = 1 ∏ 𝑑 √2𝜋(𝑐2 𝑑 − ℓ2 𝑑 ) exp [− 𝐷 ∑ 𝑑=1 (𝑥𝑑 − 𝜇𝑑 )2 2(𝑐2 𝑑 − ℓ2 𝑑 ) ] , 𝒛 = (𝝁⊤, 𝒄⊤)⊤, 𝑐2 𝑑 ≥ ℓ2 𝑑 . 𝑙2 𝑑 : 大域的な lengthscaes(ハイパラ) 𝑐2 𝑑 : 局所的な lengthscales (inducing points) 𝜇𝑑 : ARD 基底の中心 (inducing points) ∠ 次元ごとにスケールの異なる ARD 基底から特徴抽出 10
  9. 特徴抽出関数:FIF Frequency Inducing Features (FIF) の特徴抽出関数は次で定義: 𝑔FIF (𝒙, 𝒛) =

    1 ∏ 𝑑 √2𝜋𝑐2 𝑑 exp [− 𝐷 ∑ 𝑑=1 𝑥2 𝑑 2𝑐2 𝑑 ] ⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟ Gaussian window cos (𝜔0 + 𝐷 ∑ 𝑑=1 𝑥𝑑 𝜔𝑑 ) ⏟⏟⏟⏟⏟⏟⏟⏟⏟ フーリエ特徴 , 𝒛 = 𝝎. 𝑐2 𝑑 : Gaussian window の lengthscales(ハイパラ) 𝜔0 : 位相(inducing points) 𝜔1 , … , 𝜔𝐷 : 各次元における周波数(inducing points) ∠ 周波数領域で周波数 𝜔𝑑 を Gaussian でぼかした特徴量 4 4入力空間で積をとってるので周波数領域ではたたみ込み. 11
  10. 特徴抽出関数:TFIF Time-Frequency Inducing Features (TFIF) の特徴抽出関数は次で 定義: 𝑔TFIF (𝒙, 𝒛)

    = 𝑔FIF (𝒙 − 𝝁, 𝝎), 𝒛 = (𝝁⊤, 𝝎⊤)⊤. 𝝁: 各次元の Gaussian window の中心 (inducing points) 𝝎: FIF と同様 (inducing points) ∠ 各次元で Gaussian Window の中心をずらせるよう FIF を拡張 12
  11. 実験 1 MSEs/Negative Log Probs on Kin-40k(10k/30k train/test samples, 𝐷

    = 8) and Pumadyn-32nm (7168/1024 train/test samples, 𝐷 = 32). 13
  12. 実験 2 MSEs/Negative Log Probs on Pole Telecomm(10k/5k train/test samples,

    𝐷 = 26) and Elevators (8752/7847 train/test samples, 𝐷 = 17). 14
  13. むすび • 特徴抽出関数 𝑔(𝒙, 𝒛) により定まる特徴空間へ入力空間上の もとの GP を変換し,inter-domain な

    GP を考える • 変換後の空間での GP を inducing point とし,事後分布を FITC で近似 ∠ データの性質に即してうまく特徴抽出関数と inducing points を選べば優れたパフォーマンスが得られる その後の展開 • Variational Fourier Features (VFF) [2] ∠ フーリエ特徴を用いた GP の変分近似をもっと本気で考える • Convolutional Gaussian Processes [3] ∠ 局所的なパッチ特徴(辞書)を inducing points とし,画像の ための IDGP を提案 15
  14. References [1] C.Walder, K.I.Kim, and B.Schölkopf, “Sparse Multiscale Gaussian Process

    Regression,” ICML’08 (2008). [2] J.Hensman, N.Durrande, A.Solin, “Variational Fourier features for Gaussian processes,” JMLR vol.18 (2017) [3] M.v.d.Wilk, C.E.Rasmussen, J.Hensman, “Convolutional Gaussian Processes,” NeurIPS 30 (2017). 16