Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:Inter-domain Gaussian Processes

論文紹介:Inter-domain Gaussian Processes

原論文: Miguel Lázaro-Gredilla, Aníbal Figueiras-Vidal, "Inter-domain Gaussian Processes for Sparse Inference using Inducing Features," NeurIPS'09.

Avatar for Takahiro Kawashima

Takahiro Kawashima

June 14, 2022
Tweet

More Decks by Takahiro Kawashima

Other Decks in Research

Transcript

  1. 論文情報 • Title: Inter-domain Gaussian Processes for Sparse Inference using

    Inducing Features • Authors: Miguel Lázaro-Gredilla, Aníbal Figueiras-Vidal • Published in: NeurIPS 2009 GP の出力を適当な特徴空間に写し,特徴空間上での inducing points を考える1 1変分推論ではなく FITC の意味で. 3
  2. GP の変換 𝒙 ∈ ℝ𝐷 を入力とする GP𝑓(𝒙) ∼ GP(𝑚(𝒙), 𝑘(𝒙,

    𝒙′)) を 𝑢(𝒛) = ∫ ℝ𝐷 𝑓(𝒙)𝑔(𝒙, 𝒛)𝑑𝒙 なる 𝑢(𝒛) に変換.𝑔(𝒙, 𝒛) は適当な決定論的関数2. • 𝑢 は GP𝑓 の線形変換なので,やはり GP • 𝒙 が属する入力空間から,𝒛 の属する特徴空間へ GP𝑓 を変換 している • 𝑓 ↦ 𝑢 の変換は非可逆でもよい 考えられる 𝑔(𝒙, 𝒛) の代表例はフーリエ特徴. 2𝑔(𝒙, 𝒛) = 𝛿(𝒙 − 𝒛) なら恒等変換. 4
  3. IDGP の特徴づけ 𝑓(𝒙) が zero-mean GP とすれば,“inter-domain” な共分散関数は 𝑘(𝒙, 𝒛′)

    = 𝔼[𝑓(𝒙)𝑢(𝒛′)] = 𝔼 [𝑓(𝒙) ∫ 𝑓(𝒙′)𝑔(𝒙′, 𝒛′)𝑑𝒙′] = ∫ 𝔼[𝑓(𝒙)𝑓(𝒙′)]𝑔(𝒙′, 𝒛′)𝑑𝒙′ = ∫ 𝑘(𝒙, 𝒙′)𝑔(𝒙′, 𝒛′)𝑑𝒙′. また transformed domain での共分散関数も同様に, 𝑘(𝒛, 𝒛′) = 𝔼[𝑢(𝒛)𝑢(𝒛′)] = ∬ 𝑘(𝒙, 𝒙′)𝑔(𝒙, 𝒛)𝑔(𝒙′, 𝒛′)𝑑𝒙𝑑𝒙′. 5
  4. transformed domain からのサンプル “inter-domain” な同時分布 𝑝 ([ 𝒇 𝒖 ]∣

    𝑿, 𝒁) = N ([ 𝒇 𝒖 ]∣ 𝟎, [ 𝑲ff 𝑲fu 𝑲⊤ fu 𝑲uu ]) から条件付き分布 𝑝(𝒇|𝒖) を考えれば,特徴空間上の表現を加味 したサンプルが得られる. ここで 𝒇 = (𝑓(𝒙1 ), … , 𝑓(𝒙𝑛 ))⊤, 𝒖 = (𝑢(𝒛1 ), … , 𝑢(𝒛𝑚 ))⊤. また 𝑲ff , 𝑲fu , 𝑲uu はそれぞれ入力点 𝒙1 , … , 𝒙𝑛 , 𝒛1 , … , 𝒛𝑚 と 共 分散関数 𝑘(𝒙, 𝒙′), 𝑘(𝒙, 𝒛), 𝑘(𝒛, 𝒛′) から算出される行列. 6
  5. FITC における独立性の仮定 特徴空間上の GP 出力 𝒖 を inducing points と考え,FITC3により

    事後分布を近似. すなわち 𝑝(𝒇|𝑿, 𝒁, 𝒖) ≈ 𝑛 ∏ 𝑗=1 𝑝(𝑓𝑗 |𝒙𝑗 , 𝒁, 𝒖) = 𝑛 ∏ 𝑗=1 N(𝑓𝑗 |𝒌𝑗 𝑲−1 uu 𝒖, 𝜆𝑗 ) と事後分布の独立性を仮定する.ここで 𝒌𝑗 = (𝑘(𝒙𝑗 , 𝒛1 ), … , 𝑘(𝒙𝑗 , 𝒛𝑚 ))⊤, 𝜆𝑗 = [𝜦f ]𝑗𝑗 , 𝜦f = diag(𝑲ff − 𝑲fu 𝑲−1 uu 𝑲⊤ fu ). 3Fully Independent Training Conditional model. 7
  6. FITC による事後分布と予測分布 𝑝(𝒖|𝒁) も Gaussian なので 𝒇 の条件付き事前分布も Gaussian: 𝑝(𝒇|𝑿,

    𝒁) ≈ ∫ 𝑛 ∏ 𝑗=1 𝑝(𝑓𝑗 |𝒙𝑗 , 𝒁, 𝒖)𝑝(𝒖|𝒁)𝑑𝒖 = N(𝒇|𝟎, 𝑲fu 𝑲−1 uu 𝑲⊤ fu − 𝜦f ). また D = {(𝒙𝑖 , 𝑦𝑖 )𝑛 𝑖=1 } のもとの予測分布も次のように近似可能: 𝑝IDGP (𝑦∗ |𝒙∗ D, 𝒁) = N(𝑦∗ |𝑚∗ , 𝜎2 ∗ ) 𝑚∗ = 𝒌⊤ u∗ 𝑸−1𝑲⊤ fu 𝜦−1 y 𝒚, 𝜎2 ∗ = 𝜎2 + 𝑘∗∗ + 𝒌⊤ u∗ (𝑸−1 − 𝑲−1 uu 𝒌u∗ ), 𝑸 = 𝑲uu + 𝑲⊤ fu 𝜦−1 y 𝑲fu 𝜦y = 𝜦f + 𝜎2𝑰 ∠  O(𝑚2𝑛) で評価可能 8
  7. 特徴抽出関数の選択 𝑔(𝒙, 𝒛) はいわば 𝑓 ∼ GP の特徴抽出関数 原論文では 𝑔(𝒙,

    𝒛) として 3 種が提案されている: • Sparse Multiscale GP (SMGP) ∠ 次元ごとに異なる lengthscales の ARD 基底から特徴抽出 • Frequency Inducing Features (FIF) ∠ フーリエ特徴量に窓関数をかけたもの • Time-Frequency Inducing Features (TFIF) ∠ FIF の窓関数の位相に自由度をもたせたもの 9
  8. 特徴抽出関数:SMGP Sparse Multiscale GP (SMGP) [1] の特徴抽出関数は次で定義: 𝑔SMGP (𝒙, 𝒛)

    = 1 ∏ 𝑑 √2𝜋(𝑐2 𝑑 − ℓ2 𝑑 ) exp [− 𝐷 ∑ 𝑑=1 (𝑥𝑑 − 𝜇𝑑 )2 2(𝑐2 𝑑 − ℓ2 𝑑 ) ] , 𝒛 = (𝝁⊤, 𝒄⊤)⊤, 𝑐2 𝑑 ≥ ℓ2 𝑑 . 𝑙2 𝑑 : 大域的な lengthscaes(ハイパラ) 𝑐2 𝑑 : 局所的な lengthscales (inducing points) 𝜇𝑑 : ARD 基底の中心 (inducing points) ∠ 次元ごとにスケールの異なる ARD 基底から特徴抽出 10
  9. 特徴抽出関数:FIF Frequency Inducing Features (FIF) の特徴抽出関数は次で定義: 𝑔FIF (𝒙, 𝒛) =

    1 ∏ 𝑑 √2𝜋𝑐2 𝑑 exp [− 𝐷 ∑ 𝑑=1 𝑥2 𝑑 2𝑐2 𝑑 ] ⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟ Gaussian window cos (𝜔0 + 𝐷 ∑ 𝑑=1 𝑥𝑑 𝜔𝑑 ) ⏟⏟⏟⏟⏟⏟⏟⏟⏟ フーリエ特徴 , 𝒛 = 𝝎. 𝑐2 𝑑 : Gaussian window の lengthscales(ハイパラ) 𝜔0 : 位相(inducing points) 𝜔1 , … , 𝜔𝐷 : 各次元における周波数(inducing points) ∠ 周波数領域で周波数 𝜔𝑑 を Gaussian でぼかした特徴量 4 4入力空間で積をとってるので周波数領域ではたたみ込み. 11
  10. 特徴抽出関数:TFIF Time-Frequency Inducing Features (TFIF) の特徴抽出関数は次で 定義: 𝑔TFIF (𝒙, 𝒛)

    = 𝑔FIF (𝒙 − 𝝁, 𝝎), 𝒛 = (𝝁⊤, 𝝎⊤)⊤. 𝝁: 各次元の Gaussian window の中心 (inducing points) 𝝎: FIF と同様 (inducing points) ∠ 各次元で Gaussian Window の中心をずらせるよう FIF を拡張 12
  11. 実験 1 MSEs/Negative Log Probs on Kin-40k(10k/30k train/test samples, 𝐷

    = 8) and Pumadyn-32nm (7168/1024 train/test samples, 𝐷 = 32). 13
  12. 実験 2 MSEs/Negative Log Probs on Pole Telecomm(10k/5k train/test samples,

    𝐷 = 26) and Elevators (8752/7847 train/test samples, 𝐷 = 17). 14
  13. むすび • 特徴抽出関数 𝑔(𝒙, 𝒛) により定まる特徴空間へ入力空間上の もとの GP を変換し,inter-domain な

    GP を考える • 変換後の空間での GP を inducing point とし,事後分布を FITC で近似 ∠ データの性質に即してうまく特徴抽出関数と inducing points を選べば優れたパフォーマンスが得られる その後の展開 • Variational Fourier Features (VFF) [2] ∠ フーリエ特徴を用いた GP の変分近似をもっと本気で考える • Convolutional Gaussian Processes [3] ∠ 局所的なパッチ特徴(辞書)を inducing points とし,画像の ための IDGP を提案 15
  14. References [1] C.Walder, K.I.Kim, and B.Schölkopf, “Sparse Multiscale Gaussian Process

    Regression,” ICML’08 (2008). [2] J.Hensman, N.Durrande, A.Solin, “Variational Fourier features for Gaussian processes,” JMLR vol.18 (2017) [3] M.v.d.Wilk, C.E.Rasmussen, J.Hensman, “Convolutional Gaussian Processes,” NeurIPS 30 (2017). 16