Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ベイズ深層学習(3.3~3.4)

catla
January 31, 2020

 ベイズ深層学習(3.3~3.4)

筑波大HCOMP研究室の勉強会資料です.
内容はベイズ深層学習(著 須山敦志)の3.3から3.4節です.
日本一(誇張)ベイズ線形回帰の計算を丁寧に書いたつもりです.
本に誤記の"可能性"があります.(自分の計算が間違っている可能性もある.)
違うとかあれば連絡ください.

catla

January 31, 2020
Tweet

More Decks by catla

Other Decks in Science

Transcript

  1. Ψ΢ε෼෍ͷର਺ม׵ ɹฏۉ ڞ෼ࢄ ͷ ࣍ݩΨ΢ε෼෍ʹ͍ͭͯߟ͑Δɽ   ର਺ม׵͢Δͱɼ  μ

    ∈ ℝM Σ ∈ ℝM×M M (x|μ, Σ) = 1 (2π)M |Σ| exp (− 1 2 (x − μ)TΣ−1(x − μ)) x ∈ ℝM log (x|μ, Σ) = − 1 2 (x − μ)TΣ−1(x − μ)− 1 2 log ((2π)M |Σ|) = − 1 2 (x − μ)TΣ−1(x − μ)+C = − 1 2 (xTΣ−1 − μTΣ−1)(x − μ)+C = − 1 2 (xTΣ−1x−(μTΣ−1)x−xTΣ−1μ+μTΣ−1μ)+C = − 1 2 (xTΣ−1x−xT(μTΣ−1)T−xTΣ−1μ)+C = − 1 2 (xTΣ−1x − xT((Σ−1)T μ) − xTΣ−1μ)+C = − 1 2 (xTΣ−1x − xTΣ−1μ − xTΣ−1μ)+C = − 1 2 (xTΣ−1x − 2xTΣ−1μ)+C (C = − 1 2 {log ((2π)M |Σ|) + μTΣ−1μ}) ϚϋϥϊϏεڑ཭ͷೋ৐ ʢ ʹؔ܎ͳ͍஋Λ ʹ͢Δɽʣ x C  ͸ରশߦྻɽ ʲཧ༝ʳ೚ҙͷ൓ରশͳཁૉ͸ ࢦ਺෦෼͔Βফ͑Δ͔Β Σ−1 ʢ Λਫ਼౓ߦྻͱݺͿɽʣ Σ−1
  2. Ϟσϧ ɹೖྗ ͔Β࿈ଓ஋ͷϥϕϧ Λ ճؼ༧ଌ͢ΔϕΠζઢܗճؼϞσϧͷಉ࣌෼෍ΛҎԼͷΑ͏ʹఆٛ͢Δɽ   ʲԾఆʳ ͸ݻఆ஋ͷ෼ࢄ Λ΋ͭΨ΢ε෼෍ʹैͬͯग़ྗ͢Δɽ

      ಛ௃ྔؔ਺ ɽॏΈύϥϝʔλ ɽ ʲલఏʳ ͸ฏۉ ڞ෼ࢄ ͷΨ΢ε෼෍Λ༩͑Δɽ  X = {x1 , x2 , …, xN }(xn ∈ ℝH0) Y = {y1 , y2 , …, yN }(yn ∈ ℝ) p(Y, w|X) = p(w)p(Y|X, w) = p(w) N ∏ n=1 p(yn |w, xn ) yn σ2 y p(yn , |xn , w) = (yn |wTϕ(xn ), σ2 y ) ϕ : ℝH0 → ℝH1 w ∈ ℝH1 w 0 σ2 w I p(w) = (w|0,σw I)  xn  yn  w  n = 1,…, N άϥϑΟΧϧϞσϧ
  3. ֶशͱ༧ଌ ɹ࣮ࡍʹɼͲͷΑ͏ʹֶशͱ༧ଌΛղੳతʹߦͳ͍ͬͯΔ͔֬ೝ͢Δɽ ࣄޙ෼෍ͷղੳతܭࢉ ɹύϥϝʔλͷࣄޙ෼෍ ͸ɼҎԼͷΑ͏ʹղੳతʹܭࢉՄೳɽ   ର਺Λͱͬͯɼ ʹؔͯ͠੔ཧ͢Δͱɼ 

     ͕ͨͬͯ͠ɼࣄޙ෼෍͸ɼҎԼͷΑ͏ͳΨ΢ε෼෍ʹͳΔɽ   ͨͩ͠ɼ  p(w|Y, X) p(w|Y, X) = p(Y|X, w)p(w) p(Y|X) w log p(w|Y, X) = − 1 2 wT ( σ−2 y N ∑ n=1 ϕ(xn )ϕ(xn )T + (σ−2 w I) ) w − 2wTσ−2 y N ∑ n=1 yn ϕ(xn ) + C p(w|Y, X) = (w| ̂ μ, ̂ Σ) ̂ Σ−1 = σ−2 y N ∑ n=1 ϕ(xn )ϕ(xn )T + (σ−2 w I), ̂ μ = ̂ Σσ−2 y N ∑ n=1 yn ϕ(xn )  (1)  (2)  (3)
  4. ֶशͱ༧ଌ ༧ଌ෼෍ͷղੳతܭࢉ ɹֶशޙʹςετͷೖྗ஋ ͕༩͑ΒΕͨͱ͖ͷ༧ଌ஋ ͷ෼෍ ͸ɼର਺ ΛऔΔͱҎԼͷΑ͏ͳࣜͰද͞ΕΔɽ ɹɹɹɹɹɹɹɹ  ɹΑͬͯɼͪ͜Β΋Ψ΢ε෼෍ʹͳΔɽ

      ͨͩ͠ɼ   x* y* p(y* |x* , X, Y) log p(y* |x* ) = − 1 2 {(σ−2 y − σ−4 y ϕ(x* )T(σ−2 y ϕ(x* )ϕ(x* )T + ̂ Σ−1)−1ϕ(x* ))y2 * −2ϕ(x* )Tσ−2 y (σ−2 y ϕ(x* )ϕ(x* )T + ̂ Σ−1)−1 ̂ Σ−1 ̂ μy* } +C p(y* |x* , X, Y) = (y* |μ* (x* ), σ2 * (x* )) μ(x* ) = ̂ μTϕ(x* ), σ2 * (x* ) = σ2 y + ϕ(x* )T ̂ Σϕ(x* )  (4)  (5)  (6)
  5. ֶशͱ༧ଌʢޡهͷՄೳੑʣ ʮϕΠζਂ૚ֶशʯQࣜ   ln p(y* |x* , Y, X)

    = − 1 2 {σ−2 y − σ−4ϕ(x* )T(σ−2 y ϕ(x* )ϕ(x* )T + ̂ Σ−1)ϕ(x* ))y2 * −2ϕ(x* )Tσ−2 y (σ−2 y ϕ(x* )ϕ(x* )T + ̂ Σ−1)−1 ̂ Σ−1 ̂ μy* } +c  ln p(y* |x* , Y, X) = − 1 2 {(σ−2 y − σ−4 y ϕ(x* )T(σ−2 y ϕ(x* )ϕ(x* )T + ̂ Σ−1)−1ϕ(x* ))y2 * −2ϕ(x* )Tσ−2 y (σ−2 y ϕ(x* )ϕ(x* )T + ̂ Σ−1)−1 ̂ Σ−1 ̂ μy* } +c ޡΓ ͨͿΜ͜ΕʹͳΔ͸ͣ
  6. ֶशͱ༧ଌʢޡهͷՄೳੑʣ ʮϕΠζਂ૚ֶशʯQࣜ   σ2 * (x* ) = σ2

    + ϕ(x* )T ̂ Σϕ(x* )  σ2 * (x* ) = σ2 y + ϕ(x* )T ̂ Σϕ(x* ) ޡΓ
  7. ֶशͱ༧ଌʢ ͷ్தܭࢉʣ (1), (2) ɹ ͷ్தܭࢉ͸ɼҎԼͷΑ͏ʹͳΔɽ    ͷ్தܭࢉ͸ɼҎԼͷΑ͏ʹͳΔɽ

    ɹ ʹ  Ͱදͨ͠ Λ୅ೖ͢Δͱɼ  (1) p(w|Y, X) = p(w, Y, X) p(Y, X) = p(w, Y|X)p(X) p(Y|X)p(X) = p(w, Y|X) p(Y|X) = p(Y|X, w)p(w) p(Y|X) (2) (1) p(Y|X, w), p(w), p(Y|X) p(w|Y, X) = p(Y|X, w)p(w) p(Y|X) ∝ N ∏ n=1 p(yn |w, xn )p(w) = N ∏ n=1 (yn |wTϕ(xn ), σ2 y )(w|0,σw I)
  8. ֶशͱ༧ଌʢ ͷ్தܭࢉʣ (2)  p(w|Y, X) ∝ N ∏ n=1

    (yn |wTϕ(xn ), σ2 y )(w|0,σ2 w I) log p(w|Y, X) = N ∑ n=1 log((yn |wTϕ(xn ), σ2 y )) + log((w|0,σ2 w I)) + const = N ∑ n=1 log 1 2πσ2 y exp (yn − wTϕ(xn )) 2 2σ2 y +log 1 (2π)H1 |σ2 w I| exp (− 1 2 wT(σ−2 w I)w ) + const = N ∑ n=1 {− 1 2 (y2 n σ−2 y − 2yn σ−2 y wTϕ(xn ) + (wTϕ(xn )ϕ(xn )Tw) σ−2 y + log(2πσ2 y ))} − 1 2 {wT(σ−2 w I)w + log ((2π)H1 |σ2 w I|)} + const = N ∑ n=1 {− 1 2 (−2yn σ−2 y wTϕ(xn ) + (wTϕ(xn )ϕ(xn )Tw) σ−2 y )} − 1 2 {wT(σ−2 w I)w} + C = − 1 2 −2wTσ−2 y N ∑ n=1 yn ϕ(xn ) + wT ( σ−2 y N ∑ n=1 ϕ(xn )ϕ(xn )T ) w + wT(σ−2 w I)w + C = − 1 2 wT ( σ−2 y N ∑ n=1 ϕ(xn )ϕ(xn )T + (σ−2 w I) ) w − 2wTσ−2 y N ∑ n=1 yn ϕ(xn ) + C    const : ൺྫ܎਺ͷର਺ C : ൺྫ܎਺ wʹґଘ͠ͳ͍஋
  9. ֶशͱ༧ଌʢ ͷ్தܭࢉʣ (3)  ͷ్தܭࢉ͸ɼҎԼͷΑ͏ʹͳΔɽ  ΑΓɼ  ɹɹ ͳͷͰɼਖ਼ن෼෍ͷର਺ʢ

    ର਺ਖ਼ن෼෍ʣ͕ɹ ɹͳͷͰɼ   ͱ͢Δͱɼ݁Ռͱͯ͠ࣄޙ෼෍͸ҎԼͷΑ͏ͳΨ΢ε෼෍ʹͳΔɽ  (3) (2) log p(w|Y, X) = − 1 2 wT ( σ−2 y N ∑ n=1 ϕ(xn )ϕ(xn )T + (σ−2 w I) ) w − 2wTσ−2 y N ∑ n=1 yn ϕ(xn ) + C ≠ log (x|μ, Σ) = − 1 2 (xTΣ−1x − 2xTΣ−1μ) + C ̂ Σ−1 = σ−2 y N ∑ n=1 ϕ(xn )ϕ(xn )T + (σ−2 w I), ̂ Σ−1 ̂ μ = σ−2 y N ∑ n=1 yn ϕ(xn ), ⇔ ̂ μ = ̂ Σσ−2 y N ∑ n=1 yn ϕ(xn ) p(w|Y, X) = (w| ̂ μ, ̂ Σ)
  10. ֶशͱ༧ଌʢ ్தܭࢉʣ (4), (5), (6)  ͷ్தܭࢉ͸ɼҎԼͷΑ͏ʹͳΔɽ   ֶशσʔλ

    ͱςετσʔλ ͸ಠཱͳͷͰɼ   ͕ͨͬͯ͠ɼ༧ଌ஋ ͷ෼෍͸ ͱ౳ՁͰ͋Δɽ ϕΠζͷఆཧΑΓɼ   ͱͳΔɽ྆ลΛର਺ม׵͢Δͱɼ   ͱͳΔɽ (4), (5), (6) p(y* |x* , X, Y) = p(y* , x* , X, Y) p(x* , X, Y) {X, Y} {x* , y* } p(y* |x* , X, Y) = p(y* , x* )p(X, Y) p(x* )p(X, Y) = p(y* , x* ) p(x* ) = p(y* |x* ) y* p(y* |x* ) p(w|y* , x* ) = p(w)p(y* , x* |w) p(y* , x* ) = p(w)p(y* |x* , w)p(x* ) p(y* |x* )p(x* ) = p(w)p(y* |x* , w) p(y* |x* ) ⇔ p(y* |x* ) = p(w)p(y* |x* , w) p(w|y* , x* ) ∝ p(y* |x* , w) p(w|y* , x* ) log p(y* |x* ) = log p(y* |x* , w) − log p(w|y* , x* )
  11. ֶशͱ༧ଌʢ ్தܭࢉʣ (4), (5), (6) ϥϕϧͷ෼෍ͷԾఆ͓Αͼࣜ Λ༻͍Δͱ৽ͨͳσʔλͷ֬཰ີ౓ؔ਺͸ɼҎԼͷΑ͏ʹදͤΔɽ   

     ͨͩ͠ɼ  (3) p(y* |x* , w) = (y* |wTϕ(x* ), σ2 y ), p(w|y* , x* ) = (w| ̂ μ* , ̂ Σ* ), ̂ Σ−1 * = σ−2 y ∑ n∈{1,2,…,N,* } ϕ(xn )ϕ(xn )T + σ−2 w I = σ−2 y N ∑ n=1 ϕ(xn )ϕ(xn )T + σ−2 w I + σ−2 y ϕ(x* )ϕ(x* )T = ̂ Σ−1 + σ−2 y ϕ(x* )ϕ(x* )T, ̂ μ* = ̂ Σ* σ−2 y ∑ n∈{1,2,…,N,* } yn ϕ(xn ) = ̂ Σ* ( σ−2 y N ∑ n=1 yn ϕ(xn ) + σ−2 y y* ϕ(x* ) ) = ̂ Σ* ( ̂ Σ−1 ̂ μ + σ−2 y y* ϕ(x* )) = ̂ Σ* σ−2 y y* ϕ(x* ) + z z = ̂ Σ* ̂ Σ−1 ̂ μ = ( ̂ Σ−1 + σ−2 y ϕ(x* )ϕ(x* )T ) −1 ̂ Σ−1 ̂ μ (6)
  12. ֶशͱ༧ଌʢ ్தܭࢉʣ (4), (5), (6) ϕΠζͷఆཧΑΓɼ   ͱͳΔɽ྆ลΛର਺ม׵͢Δͱɼ 

     ͱͳΔɽ  p(w|y* , x* ) = p(w)p(y* , x* |w) p(y* , x* ) = p(w)p(y* |x* , w)p(x* ) p(y* |x* )p(x* ) = p(w)p(y* |x* , w) p(y* |x* ) ⇔ p(y* |x* ) = p(w)p(y* |x* , w) p(w|y* , x* ) ∝ p(y* |x* , w) p(w|y* , x* ) log p(y* |x* ) = log p(y* |x* , w) − log p(w|y* , x* ) log p(y* |x* , w) = log (y* |wTϕ(x* ), σ2 y ) = − 1 2 (σ−2 y y2 * − 2σ−2 y wTϕ(x* )y*) + C log p(w|y* , x* ) = log (w| ̂ μ* , ̂ Σ* ) = − 1 2 (−2wTσ−2 y y* ϕ(x* ) + σ−4 y y2 * ϕ(x* )T ̂ Σ* ϕ(x* ) + 2σ−2 y y* ϕ(x* )T ( ̂ Σ−1 + σ−2 y ϕ(x* )ϕ(x* )T ) −1 ̂ Σ−1 ̂ μ ) + C ࣍ͷεϥΠυͰৄ͘͠ܭࢉ
  13. ֶशͱ༧ଌʢ ్தܭࢉʣ (4), (5), (6)  log p(w|y* , x*

    ) = log (w| ̂ μ* , ̂ Σ* ) = − 1 2 (−2wT ̂ Σ* −1 ̂ μ* + ̂ μ* T ̂ Σ* −1 ̂ μ*) + C = − 1 2 (−2wT ̂ Σ* −1 ̂ μ* + ̂ μ* T ̂ Σ* −1 ̂ μ*) + C = − 1 2 (−2wT ̂ Σ* −1 ( ̂ Σ* σ−2 y y* ϕ(x* ) + z) + ̂ μ* T ̂ Σ* −1 ̂ μ*) + C = − 1 2 (−2wTσ−2 y y* ϕ(x* ) + const + ̂ μ* T ̂ Σ* −1 ̂ μ*) + C = − 1 2 (−2wTσ−2 y y* ϕ(x* ) + ̂ μ* T ̂ Σ* −1 ̂ μ*) + C = − 1 2 (−2wTσ−2 y y* ϕ(x* ) + ( ̂ Σ* σ−2 y y* ϕ(x* ) + z) T ̂ Σ* −1 ( ̂ Σ* σ−2 y y* ϕ(x* ) + z)) + C = − 1 2 (−2wTσ−2 y y* ϕ(x* ) + ( ̂ Σ* σ−2 y y* ϕ(x* )) T ̂ Σ* −1 ( ̂ Σ* σ−2 y y* ϕ(x* )) + 2 ( ̂ Σ* σ−2 y y* ϕ(x* )) T ̂ Σ* −1 z ) + C = − 1 2 (−2wTσ−2 y y* ϕ(x* ) + σ−4 y y2 * ϕ(x* )T ̂ ΣT * ̂ Σ* −1 ̂ Σ* ϕ(x* ) + 2σ−2 y y* ϕ(x* )T ̂ ΣT * ̂ Σ* −1 z) + C = − 1 2 (−2wTσ−2 y y* ϕ(x* ) + σ−4 y y2 * ϕ(x* )T ̂ Σ* ϕ(x* ) + 2σ−2 y y* ϕ(x* )T ( ̂ Σ−1 + σ−2 y ϕ(x* )ϕ(x* )T ) −1 ̂ Σ−1 ̂ μ ) + C
  14. ֶशͱ༧ଌʢ ్தܭࢉʣ (4), (5), (6) Αͬͯɼ   ͞ΒʹܭࢉΛਐΊΔͱɼ 

    log p(y* |x* ) = log p(y* |x* , w) − log p(w|y* , x* ) = − 1 2 (σ−2 y y2 * − 2σ−2 y wTϕ(x* )y*) + 1 2 ( −2wTσ−2 y y* ϕ(x* ) + σ−4 y y2 * ϕ(x* )T ̂ Σ* ϕ(x* ) + 2σ−2 y y* ϕ(x* )T (( ̂ Σ + σ−2 y ϕ(x* )ϕ(x* )T ) −1 ̂ Σ−1 ̂ μ )) + C = − 1 2 ((σ−2 y − σ−4 y ϕ(x* )T ̂ Σ* ϕ(x* )) y2 * − 2ϕ(x* )Tσ−2 y ( ̂ Σ + σ−2 y ϕ(x* )ϕ(x* )T ) −1 ̂ Σ−1 ̂ μy*) + C = − 1 2 {(σ−2 y − σ−4 y ϕ(x* )T(σ−2 y ϕ(x* )ϕ(x* )T + ̂ Σ−1)−1ϕ(x* ))y2 * −2ϕ(x* )Tσ−2 y (σ−2 y ϕ(x* )ϕ(x* )T + ̂ Σ−1)−1 ̂ Σ−1 ̂ μy* } +C = − 1 2 {((σ2 y I)−1 − (σ2 y I)−1ϕ(x* )T( ̂ Σ−1 + ϕ(x* )(σ2 y I)−1ϕ(x* )T)−1ϕ(x* )(σ2 y I)−1)y2 * −2(σ−2 y I)ϕ(x* )T(ϕ(x* )(σ−2 y I)ϕ(x* )T + ̂ Σ−1)−1 ̂ Σ−1 ̂ μy* } +C A = σ2 y I, B = ̂ Σ, U = ϕ(x* )T, V = ϕ(x* )ͱ͓͘ͱɼ = − 1 2 {(A−1 − A−1U(B−1 + VA−1U)−1VA−1)y2 * −2A−1VT(VA−1VT + B−1)−1 ̂ Σ−1 ̂ μy* } +C A−1, B−1͸ਖ਼ఆ஋ߦྻͳͷͰɼ8PPECVSZͷެࣜΑΓɼ = − 1 2 {(A + UBV)−1y2 * −2(A + VTBV)−1VTB ̂ Σ−1 ̂ μy* } +C 8PPECVSZͷެࣜ (A + UBV)−1 = A−1 − A−1U(B−1 + VA−1U)−1VA−1 (P−1 + BTR−1B)−1BTR−1 = PBT(BPBT + R)−1  ͕ਖ਼ఆ஋ߦྻͷͱ͖ɼ P, R  ୅ೖͨ͠஋Λ໭͢ͱɼ = − 1 2 {((σ2 y I) + ϕ(x* )T ̂ Σϕ(x* ))−1y2 * −2((σ2 y I) + ϕ(x* )T ̂ Σϕ(x* ))−1ϕ(x* )T ̂ Σ ̂ Σ−1 ̂ μy* } +C = − 1 2 {(σ2 y + ϕ(x* )T ̂ Σϕ(x* ))−1y2 * −2(σ2 y + ϕ(x* )T ̂ Σϕ(x* ))−1ϕ(x* )T ̂ μy* } +C (4)
  15. ֶशͱ༧ଌʢ ్தܭࢉʣ (4), (5), (6) Αͬͯɼ ɹɹɹɹɹɹɹɹɹɹɹɹɹɹ  ͜͜Ͱɼ ɹͱ͢ΔͱɼҎԼͷΑ͏ͳࣜʹͳΔɽ

    ɹɹɹɹɹɹɹɹɹɹɹɹɹɹ  ͕ͨͬͯ͠ɼ ɹɹɹɹɹɹɹɹɹɹɹɹɹɹ log p(y* |x* ) = − 1 2 {(σ2 y + ϕ(x* )T ̂ Σϕ(x* ))−1y2 * −2(σ2 y + ϕ(x* )T ̂ Σϕ(x* ))−1ϕ(x* )T ̂ μy* } +C μ(x* ) = ̂ μTϕ(x* ) = ϕ(x* )T ̂ μ, σ2 * (x* ) = σ2 y + ϕ(x* )T ̂ Σϕ(x* ) log p(y* |x* ) = − 1 2 (σ−2 * (x* )y2 * − 2σ−2 * (x* )μ(x* )y*) + C p(y* |x* ) = p(y* |x* , X, Y) = (y* |μ* (x* ), σ2 * (x* )) (5)
  16. पล໬౓ ɹֶशσʔλͷೖྗू߹ ͕ಘΒΕͨ৚݅ʹ͓͚Δϥϕϧू߹ ͷ৚݅෇͖֬཰   ΛϕΠζઢܗճؼͷɹपล໬౓ɹ͋Δ͍͸ɹΤϏσϯεɹͱ͍͏ɽ ɹʮपล໬౓ʯʹʮϞσϧ͕༩͑ΒΕͨ΋ͱͰͷσʔλͷग़ݱ͢Δ໬΋Β͠͞ʯ Αͬͯɼෳ਺Ϟσϧ ͕༩͑ΒΕͨͱ͖ɼͦΕͧΕͷ౰ͯ͸·Γͷྑ

    ͞ΛఆྔతʹൺֱՄೳɽ ΛɹΤϏσϯεൺͱ͍͏ɽ X Y p(Y|X) = ∫ p(Y|X, w)p(w)dw = exp − 1 2 ( σ−2 y N ∑ n=1 y2 n + N log σ2 y + N log 2π + H1 log σ2 w − ̂ μT ̂ Σ−1 ̂ μ − log| ̂ Σ| ) p1 (Y|X), p2 (Y|X), ⋯, pK (Y|X) pi (Y|X) pj (Y|X) ໰୊఺ ղܾ๏ ػցֶशʹ࢖ΘΕΔϞσϧͰ͸ɼੵ෼͕ࠔ೉ɼܭࢉ͕࣌ؒ๲େͳέʔε͕ଟ͍ɽ w αϯϓϦϯάɹ ੵ෼ͷۙࣅ w ม෼ਪ࿦๏ɹɹ पล໬౓ͷԼքΛࢉग़ɹɹɹͳͲ ⟹ ⟹
  17. ֶशͱ༧ଌʢޡهͷՄೳੑʣ ʮϕΠζਂ૚ֶशʯQࣜ   p(Y|X) = ∫ p(Y|X, w)p(w)dw =

    exp − 1 2 ( σ−2 y N ∑ n=1 y2 n − N log σ2 y + N log 2π + H1 log σ2 w − ̂ μT ̂ Σ−1 ̂ μ − log| ̂ Σ| )  p(Y|X) = ∫ p(Y|X, w)p(w)dw = exp − 1 2 ( σ−2 y N ∑ n=1 y2 n + N log σ2 y + N log 2π + H1 log σ2 w − ̂ μT ̂ Σ−1 ̂ μ − log| ̂ Σ| ) ޡΓ
  18. पล໬౓ʢपล໬౓ͷ్தܭࢉʣ   p(Y|X) = p(w)p(Y|X) p(w) = p(w)p(Y|X) p(w|X)

    ⋅ p(X) p(X) ∵ (p(w) = p(w|X)) = p(w)p(Y, X) p(w, X) = p(w) p(Y, X, w) p(X, w) p(Y, X, w) p(Y, X) = p(w)p(Y|X, w) p(w|Y, X) log p(Y|X) = log p(w) + log p(Y|X, w) − log p(w|Y, X) = log (w|0, σ2 w I) + N ∑ n=1 log (yn |wTϕ(xn ), σ2 y ) − log (w| ̂ μ, ̂ Σ) = − 1 2 σ−2 w wTw − 1 2 (H1 log 2π + log|σ2 w I|) + N ∑ n=1 {− 1 2 σ−2 y (yn − wTϕ(xn )) 2 − 1 2 (log 2π + log σ2 y )} + 1 2 (wT ̂ Σ−1w + wT ̂ Σ−1 ̂ μ) + 1 2 (H1 log 2π + log| ̂ Σ| + ̂ μT ̂ Σ−1 ̂ μ)
  19. पล໬౓ʢपล໬౓ͷ్தܭࢉʣ   log p(Y|X) = − 1 2 σ−2

    w wTw − 1 2 (H1 log 2π + log|σ2 w I|) + N ∑ n=1 {− 1 2 σ−2 y (yn − wTϕ(xn )) 2 − 1 2 (log 2π + log σ2 y )} + 1 2 (wT ̂ Σ−1w + wT ̂ Σ−1 ̂ μ) + 1 2 (H1 log 2π + log| ̂ Σ| + ̂ μT ̂ Σ−1 ̂ μ) = − 1 2 wT(σ−2 w I)w − 1 2 H1 log 2π − 1 2 log(σ2 w )H1 − 1 2 σ−2 y N ∑ n=1 y2 n − 2wT N ∑ n=1 yn ϕ(xn ) + wT ( N ∑ n=1 ϕ(xn )ϕ(xn )T ) w + N log 2π + N log σ2 y + 1 2 wT ̂ Σ−1w + 1 2 wT ̂ Σ−1 ̂ μ + 1 2 H1 log 2π + 1 2 log| ̂ Σ| − 1 2 ̂ μT ̂ Σ−1 ̂ μ = − 1 2 { H1 log 2π + log(σ2 w )H1 + σ−2 y N ∑ n=1 y2 n + N log 2π + N log σ2 y − H1 log 2π − log| ̂ Σ| − ̂ μT ̂ Σ−1 ̂ μ } − 1 2 wT ( −σ−2 y N ∑ n=1 yn ϕ(xn ) + ̂ Σ−1 ̂ μ ) − 1 2 wT ( σ−2 y N ∑ n=1 ϕ(xn )ϕ(xn )T + σ−2 w I − ̂ Σ−1 ) w = − 1 2 { H1 log σ2 w + σ−2 y N ∑ n=1 y2 n + N log 2π + N log σ2 y − log| ̂ Σ| − ̂ μT ̂ Σ−1 ̂ μ } − 1 2 wT (− ̂ Σ−1 ̂ μ + ̂ Σ−1 ̂ μ) − 1 2 wT ( ̂ Σ−1 − ̂ Σ−1 ) w = − 1 2 { σ−2 y N ∑ n=1 y2 n + N log σ2 y + N log 2π + H1 log σ2 w − ̂ μT ̂ Σ−1 ̂ μ − log| ̂ Σ| } p(Y|X) = exp − 1 2 ( σ−2 y N ∑ n=1 y2 n + N log σ2 y + N log 2π + H1 log σ2 w − ̂ μT ̂ Σ−1 ̂ μ − log| ̂ Σ| )
  20. ೳಈֶश΁ͷԠ༻ w ϥϕϧͷͳ͍σʔλू߹͔Βϥϕϧ෇͚͢ΔσʔλΛબ୒͢Δํ๏ͷྫ ɹ࠷΋ෆ࣮֬ੑ͕ߴ͍஋ͷσʔλΛબ୒͢Δɽ  ༧ଌ෼෍ͷΤϯτϩϐʔ͕࠷େͱͳΔೖྗσʔλΛબ୒͢Δɽ ⟹   ϥϕϧແ͠ೖྗσʔλू߹ɿ

     ϥϕϧΛ஌Γ͍ͨೖྗσʔλɿ  Τϯτϩϐʔɿ xq = argmax x* ∈Xpool {F(x* )} F(x* ) = − p(y* |x* ,Y,X) [log p(y* |x* , Y, X)] Xpool xq F( ⋅ ) ઢܗճؼϞσϧͷ৔߹ɼ F(x* ) = 1 2 (1 + log σ2 * (x* ) + log 2π) ∝ σ2 * (x* ) ೳಈֶशͷΑ͏ͳ༧ଌͷෆ࣮֬ੑΛར༻ͨ͠࿮૊Έͱͯ͠ɼະ஌ؔ਺ͷ࠷େ஋୳ࡧʹ࢖ ΘΕΔɹϕΠζ࠷దԽɹ͕͋ΔɽҰൠతʹ༧ଌର৅ʹऑ͍ԾఆΛઃఆՄೳͳɹ Ψ΢εաఔɹ͕࢖ΘΕΔɽ
  21. ೳಈֶश΁ͷԠ༻ʢઢܗճؼͷΤϯτϩϐʔܭࢉʣ ɹΨ΢εੵ෼ܥ w   w   w 

     w  ∫ ∞ −∞ exp(−ax2)dx = π a ∫ ∞ −∞ x exp(−ax2)dx = 0 ∫ ∞ −∞ x2 exp(−ax2)dx = 1 2a π a ∫ ∞ −∞ exp(−a(x − b)2)dx = π a w     w    ∫ ∞ −∞ x exp(−a(x − b)2)dx = ∫ ∞ −∞ (z + b)exp(−az2)dz = ∫ ∞ −∞ z exp(−az2)dz + b ∫ ∞ −∞ exp(−az2)dz = 0 + b π a = b π a ∫ ∞ −∞ x2 exp(−a(x − b)2)dx = ∫ ∞ −∞ (z + b)2exp(−az2)dz = ∫ ∞ −∞ (z2 + 2bz + b2)exp(−az2)dz = ∫ ∞ −∞ z2 exp(−az2)dz +2b ∫ ∞ −∞ z exp(−az2)dz + b2 ∫ ∞ −∞ exp(−az2)dz = 1 2a π a + 0 + b2 π a = ( 1 2a + b2 ) π a
  22. ೳಈֶश΁ͷԠ༻ʢઢܗճؼͷΤϯτϩϐʔܭࢉʣ  F(x* ) = − p(y* |x* ,Y,X) [log

    p(y* |x* , Y, X)] = − ∫ ∞ −∞ log{p(y* |x* , Y, X)}p(y* |x* , Y, X)dy* = − ∫ ∞ −∞ (− 1 2 (σ−2 * y2 * − 2y* σ−2 * μ* + C) 1 2πσ2 * exp ( − (y* − μ* )2 2σ2 * ) = 1 2 1 2πσ2 * σ−2 * ∫ ∞ −∞ y2 * exp ( − (y* − μ* )2 2σ2 * ) dy* − 2σ−2 * μ* ∫ ∞ −∞ y* exp ( − (y* − μ* )2 2σ2 * ) dy* − 2C ∫ ∞ −∞ exp ( − (y* − μ* )2 2σ2 * ) dy* = 1 2 1 2πσ2 * {σ−2 * ⋅ (σ2 * + μ2 * ) 2πσ2 * − 2σ−2 * μ* ⋅ μ* 2πσ2 * − 2C 2πσ2 * } = 1 2 (1 + σ−2 * μ2 * − 2σ−2 * μ2 * − 2 ⋅ − 1 2 (log 2πσ2 * + σ−2 * μ2 * )) = 1 2 (1 + σ−2 * μ2 * − 2σ−2 * μ2 * + log 2π + log σ2 * + σ−2 * μ2 * )) = 1 2 (1 + log 2π + log σ2 * )
  23. Ψ΢εաఔͱͷؔ܎ ɹઢܗճؼϞσϧͷ༧ଌ෼෍ʹ͓͚Δฏۉͱ෼ࢄ͸ɼ ɹɹɹɹɹɹɹɹɹɹɹ  ͳͷͰɼ Λ୅ೖ͢Δͱɼ   ͨͩ͠ɼ 

    ɹ ͜ͷฏۉͱ෼ࢄΛݟΔͱɼಛ௃ྔؔ਺͕ೖྗσʔλ    Ͱ·ͱΊΒΕ͍ͯΔɽ μ(x* ) = ̂ μTϕ(x* ), σ2 * (x* ) = σ2 y + ϕ(x* )T ̂ Σϕ(x* ) ̂ μ, ̂ Σ μ(x* ) = ̂ μTϕ(x* ) = σ−2 y ϕ(x* )T ((σ−2 y ΦΦT + Λ) −1 YΦ ) = ϕ(x* )TΛ−1Φ(σ2 y I + K)−1Y σ2 * (x* ) = σ2 y + ϕ(x* )T ̂ Σϕ(x* ) = σ2 y + ϕ(x* )T (σ−2 y ΦΦT + Λ) −1 ϕ(x* ) = σ2 y + ϕ(x* )TΛ−1ϕ(x* ) − ϕ(x* )TΛ−1Φ(σ2 y I + K)−1ΦTΛ−1ϕ(x* ) Λ = σ−2 w I K = ΦTΛ−1Φ x, x′ k(x, x′) = ϕ(x)Λ−1ϕ(x′)
  24. Ψ΢εաఔͱͷؔ܎ʢ్தܭࢉʣ  ΑΓɼ ͸ɼਖ਼ఆ஋ߦྻͰ͋Δɽ͞Βʹɼ͜Ε Βʹؔͯ͠͸ɼҎԼͷ͜ͱ͕ݴ͑Δɽ     σy

    , σw > 0 σ−2 y I, σ−2 w I( = Λ) σ−2I = (σ−2I)T μ(x* ) = ̂ μTϕ(x* ) = ( ̂ Σσ−2 y N ∑ n=1 yn ϕ(xn ) ) ϕ(x* ) = ( σ−2 y N ∑ n=1 ϕ(xn )ϕ(xn )T + (σ−2 w I) ) −1 σ−2 y N ∑ n=1 yn ϕ(xn ) ϕ(x* ) Λ = σ−2 w Iͱม׵͢Δ = σ−2 y ϕ(x* )T (σ−2 y ΦΦT + Λ) −1 ΦY = ϕ(x* )T (Φ(σ−2 y I)ΦT + Λ) −1 Φ(σ−2 y I)Y = ϕ(x* )T {(σ−2 y I)TΦT (Φ(σ−2 y I)TΦT + ΛT ) −1 } T Y = ϕ(x* )T {(σ−2 y I)ΦT (Φ(σ−2 y I)ΦT + Λ) −1 } T Y P = σ−2 y I, R = Λ, B = Φͱ͢Δͱɼ = ϕ(x* )T {PBT (BPBT + R) −1 } T Y P, R͸ਖ਼ఆ஋ߦྻͳͷͰɼ8PPECVSZͷެࣜΑΓɼ = ϕ(x* )T {(P−1 + BTR−1B) −1 BTR−1 } T Y = ϕ(x* )T {((σ−2 y I)−1 + ΦTΛ−1Φ) −1 ΦTΛ−1 } T Y = ϕ(x* )T { Λ−1Φ (σ2 y I + ΦTΛ−1Φ) −1 } Y = ϕ(x* )T { Λ−1Φ (σ2 y I + K) −1 } Y 8PPECVSZͷެࣜ (A + UBV)−1 = A−1 − A−1U(B−1 + VA−1U)−1VA−1 (P−1 + BTR−1B)−1BTR−1 = PBT(BPBT + R)−1  ͕ਖ਼ఆ஋ߦྻͷͱ͖ɼ P, R  σ2 * (x* ) = σ2 y + ϕ(x* )T ̂ Σϕ(x* ) = σ2 y + ϕ(x* )T (σ−2 y ΦΦT + Λ) −1 ϕ(x* ) = σ2 y + ϕ(x* )T (Λ + Φ(σ−2 y I)ΦT ) −1 ϕ(x* ) ͜͜ͰɼA = Λ, B = σ−2 y I, U = Φ, V = ΦTͱ͓͘ͱɼ = σ2 y + ϕ(x* )T(A + UBV) −1 ϕ(x* ) 8PPECVSZͷެࣜΑΓɼ = σ2 y + ϕ(x* )T(A−1 − A−1U(B−1 + VA−1U)−1VA−1) −1 ϕ(x* ) = σ2 y + ϕ(x* )T ( Λ−1 − Λ−1Φ (σ2 y I + ΦTΛ−1Φ) ΦTΛ−1 ) −1 ϕ(x* = σ2 y + ϕ(x* )TΛ−1ϕ(x* ) − ϕ(x* )TΛ−1Φ(σ2 y I + K)−1ΦTΛ−1ϕ(x* ) K = ΦTΛ−1Φ
  25. ࠷໬ਪఆͱޡࠩ࠷খԽ ɹϥϕϧ ͸ɼύϥϝʔλ Λ΋ͭؔ਺ ʹϊΠζ ΛՃ͑ͨҎԼͷࣜͰ؍ଌ͞ΕΔ ͱ͢Δɽ   ͭ·Γɼ

      ͱߟ͑ΒΕΔɽ ɹֶशσʔλ ͕༩͑ΒΕͨͱ͖ɼϞσϧͷ໬౓ؔ਺͸ҎԼͷΑ͏ʹͳΔɽ   ࠷໬ਪఆͰ͸ɼ͜ͷ໬౓ؔ਺͕࠷େͱͳΔύϥϝʔλ ʢ࠷໬ղʣΛٻΊΔɽ ͭ·Γɼ  yn w f(xn ; w) ϵn yn = f(xn ; w) + ϵn ϵn ∼ (0,σ2 y ) yn ∼ ( f(xn ; w), σ2 y ) = {X, Y} p(Y|X, w) = N ∏ n=1 p(yn |xn , w) = N ∏ n=1 (yn | f(xn ; w), σ2 y ) wML wML = argmax w {p(yn |xn , w)} = argmax w {log p(yn |xn , w)}
  26. ࠷໬ਪఆͱޡࠩ࠷খԽ ɹΑͬͯɼର਺໬౓ؔ਺Λܭࢉ͢ΔͱҎԼͷΑ͏ʹͳΔɽ   Αͬͯɼճؼͷ৔߹ɼ໬౓࠷େԽͱ࠷খೋ৐࿨๏͸౳ՁɽෳࡶͳϞσϧʹ͓͍ͯޯ഑߱ Լ๏Λ࢖͏৔߹΋ର਺໬౓ؔ਺ʹରͯ͠ύϥϝʔλͷޯ഑ΛऔΕ͹͍͍ͷͰɼ   ͱͳΔɽ log

    p(Y|X, w) = log N ∏ n=1 (yn | f(xn ; w), σ2 y ) = N ∑ n=1 log (yn | f(xn ; w), σ2 y ) = − σ−2 y 2 ( N ∑ n=1 {yn − f(xn ; w)}2 ) − N 2 log 2πσ2 y ∝ − 1 2 N ∑ n=1 {yn − f(xn ; w)}2 ∂ ∂w log p(Y|X, w) = − σ−2 y ∂ ∂w ( 1 2 N ∑ n=1 {yn − f(xn ; w)}2 ) = − σ−2 y ∇w E(w)
  27. ."1ਪఆͱਖ਼ଇԽ ɹύϥϝʔλͷࣄޙ෼෍ Λ ͷؔ਺ͱͯ͠ղऍ͠ɼ͜ͷ෼෍͕࠷େͱͳΔΑ͏ ͳ Λ୳ࡧ͢Δਪఆ๏Λɹ࠷େࣄޙ֬཰ਪఆɹ·ͨ͸ɹ."1ਪఆɹͱ͍͏ɽ    Ͱ༩͑ͨͱ͖ɼର਺ࣄޙ֬཰͸ҎԼͷΑ͏ʹٻ·Δɽ

      ਖ਼ଇԽͷڧ͞Λௐઅ͢ΔύϥϝʔλΛ ͱͯ͠ղऍ͢Δͱɼ͜Ε͸-ਖ਼ଇԽΛಋೖͨ͠ίετؔ਺ͱ౳Ձɽ ·ͨɼύϥϝʔλͷࣄલ෼෍Λϥϓϥε෼෍ͰԾఆ͢Δͱɼ-ਖ਼ଇԽͱ౳ՁʹͳΔɽ  p(w|Y, X) w w wML = argmax w {p(w|X, Y)} = argmax w {log p(w|X, Y)} p(w) = (0,σ2 w I) log p(w|Y, X) = log p(w)p(X, Y|w) p(X, Y) = log p(w)p(Y|X, w)p(X|w) p(X, Y) = log p(w)p(Y|X, w)p(X) p(X, Y) = log p(Y|X, w) + log p(w) + c = − 1 2 σ−2 y N ∑ n=1 {yn − f(xn ; w)}2 − 1 2 σ−2 w wTw + c = − σ−2 y { 1 2 N ∑ n=1 {yn − f(xn ; w)}2 + σ−2 w σ−2 y 1 2 wTw } λ σ−2 w σ−2 y p(w) = Lap(w|0,σ2 w ) = 1 2σ2 w exp ( − |w − 0| σ2 w )
  28. ෼ྨϞσϧʹର͢Δޡࠩؔ਺ w ஋෼ྨͷ৔߹   ͱߟ͑ΔͱɼϕϧψʔΠ෼෍ʹجͮ͘ର਺໬౓͸Ҏ ԼͷΑ͏ʹͳΔɽ   

    ͷ৔߹ɼϩδεςΟοΫճؼϞσϧɹͱ ͍͏ɽ yn ∈ {0,1}, μn ∈ (0,1) yn ∼ Bern(μn ) μn = Sigmoid(ηn ) ηn ∼ ( f(xn ; w), σ2 η ) log p(Y|X, w) = N ∑ n=1 log p(yn |xn , w) = N ∑ n=1 log{μyn n (1 − μn )1−yn} = N ∑ n=1 {yn log μn + (1 − yn )log(1 − μn )} f(xn ; w) = wTϕ(xn ) w ଟ஋෼ྨͷ৔߹   ͱߟ͑ΔͱɼΧςΰϦΧϧ෼෍ʹجͮ͘ର਺໬౓͸೗Կ༷ ʹͳΔɽ  yn ∈ {0,1}D, D ∑ d=1 yn,d = 1 yn ∼ Cat(πn ) πn = Softmax(ηn ) = exp(ηn,d ) ∑D d′=1 exp(ηn,d′ ) ηn ∼ ( f(xn ; w), σ2 η ) log p(Y|X, W) = N ∑ n=1 log p(yn |xn , W) = N ∑ n=1 log D ∏ d=1 πyn,d n,d = N ∑ n=1 D ∑ d=1 yn,d log πn,d ෼ྨϞσϧʹ͓͍ͯ͸ɼ ର਺໬౓࠷େԽͱަࠩΤϯτϩϐʔޡࠩؔ਺࠷খԽ͸౳Ձɽ