Upgrade to Pro — share decks privately, control downloads, hide ads and more …

oku-slide-stat2-5

 oku-slide-stat2-5

数理統計学特論II
第5回 線形モデル
奥 牧人 (未病研究センター)
2022/07/13
2023/07/12
2024/07/10

Makito Oku

March 29, 2022
Tweet

More Decks by Makito Oku

Other Decks in Education

Transcript

  1. 今回の位置付け 1. 前置きと準備 2. 確率と1次元の確率変数 3. 多次元の確率変数 4. 統計量と標本分布 5.

    統計的決定理論の枠組み 6. ⼗分統計量 7. 推定論 8. 検定論 9. 区間推定 10. 正規分布、2項分布に関する推測 その他の話題 11. 線形モデル 12. ノンパラメトリック法 13. 漸近理論 14. ベイズ法 確率と統計の基礎 良い点推定とは︖ 良い検定とは︖ 問題設定と準備 7章と8章に関する証明 回帰分析と分散分析を統⼀的に理解 常⽤される⼿法を改めて整理 ベイズ統計を簡単に紹介 ノンパラを簡単に紹介 3 / 46
  2. Outline 1. 回帰モデル 2. 回帰モデルの推定 3. 1元配置分散分析モデル 4. 2元配置分散分析モデル 5.

    線形モデルにおける正準形と最小二乗法 6. 正準形に基づく線形モデルの推定と検定 7. 母数のムダと線形推定可能性 6 / 46
  3. Outline 1. 回帰モデル 2. 回帰モデルの推定 3. 1元配置分散分析モデル 4. 2元配置分散分析モデル 5.

    線形モデルにおける正準形と最小二乗法 6. 正準形に基づく線形モデルの推定と検定 7. 母数のムダと線形推定可能性 7 / 46
  4. 単回帰モデル、続き 誤差の二乗和 を最小化する , の値は (参考) 相関係数 直線 を回帰直線という。 ∑

    n i=1 ε 2 i β0 β1 ^ β1 = ∑ n i=1 (xi − ¯ x)(yi − ¯ y) ∑ n i=1 (xi − ¯ x)2 , ^ β0 = ¯ y − ^ β1 ¯ x r = ∑ n i=1 (xi − ¯ x)(yi − ¯ y) √∑ n i=1 (xi − ¯ x)2√∑ n i=1 (yi − ¯ y)2 y = ^ β0 + ^ β1 x 9 / 46
  5. 重回帰モデル 説明変数が 次元 ( ) の場合、重回帰モデルという 誤差についての仮定は単回帰の場合と同じ 行列とベクトルを使って表記 上の式を次のように書くことにする (

    を計画行列という) p p ≥ 2 yi = β0 + β1 xi1 + ⋯ + βp xip + εi , i = 1, … , n = + ⎛ ⎝ y1 ⋮ yn ⎞ ⎠ ⎛ ⎝ 1 x11 ⋯ x1p ⋮ ⋮ ⋱ ⋮ 1 xn1 ⋯ xnp ⎞ ⎠ ⎛ ⎝ β0 ⋮ βp ⎞ ⎠ ⎛ ⎝ ε1 ⋮ εn ⎞ ⎠ X y = Xβ + ε 10 / 46
  6. Outline 1. 回帰モデル 2. 回帰モデルの推定 3. 1元配置分散分析モデル 4. 2元配置分散分析モデル 5.

    線形モデルにおける正準形と最小二乗法 6. 正準形に基づく線形モデルの推定と検定 7. 母数のムダと線形推定可能性 11 / 46
  7. 重回帰モデルの推定 重回帰モデルの式 (再掲) 誤差の二乗和 を最小化する は、 の各列が 一次独立の場合に一意に定まる の予測値 と残差

    は次のように書ける 行列 の解釈は後述 y = Xβ + ε ∑ n i=1 ε2 i = εT ε β X ^ β = (X T X) −1 X T y y ^ y = X ^ β e = y − ^ y ^ y = PX y e = (I − PX )y PX = X(X T X) −1 X T PX 12 / 46
  8. の導出 誤差の二乗和 に関する勾配が ベクトルのとき 一般に , ( は対称) 従って以下が成り立つ。 が存在すれば

    が定まる。 ^ β ε T ε = (y − Xβ) T (y − Xβ) = y T y − β T X T y − y T Xβ + β T X T Xβ = y T y − 2β T X T y + β T X T Xβ β 0 ∇β (ε T ε) = −2X T y + 2X T Xβ = 0 ∇x (x T c) = c ∇x (x T Ax) = 2Ax A (X T X) −1 ^ β X T Xβ = X T y 13 / 46
  9. 重回帰モデルの推定、続き を「 次元の点が 個ある」ではなく「 次元の点が 個 ある」とみなし、確率変数 の実現値と考えると、 と書ける。前述のとおり は値が固定された行列である。

    の最小二乗推定量 は UMVU かつ MLE の点推定の MLE は の点推定の UMVU は y 1 n n 1 Y Y ∼ N (Xβ, σ 2 I) X β ^ β σ 2 e T e/n σ 2 e T e/(n − p − 1) 14 / 46
  10. Outline 1. 回帰モデル 2. 回帰モデルの推定 3. 1元配置分散分析モデル 4. 2元配置分散分析モデル 5.

    線形モデルにおける正準形と最小二乗法 6. 正準形に基づく線形モデルの推定と検定 7. 母数のムダと線形推定可能性 15 / 46
  11. 1元配置分散分析と線形モデル 対応のない 標本 総数 を一列に並べる 同様に、各 を 個ずつ並べる とみなす。 k

    Yij ∼ N (μi , σ 2 ), i = 1, … , k, j = 1, … , ni n = ∑ k i=1 ni Yij Y = (Y11 , Y12 , … , Y1n 1 , Y21 , … , Ykn k ) T μi ni μ = (μ1 , … , μ1 n 1 , μ2 , … , μ2 n 2 , … , μk ) T       Y ∼ N (μ, σ 2 I) 16 / 46
  12. 1元配置分散分析と線形モデル、続き 一方、各 を 個ずつ並べたものを とする と、次のように書ける ここで は の行列で、次の例のような形 μi

    1 β = (μ1 , … , μk ) μ = Xβ X n × k = ⎛ ⎝ μ1 μ1 μ2 μ2 μ3 μ3 ⎞ ⎠ ⎛ ⎝ 1 0 0 1 0 0 0 1 0 0 1 0 0 0 1 0 0 1 ⎞ ⎠ ⎛ ⎝ μ1 μ2 μ3 ⎞ ⎠ 17 / 46
  13. 1元配置分散分析と線形モデル、続き 1元配置分散分析モデルも重回帰モデルと同じ形に書ける の点推定の UMVU かつ MLE は 分散分析モデルでは の形に表すことがある。 は一般平均、

    は主効果という。 このままでは値が一意に定まらない。母数のムダという。 としたとき、対応する計画行列 の各列 は一次独立にならない。 Y ∼ N (Xβ, σ 2 I) β ^ β = ( ¯ Y1 , … , ¯ Yk ) T μi = μ0 + αi , i = 1, … , k μ0 αi ~ β = (μ0 , α1 , … , αk ) T ~ X 18 / 46
  14. 1元配置分散分析の復習 帰無仮説 群間平方和と群内平方和 ( は全平均) 検定 H0 : μ1 =

    ⋯ = μk ¯ ¯ Y WH = k ∑ i=1 ( ¯ Yi − ¯ ¯ Y ) 2 , WE = k ∑ i=1 n i ∑ j=1 (Yij − ¯ Yi ) 2 F = WH /(k − 1) WE /(n − k) > Fα (k − 1, n − k) ⇒ reject 19 / 46
  15. Outline 1. 回帰モデル 2. 回帰モデルの推定 3. 1元配置分散分析モデル 4. 2元配置分散分析モデル 5.

    線形モデルにおける正準形と最小二乗法 6. 正準形に基づく線形モデルの推定と検定 7. 母数のムダと線形推定可能性 20 / 46
  16. 2元配置分散分析 分散分析では「要因」と「水準」という用語を用いる。 下の図で、 と が要因、 , などが水準である。 B1 B2 B3

    A1 A2 2つの要因を , とし、それぞれの水準数を , とする。 2元配置分散分析モデル A B A1 A2 {Y11k } {Y12k } {Y13k } {Y21k } {Y22k } {Y23k } A B a b Yijk ∼ N (μij , σ 2 ), i = 1, … , a; j = 1, … , b; k = 1, … , nij 21 / 46
  17. 2元配置分散分析、続き 2元配置分散分析の場合も線形モデル の形に 書き直すことが出来る。 2元配置分散分析では通常 を次のように表す。 は一般平均 は要因 の水準 の主効果

    は要因 の水準 の主効果 はそれらの交互作用 母数のムダがあるので、 などの制約条件を加える。 Y ∼ N (Xβ, σ 2 I) μij μ ij = μ 0 + α i + β j + γ ij μ0 αi A i βj B j γij ∑ i αi = 0 22 / 46
  18. 2元配置分散分析の検定 主な帰無仮説 簡単のため を仮定 の平均と、その行毎、列毎、全体の平均 HA : α1 = ⋯

    = αa = 0 HB : β1 = ⋯ = βb = 0 HAB : γ11 = ⋯ = γab = 0 nij = r > 1 (i, j) ¯ Yij = 1 r r ∑ k=1 Yijk ¯ Yi∙ = 1 b ∑ j ¯ Yij , ¯ Y∙j = 1 a ∑ i ¯ Yij , ¯ ¯ Y = 1 ab ∑ i,j ¯ Yij 23 / 46
  19. 平方和の分解 平方和の分解 WT = ∑ i,j,k (Yijk − ¯ ¯

    Y ) 2 = WA + WB + WAB + WE WA = br ∑ i ( ¯ Yi∙ − ¯ ¯ Y ) 2 WB = ar ∑ j ( ¯ Y∙j − ¯ ¯ Y ) 2 WAB = r ∑ i,j ( ¯ Yij − ¯ Yi∙ − ¯ Y∙j + ¯ ¯ Y ) 2 WE = ∑ i,j,k (Yijk − ¯ Yij ) 2 24 / 46
  20. 分散分析表 平方和 自由度 Aの主効果 Bの主効果 ABの交互作用 誤差 計 WA a

    − 1 WB b − 1 WAB (a − 1)(b − 1) WE ab(r − 1) WT abr − 1 25 / 46
  21. 2元配置分散分析の検定の例 例、交互作用に対する仮説 の検定 (参考) 1元配置分散分析 HAB F = WAB /((a

    − 1)(b − 1)) WE /(ab(r − 1)) > Fα ((a − 1)(b − 1), ab(r − 1)) ⇒ reject F = WH /(k − 1) WE /(n − k) > Fα (k − 1, n − k) ⇒ reject 26 / 46
  22. Outline 1. 回帰モデル 2. 回帰モデルの推定 3. 1元配置分散分析モデル 4. 2元配置分散分析モデル 5.

    線形モデルにおける正準形と最小二乗法 6. 正準形に基づく線形モデルの推定と検定 7. 母数のムダと線形推定可能性 27 / 46
  23. 確認 の適当な正規直交基底を とする。 の直交補空間 も同様に とする。 これらの縦ベクトルを横に並べた行列を , とし、 とすると、

    は直交行列 直交行列の性質より なので、 ここで , より、 改めて とおくと、 で、 の列 は の正規直交基底より、 の各要素は自由に動ける。 M {g1 , … , gp } M M ⊥ {gp+1 , … , gn } G1 G2 G = (G1 , G2 ) G |det G| = 1 z ∼ N ( ~ η, σ 2 I), ~ η = G T μ, μ ∈ M g T i μ = 0 i = p + 1, … , n ~ η = (η1 , … , ηp , 0, … , 0) η = (η1 , … , ηp ) μ = G ~ η = G1 η G1 M η 30 / 46
  24. 回帰モデルの解釈 二乗誤差 の最小化は として 図で表すと M (p-dim.) y ŷ e

    O Rn ∥ε∥ 2 = ∥y − Xβ∥ 2 μ = Xβ min μ∈M ∥y − μ∥ 2 31 / 46
  25. 二乗誤差の最小化 で正準形に変換し、 の列数を改めて とおくと 右辺を最小化するのは , のとき このときの を計算 (

    , を使う) ここで は から への射影を表す。 z = G T y X p ∥y − μ∥ 2 = (y − μ) T (y − μ) = (y − μ) T GG T (y − μ) = (z − ~ η) T (z − ~ η) = p ∑ i=1 (z i − η i ) 2 + n ∑ i=p+1 z 2 i ηi = zi i = 1, … , p ^ y μ = G1 η z = G T y ^ y = g1 z1 + ⋯ + gp zp = (g1 g T 1 + ⋯ + gp g T p )y = G1 G T 1 y PM = G1 G T 1 y ^ y 32 / 46
  26. 直交射影行列 は への直交射影行列と呼ばれ、以下の性質を持つ 同様に、残差ベクトルも正準形で計算 より、 から への射影は次のように書ける PM M (PM

    ) 2 = PM , (PM ) T = PM e = y − ^ y = Gz − (g1 z1 + ⋯ + gp zp ) = zp+1 gp+1 + ⋯ + zn gn ∈ M ⊥ e = (I − PM )y y e P M ⊥ = I − PM 33 / 46
  27. Outline 1. 回帰モデル 2. 回帰モデルの推定 3. 1元配置分散分析モデル 4. 2元配置分散分析モデル 5.

    線形モデルにおける正準形と最小二乗法 6. 正準形に基づく線形モデルの推定と検定 7. 母数のムダと線形推定可能性 34 / 46
  28. 正準形の推定 , とおくと、 の点推定の UMVU は 元の座標系に戻したとき、 の UMVU は

    ~ z = (z1 , … , zn ) z = (z1 , … , zp ) z ∼ N (η, σ 2 Ip ) η ^ η = z μ ^ μ = G1 ^ η 35 / 46
  29. 正準形の検定 正準形で考える。 を に対応させると、検定問題は Rn M (p-dim.) M0 (s-dim.) H0

    H1 z1 , … , zs M0 H0 : ηs+1 = ⋯ = ηp = 0, ηp+1 = ⋯ = ηn = 0 H1 : ∃i ∈ [s + 1, p], ηi ≠ 0, ηp+1 = ⋯ = ηn = 0 37 / 46
  30. 正準形の検定、続き は , ともに平均は任意 は のときのみ平均 は , ともに平均 検定

    特に の場合は 検定と等価 z1 , … , zs H0 H1 zs+1 , … , zp H0 0 zp+1 , … , zn H0 H1 0 F F = (z 2 s+1 + ⋯ z 2 p )/(p − s) (z2 p+1 + ⋯ z2 n )/(n − p) > Fα (p − s, n − p) ⇒ reject s = p − 1 t t = zp √(z2 p+1 + ⋯ z2 n )/(n − p) > tα (n − p) ⇒ reject 38 / 46
  31. 回帰モデルの検定 重回帰モデル (係数が 個となるように書き直した) 個別の回帰係数 についての検定 の場合に相当 Rn M (p-dim.)

    M0 (s-dim.) H0 H1 p yi = β0 + β1 xi,1 + ⋯ + βp−1 xi,p−1 + εi , i = 1, … , n βk H0 : βk = 0 vs. H1 : βk ≠ 0 s = p − 1 39 / 46
  32. 1元配置分散分析モデルの検定 1元配置分散分析モデル (グループ数を と書き直した) 検定問題 の場合に相当 Rn M (p-dim.) M0

    (s-dim.) H0 H1 p Yij ∼ N (μi , σ 2 ), i = 1, … , p, j = 1, … , ni H0 : μ1 = ⋯ = μp vs. H1 : μi ≠ μj , ∃i, j s = 1 40 / 46
  33. Outline 1. 回帰モデル 2. 回帰モデルの推定 3. 1元配置分散分析モデル 4. 2元配置分散分析モデル 5.

    線形モデルにおける正準形と最小二乗法 6. 正準形に基づく線形モデルの推定と検定 7. 母数のムダと線形推定可能性 41 / 46
  34. 線形推定可能性 分散分析で などとおくと母数が一意に定まらない 問題があった。 追加の制約 または を加えれば定まる。 ( ) はどの制約でも同じ値になる。

    一般に、以下の線形方程式を考える ここで , , , , の要素の一次結合 が追加の制約 によらないとき、 は線形推定可能という。 μi = μ0 + αi ∑ i αi = 0 ∑ i ni αi = 0 αi − αj i ≠ j Ax = b, C T x = 0 A ∈ R n×q rank A = p < q x ∈ R q b ∈ R n C T ∈ R (q−p)×q x aT x C aT x 42 / 46
  35. 線形推定可能性、続き 行列 のカーネル (核) を を満たす任意の解とすると、 の任意の解 は以下のように表される が制約条件 によらない必要十分条件は

    従って 、つまり、 が の行ベクトル の一次結合であれば は線形推定可能 A Ker A = {x ∣ Ax = 0} x ′ Ax ′ = b Ax = b x = x ′ + ~ x, ~ x ∈ Ker A a T x C T x = 0 a T ~ x = 0, ∀ ~ x ∈ Ker A a ∈ (Ker A) ⊥ = Im A T a A a T x 43 / 46
  36. まとめ 回帰分析と分散分析を統一的に扱う理論的枠組みを説明しました。 1. 回帰モデル ! 単回帰モデルと重回帰モデルの意味を説明できる? 2. 回帰モデルの推定 3. 1元配置分散分析モデル

    ! 一元配置分散分析の線形モデルとしての解釈を説明できる? 4. 2元配置分散分析モデル 5. 線形モデルにおける正準形と最小二乗法 ! 正規線形モデルの正準形の意味を説明できる? 6. 正準形に基づく線形モデルの推定と検定 ! 正準形に基づく回帰分析と分散分析の解釈を説明できる? 7. 母数のムダと線形推定可能性 44 / 46