Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【Rによる統計的学習入門】6章 線形モデル選択と正則化

yusumi
May 28, 2021
59

【Rによる統計的学習入門】6章 線形モデル選択と正則化

An Introduction to Statistical Learning の日本語訳 6 章

yusumi

May 28, 2021
Tweet

Transcript

  1. 線形モデル選択と正則化 Linear Model Selection and Regularization yusumi 9 June 2021

    参考資料 An Introduction to Statistical Learning with Applications in R Chapter 6
  2. 目次 1. Introduction 2. Subset Selection 3. Shrinkage Methods 4.

    Dimension Reduction Methods 5. Considerations in High Dimensions 6. Conclusion 7. Appendix 8. References
  3. 第5回 輪講A Introduction 4 特徴量の選択 予測精度を向上させる有効な特徴量を見つけたい e.g.) 不動産の価格推定問題 • 部屋の大きさ

    • 築年数 • 駅からの近さ • 建ぺい率 • 容積率 与えられた特徴量 部屋の大きさ 築年数 駅からの近さ 建ぺい率 容積率
  4. 第5回 輪講A Introduction 5 特徴量の選択 予測精度を向上させる有効な特徴量を見つけたい • 部屋の大きさ • 築年数

    • 駅からの近さ • 建ぺい率 • 容積率 与えられた特徴量 予測に有効な特徴量が 2つだけの場合を考える ◼ データ数は特徴量より 十分多いとする e.g.) 不動産の価格推定問題
  5. 第5回 輪講A Introduction 6 価格を推定する線形重回帰モデル 価格の予測値 𝒙 パラメータ ෡ 𝜷

    ො 𝑦 = ෡ 𝜷𝐓𝒙 ◼ 5つの特徴量から価格を推定するモデル 部屋の大きさ 築年数 駅からの近さ 建ぺい率 容積率 予測に有効な特徴量を 選択するよ 選択された 特徴量ベクトル 線形重回帰モデル 特徴選択モデル
  6. 第5回 輪講A Introduction 7 訓練データから最小二乗法で回帰係数を推定 標準的な線形重回帰モデル 𝑦𝑖 = 𝛽0 +

    𝛽1 𝑥𝑖1 + ⋯ + 𝛽𝑝 𝑥𝑖𝑝 + 𝜖𝑖 応答変数 誤差項 説明変数 : 𝑥𝑖1 , 𝑥𝑖2 , ⋯ , 𝑥𝑖𝑝 回帰係数 : 𝛽1 , 𝛽2 , ⋯ , 𝛽𝑝 ෝ 𝑦𝑖 = ෢ 𝛽0 + ෢ 𝛽1 𝑥𝑖1 + ⋯ + ෢ 𝛽𝑝 𝑥𝑖𝑝 回帰係数の推定値 : ෢ 𝛽1 , ෢ 𝛽2 , ⋯ , ෢ 𝛽𝑝 ෍ 𝑖=1 𝑛 𝑦𝑖 − ො 𝑦𝑖 2 最小化 推定式 残差平方和 (RSS) ෢ 𝛽1 , ෢ 𝛽2 , ⋯ , ෢ 𝛽𝑝 ෞ 𝑦1 , ෞ 𝑦2 , ⋯ , ෞ 𝑦𝑛 𝑦1 , 𝑦2 , ⋯ , 𝑦𝑛 𝜖𝑖 ~𝑁 0, 𝜎2
  7. 第5回 輪講A Introduction 8 線形回帰モデルの評価に関する注意点 注意点 : 説明変数が多いほど訓練誤差は小さくなる →過学習の原因 訓練誤差が小さい

    テスト誤差が小さい ◼ 訓練誤差が最小のモデル = 説明変数を全て含んだモデル 訓練誤差からモデルを評価してはいけない
  8. 第5回 輪講A Introduction 9 線形回帰モデルの評価に関する注意点 ◼ 訓練誤差最小となる特徴選択 → 全説明変数 部屋の大きさ

    築年数 駅からの近さ 建ぺい率 容積率 訓練誤差最小のモデル から特徴選択するよ • 部屋の大きさ • 築年数 • 駅からの距離 • 建ぺい率 • 容積率 選択された特徴量𝒙 予測精度と 解釈性の低下 特徴選択モデル
  9. 第5回 輪講A Introduction 10 目的 特徴選択モデル ◼ 5つの特徴量から価格を推定するモデル 部屋の大きさ 築年数

    駅からの近さ 建ぺい率 容積率 予測に有効な特徴量を 選択した線形モデルが欲しい • 部屋の大きさ • 築年数 選択された特徴量𝒙 予測精度と 解釈性が高い
  10. 第5回 輪講A Subset Selection 12 最良部分選択 𝒙1 𝒙2 𝒙2 𝒙𝑝

    𝒙𝑝 𝒙𝑝 𝒙𝑝 𝑀0 𝑀1 𝑀2𝑝−2 𝑀2𝑝−1 含む 含まない 含まない 含まない 含まない 含まない 含まない 含まない 含む 含む 含む 含む 含む 含む 全特徴量の 組み合わせを考慮 得られたモデル
  11. 第5回 輪講A Subset Selection 13 最良なモデルの選択 ◼ 得られたモデル𝑀0 , ⋯

    , 𝑀2𝑝−1 から最良なモデルを選択 最良なモデル • AIC • BIC • Adjusted 𝑅2 • Hold-out 法 • Cross-Validation 選択基準 説明変数の数に応じた 訓練誤差から選択 テスト誤差から選択
  12. 第5回 輪講A 最良部分選択の問題点 Subset Selection 14 ➢ 𝑝 = 20で100万回以上の

    組合せ計算 ➢ 𝑝 ≥ 40だと1兆回以上の 組合せ計算 説明変数が多い時は 別のモデル選択が必要 ◼ 次元の呪い → 検討するモデル総数 : 2𝑝 計算量の関数 計算量の順序 𝑂 log 𝑛 𝑂 𝑛 𝑂 𝑛 log 𝑛 𝑂 𝑛2 𝑂 𝑛3 𝑂 2𝑛 大
  13. 第5回 輪講A Subset Selection 16 変数増加法 価格 Step1 説明変数を含まないモデルを作り記憶 :

    応答変数の平均値などを単に出力 e.g. ) 不動産価格を予測する問題 Step1 Step2 Step3 Step4
  14. 第5回 輪講A Subset Selection 17 変数増加法 価格 Step2 説明変数を一つ追加したモデルのうち, 訓練誤差最小のモデルを記憶

    価格 価格 価格 築年数 部屋の大きさ 家からの近さ 価格 建ぺい率 容積率 訓練誤差最小 → 記憶 Step1 Step2 Step3 Step4
  15. 第5回 輪講A Subset Selection 18 変数増加法 価格 Step3 記憶したモデルに新たに一つ説明変数を追加し, 訓練誤差最小のモデルを記憶

    価格 価格 価格 築年数 部屋の大きさ 家からの近さ 建ぺい率 容積率 築年数 築年数 築年数 訓練誤差最小 → 記憶 Step1 Step2 Step3 Step4
  16. 第5回 輪講A Subset Selection 19 変数増加法 Step3 記憶したモデルに新たに一つ説明変数を追加し, 訓練誤差最小のモデルを記憶 価格

    築年数 部屋の大きさ 容積率 家からの近さ 価格 築年数 部屋の大きさ 建ぺい率 価格 築年数 部屋の大きさ 訓練誤差最小 → 記憶 Step1 Step2 Step3 Step4
  17. 第5回 輪講A Subset Selection 20 変数増加法 Step3 記憶したモデルに新たに一つ説明変数を追加し, 訓練誤差最小のモデルを記憶 価格

    築年数 部屋の大きさ 家からの近さ 訓練誤差最小 → 記憶 建ぺい率 容積率 価格 築年数 部屋の大きさ 家からの近さ Step1 Step2 Step3 Step4
  18. 第5回 輪講A Subset Selection 21 変数増加法 Step4 記憶したモデルから最良のモデルを選択 最良なモデル •

    AIC • BIC • Adjusted 𝑅2 • Hold-out 法 • Cross-Validation 選択基準 Step1 Step2 Step3 Step4
  19. 第5回 輪講A 変数増加法における計算量 ◼ 検討すべきモデルの総数 Subset Selection 22 2𝑝 個

    1 + σ 𝑘=0 𝑝−1 𝑝 − 𝑘 = 1 + 𝑝 𝑝+1 2 個 最良部分選択 変数増加法 最良部分選択より計算量的に効率の良い方法 e.g. ) 𝑝 = 20のとき 1,048,576個のモデル検討 211個のモデル検討
  20. 第5回 輪講A 変数増加法の問題点 Subset Selection 23 e.g. ) 𝑝 =

    3 (説明変数𝑋1, 𝑋2 , 𝑋3)の以下のモデル ➢1変数における最良モデルは説明変数𝑋1 を含む ➢2変数における最良モデルは説明変数𝑋2 , 𝑋3 を含む これを変数増加法でモデル選択すると… 𝑋1 𝑋2 𝑋3 𝑋1 𝑋2 𝑋3 𝑀2 では必ず𝑋1 を 含まなければならない 初期モデル𝑀0 一変数モデル𝑀1 二変数モデル𝑀2
  21. 第5回 輪講A Subset Selection 24 最良なモデルの選択 ◼ 変数選択の際のモデルの評価 最良なモデル •

    𝐶𝑝 • AIC • BIC • Adjusted 𝑅2 • Hold-out 法 • Cross-Validation 選択基準 説明変数の数に応じた 訓練誤差から選択 テスト誤差から選択
  22. 第5回 輪講A Subset Selection 25 最良なモデルの選択 ◼ 変数選択の際のモデルの評価 最良なモデル •

    𝐶𝑝 • AIC • BIC • Adjusted 𝑅2 • Hold-out 法 • Cross-Validation 選択基準 説明変数の数に応じた 訓練誤差から選択 テスト誤差から選択
  23. 第5回 輪講A Mallows の 𝐶𝑝 Subset Selection 26 𝐶𝑝 ≝

    1 𝑛 ෍ 𝑖=1 𝑛 𝑦𝑖 − ො 𝑦𝑖 2 + 2𝑑 ො 𝜎2 𝑛 訓練MSE 罰則項 𝐶𝑝 が小さいほど良いモデル ◼ 罰則項の導入 → 説明変数の過剰な増加を抑制 ◼ モデルの当てはまりの良さとモデルの複雑さを同時に考慮 𝑑 : 予測に使用した説明変数の数 ො 𝜎2: 誤差項𝜖𝑖 の標本分散 全説明変数を利用
  24. 第5回 輪講A AIC (Akaike’s Information Criterion) Subset Selection 27 対数尤度

    罰則項 AIC ≝ − 2 𝑛 log 𝐿 + 2𝑑 𝑛 ◼ 罰則項の導入 → 説明変数の過剰な増加を抑制 ◼ モデルの当てはまりの良さとモデルの複雑さを同時に考慮 ◼ モデルの当てはまりの良さに最尤法を適用 AICが小さいほど良いモデル 𝑑 : 予測に使用した説明変数の数 𝐿 : 説明変数𝑑個の最尤推定
  25. 第5回 輪講A BIC (Bayesian Information Criterion) Subset Selection 28 対数尤度

    罰則項 BIC ≝ − 2 𝑛 log 𝐿 + log 𝑛 𝑑 𝑛 ◼ モデルの当てはまりの良さとモデルの複雑さを同時に考慮 ◼ 𝑛 > 7 → log 𝑛 > 2 ➢ 𝐶𝑝 やAICに比べて説明変数の数による罰則が強め ➢ 𝐶𝑝 やAICより説明変数が少ないモデルが選ばれやすい ◼ 罰則項の導入 → 説明変数の過剰な増加を抑制 BICが小さいほど良いモデル 𝑑 : 予測に使用した説明変数の数 𝐿 : 説明変数𝑑個の最尤推定
  26. 第5回 輪講A Adjusted 𝑅2 Subset Selection 29 Adjusted 𝑅2 ≝

    1 − 1 𝑛−𝑑−1 σ𝑖=1 𝑛 𝑦𝑖− ො 𝑦𝑖 2 1 𝑛−1 σ 𝑖=1 𝑛 𝑦𝑖− ത 𝑦 2 Adjusted 𝑅2が1に近いほど良いモデル 誤差項𝜖𝑖 の不偏分散 応答変数の不偏分散 ◼ 𝑅2 : 変数が多いほど高評価 → Adjusted 𝑅2 : 予測に関係ない変数を含むと低評価 ◼ モデルの当てはまりの良さとモデルの複雑さを同時に考慮 ◼ 𝑑が大きいと分子が増加
  27. 第5回 輪講A Subset Selection 30 𝐶𝑝, BIC, Adjusted 𝑅2 による最適モデルの選択結果

    ◼ 実験用データセットでの比較 : 説明変数10個 ◼ 罰則項の強さ : Adjusted 𝑅2 < 𝐶𝑝 < BIC
  28. 第5回 輪講A Subset Selection 31 最良なモデルの選択 ◼ 変数選択の際のモデルの評価 最良なモデル •

    𝐶𝑝 • AIC • BIC • Adjusted 𝑅2 • Hold-out 法 • Cross-Validation 選択基準 説明変数の数に応じた 訓練誤差から選択 テスト誤差から選択
  29. 第5回 輪講A Subset Selection 32 Hold-out Validation と Cross-Validation ◼

    テスト誤差が最小のモデルを選択 Hold-out Validation Cross-Validation
  30. 第5回 輪講A Shrinkage Methods 35 リッジ回帰 (Ridge Regression) と The

    Lasso ෍ 𝑖=1 𝑛 𝑦𝑖 − ෢ 𝛽0 − ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 2 + 𝜆 ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 2 𝐿2 ノルム罰則項 残差平方和 最小化 ෢ 𝛽1 , ⋯ , ෢ 𝛽𝑝 ෍ 𝑖=1 𝑛 𝑦𝑖 − ෢ 𝛽0 − ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 2 + 𝜆 ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝐿1 ノルム罰則項 残差平方和 最小化 ෢ 𝛽1 , ⋯ , ෢ 𝛽𝑝 The Lasso Ridge Regression
  31. 第5回 輪講A Shrinkage Methods 36 Ridge Regression の罰則項による回帰係数の変化 𝜆と標準化回帰係数の関係 𝜆が小さい時

    誤差関数は単純な残差平方和 𝜆が大きい時 𝐿2 ノルム罰則項が効いて標準化 回帰係数は0に近づく 全体の回帰係数を0付近に縮小 ◼ 実験用データセットに Ridge Regression を適用 説明変数の標準化必須
  32. 第5回 輪講A Shrinkage Methods 37 Ridge Regression の罰則項による予測精度の変化 Bias Variance

    テストMSE テストMSE, Bias, Varianceの関係 トレードオフ の関係 最小可能MSE ◼ 実験用データセットに Ridge Regression を適用 ➢ 説明変数 𝑝 = 45個 ➢ 観測数 𝑛 = 50個 Variance → 減少 Bias → ほぼ変化なし Variance → 減少 Bias → 増加 テストMSE改善領域
  33. 第5回 輪講A Shrinkage Methods 38 The Lasso の罰則項による回帰係数の変化 𝜆と標準化回帰係数の関係 𝜆が小さい時

    誤差関数は単純な残差平方和 𝜆が大きい時 𝐿1 ノルム罰則項が効いて標準化 回帰係数は0に近づく 回帰係数の一部を0に縮小 ◼ 実験用データセットに The Lasso を適用 説明変数の標準化必須
  34. 第5回 輪講A Shrinkage Methods 39 The Lasso の罰則項による予測精度の変化 Bias Variance

    テストMSE テストMSE, Bias, Varianceの関係 トレードオフ の関係 ◼ 実験用データセットに The Lasso を適用 ➢ 説明変数 𝑝 = 45個 ➢ 観測数 𝑛 = 50個 Variance → 減少 Bias → ほぼ変化なし Variance → 減少 Bias → 増加 テストMSE改善領域 Ridge Regression と結果は似ている
  35. 第5回 輪講A Shrinkage Methods 40 Ridge Regression VS. The Lasso

    ① ◼ 実験用データセットでの比較 Bias Variance テストMSE The LassoとRidge Regressionの関係 ➢ 説明変数 𝑝 = 45個 : 全ての変数が応答変数に関係 ➢ 観測数 𝑛 = 50個 実線 : The Lasso 破線 : Ridge Regression Bias : Lasso ≈ Ridge Variance : Lasso > Ridge MSE : Lasso > Ridge 全ての変数が 応答変数に関係する時 変数選択を必要としないデータは Ridgeの方が優れている ノイズ変数なし
  36. 第5回 輪講A Shrinkage Methods 41 Ridge Regression VS. The Lasso

    ② ◼ 実験用データセットでの比較 Bias Variance テストMSE The LassoとRidge Regressionの関係 ➢ 説明変数 𝑝 = 45個 : 2変数のみ応答変数に関係 ➢ 観測数 𝑛 = 50個 実線 : The Lasso 破線 : Ridge Regression Bias : Lasso < Ridge Variance : Lasso < Ridge MSE : Lasso < Ridge 2変数のみが 応答変数に関係する時 変数選択を必要とするデータは Lassoの方が優れている ノイズ変数あり
  37. 第5回 輪講A Shrinkage Methods 42 Tuning parameter 𝜆 の選択 ◼

    Cross-Validation誤差が最小となる 𝜆 を選択 Optimal 𝜆 Input Data Cross-Validation ①データ入力 ②交差検証による学習 ③誤差最小の𝜆を決定
  38. 第5回 輪講A Dimension Reduction Methods 44 特徴量の集約 ◼ 複数の特徴量をまとめると嬉しいことがある e.g.)

    学校の成績 私の合計点は 80 + 70 + 90 = 240点 だわ 僕の合計点は 230点だ 国語 : 80点 数学 : 70点 英語 : 90点 国語 : 60点 数学 : 90点 英語 : 80点 「合計点」を導入することで比較し易くなった → 特徴量の集約
  39. 第5回 輪講A Dimension Reduction Methods 45 説明変数の変換 今までの説明変数 : 𝑥𝑖1

    , 𝑥𝑖2 ⋯ , 𝑥𝑖𝑝 変換後の合成変数 : 𝑧𝑖1 , 𝑧𝑖2 ⋯ , 𝑧𝑖𝑀 (𝑀 < 𝑝) 𝑧𝑖𝑚 = ෍ 𝑗=1 𝑝 𝜙𝑗𝑚 𝑥𝑖𝑗 変 換 𝜙1𝑚 , 𝜙2𝑚 , ⋯ , 𝜙𝑝𝑚 : 定数 𝑚 = 1, ⋯ , 𝑀 𝜙1𝑚 , 𝜙2𝑚 , ⋯ , 𝜙𝑝𝑚 を上手に選んで説明変数 の次元を削減したい
  40. 第5回 輪講A Dimension Reduction Methods 46 主成分分析 (PCA : Principal

    Component Analysis) 人口と広告費用の散布図における主成分分析 第一主成分 第二主成分 データの分散を 最大にする軸 第一主成分と直交する軸のうち データの分散を最大にする軸 高次元の特徴量から低次元の特徴量を抽出する手法 ◼ 高次元の特徴量 ➢ データの次元数が大きい ◼ 低次元の特徴量 ➢ データの次元数が小さい 高次元の特徴量をできるたげ 損なわずにデータを要約 ※可視化のために2次元データを用いたが本来はもっと高次元データを想定
  41. 第5回 輪講A Dimension Reduction Methods 47 主成分分析における合成変数 (主成分) の導出 maximize

    1 𝑛 ෍ 𝑖=1 𝑛 𝑧𝑖1 − ഥ 𝑧1 2 𝜙11 , ⋯ , 𝜙𝑝1 ◼ 𝜙𝑗𝑚 の決め方 : 合成変数 𝑧𝑖𝑚 の分散を最大化 𝑧𝑖𝑚 = ෍ 𝑗=1 𝑝 𝜙𝑗𝑚 𝑥𝑖𝑗 ◼ 第1主成分 𝒛1 の係数ベクトル𝜙𝑗1 の最適化問題 subject to ෍ 𝑗=1 𝑝 𝜙𝑗1 2 = 1 元の説明変数 𝑥𝑗 : 平均0に中心化 (ഥ 𝑥𝑗 = 0) → 𝑧𝑚 = 𝜙1𝑚 𝑥1 + 𝜙2𝑚 𝑥2 + ⋯ + 𝜙𝑝𝑚 𝑥𝑝 = 0 1 𝑛 ෍ 𝑖=1 𝑛 𝑧𝑖1 2 = 1 𝑛 ෍ 𝑖=1 𝑛 ෍ 𝑗=1 𝑝 𝜙𝑗1 𝑥𝑖𝑗 2 𝜙𝑗1 が無限に大きくならない ための制約条件 ゼロ .
  42. 第5回 輪講A Dimension Reduction Methods 48 第2主成分以降の導出 ◼ 第2主成分 𝒛2

    は既に得られた第1主成分 𝒛1 に含まれない情報を抽出 𝑥𝑖1 , 𝑥𝑖2 ⋯ , 𝑥𝑖𝑝 第1主成分 第2主成分 第1主成分を搾り取ったカスから 第2主成分を搾り取る ◼ 新たに加わる制約条件 ➢ 𝑍𝑖1 と𝑍𝑖2 が無相関 第3, 第4,…主成分も同様の手続き 𝑥𝑖1 , 𝑥𝑖2 ⋯ , 𝑥𝑖𝑝
  43. 第5回 輪講A Dimension Reduction Methods 49 主成分軸の回転 PCAの問題点 : 主成分が多いと軸の解釈が困難

    通常の視点 𝑥軸や𝑦軸から見ると主成分が 何を表しているか分かりづらい 回転後 主成分軸で見ると解釈が容易 軸を回転 軸を回転することで解釈性が向上 主成分はデータの見方を変えただけ 第一主成分 第一主成分
  44. 第5回 輪講A Dimension Reduction Methods 50 主成分回帰 (PCR : Principal

    Component Regression) ෍ 𝑖=1 𝑛 𝑦𝑖 − ෢ 𝛽0 + ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 2 通常の線形回帰モデル ◼ 𝑀個 (𝑀 < 𝑝)の主成分を説明変数として線形回帰 ෢ 𝛽1 , ⋯ , ෢ 𝛽𝑝 最小化 ෍ 𝑖=1 𝑛 𝑦𝑖 − 𝜃0 + ෍ 𝑚=1 𝑀 𝜃𝑚 𝑧𝑖𝑚 2 主成分回帰 (PCR) 𝜃1 , ⋯ , 𝜃𝑀 最小化 説明変数 : 𝑥𝑖1 , ⋯ , 𝑥𝑖𝑝 回帰係数 : ෢ 𝛽1 , ⋯ , ෢ 𝛽𝑝 合成変数 : 𝑧𝑖1 , ⋯ , 𝑧𝑖𝑀 回帰係数 : 𝜃1 , ⋯ , 𝜃𝑝
  45. 第5回 輪講A Dimension Reduction Methods 51 次元削減の利点 ෝ 𝑦𝑖 =

    ෢ 𝛽0 + ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 , 通常の線形回帰モデル 通常 次元削減後の線形回帰モデル PCR 𝑖 = 1, ⋯ , 𝑛 ෝ 𝑦𝑖 = 𝜃0 + ෍ 𝑚=1 𝑀 𝜃𝑚 𝑧𝑖𝑚 , 𝑖 = 1, ⋯ , 𝑛 ◼ 𝑝個の説明変数を𝑀個 (𝑀 < 𝑝)の説明変数に変換 次元を𝑝 + 1個から𝑀 + 1個に削減にすることで 問題を単純化できる
  46. 第5回 輪講A Dimension Reduction Methods 52 PCRの予測性能 ◼ 実験用データセットでのシミュレーション 人工データでのシミュレーション結果

    第5主成分でモデルの 当てはまりが最も良い 少数の主成分でモデル化 できるタスクに適している ➢ 少数の主成分でモデルを説明できるような人工データ PCR 比較用 実線 : The Lasso 破線 : Ridge Regression
  47. 第5回 輪講A Dimension Reduction Methods 53 最適な主成分数の選択 ◼ Cross-Validation誤差が最小となる主成分数を選択 Dimension

    reduction data Cross-Validation ①次元削減データ ②交差検証による学習 ③誤差最小の主成分を決定
  48. 第5回 輪講A Dimension Reduction Methods 54 PCRの問題点 PCRの問題点 : 主成分の導出は教師なし学習

    𝑧𝑖𝑚 = ෍ 𝑗=1 𝑝 𝜙𝑗𝑚 𝑥𝑖𝑗 𝑥𝑖1 , 𝑥𝑖2 ⋯ , 𝑥𝑖𝑝 の線形結合 応答変数𝒚の情報が含まれていない 説明変数𝒙𝑖𝑗 と応答変数𝑦𝑖 の両方を 説明できるように次元削減すれば解釈性向上 ◼ 教師あり学習の導入
  49. 第5回 輪講A Dimension Reduction Methods 55 部分最小二乗法 (PLS : Partial

    Least Squares) ◼ PCRの𝜙𝑗𝑚 の導出を変更 ◼ 教師あり学習の導入 → 解釈性の向上 ➢ 各𝜙𝑗𝑚 を応答変数𝒚の線形回帰モデルの係数と等しくする ➢ Biasの減少 𝑧𝑖𝑚 = ෍ 𝑗=1 𝑝 𝜙𝑗𝑚 𝑥𝑖𝑗 ෍ 𝑖=1 𝑛 𝑦𝑖 − 𝜙0𝑚 + ෍ 𝑗=1 𝑝 𝜙𝑗𝑚 𝑥𝑖𝑗 2 部分最小二乗法 (PLS) 𝜙1𝑚 , ⋯ , 𝜙𝑝𝑚 最小化 説明変数 : 𝑥𝑖1 , ⋯ , 𝑥𝑖𝑝 回帰係数 :𝜙1𝑚 , ⋯ , 𝜙𝑝𝑚
  50. 第5回 輪講A Dimension Reduction Methods 56 PCRとPLSの比較 実験データセットにおけるPCRとPLSの比較 ◼ 予測精度

    ➢ PLS < PCR ◼ 解釈性 ➢ PCR < PLS 予測精度と解釈性どちらを 重視するかで検討する モデルが異なる 実線 : 第1PLS 破線 : 第1PCR Populationsの方がAd Spending よりSalesに強く関係することが分かる ◼ 実験用データセットでの比較 ➢ 説明変数 : Population, Ad Spending ➢ 応答変数 : Sales
  51. 第5回 輪講A Considerations in High Dimensions 58 高次元データにおける問題点 𝑝 =

    2, 𝑛 = 20の最小二乗法による回帰 𝑝 = 2, 𝑛 = 2の最小二乗法による回帰 ◼ p : 説明変数の数 𝑛 : 観測数 データ数 を減らす データに完全に 当てはまらない データに完全に 当てはまる! 𝑝 > 𝑛 または 𝑝 ≈ 𝑛 だと過学習を起こしやすい
  52. 第5回 輪講A 60 高次元の場合における回帰分析 Considerations in High Dimensions ◼ 変数増加

    (減少) 法や縮小推定が有利 ➢ シミュレーションデータで実験 : 𝑝個のうち20個が応答変数に関係 ➢ 回帰手法 : The Lasso Lassoの非零係数の数 テストMSE
  53. 第5回 輪講A 61 高次元の場合における回帰分析 Considerations in High Dimensions ◼ 変数増加

    (減少) 法や縮小推定が有利 ➢ シミュレーションデータで実験 : 𝑝個のうち20個が応答変数に関係 ➢ 回帰手法 : The Lasso Lassoの非零係数の数 弱い 正則化 全ての特徴量が 応答変数に関係 𝜆が小さいほど正則化が効かない Lassoの非零係数の数は増加 ෍ 𝑖=1 𝑛 𝑦𝑖 − 𝛽0 − ෍ 𝑗=1 𝑝 𝛽𝑖 𝑥𝑖𝑗 2 + 𝜆 ෍ 𝑗=1 𝑝 𝛽𝑗 The Lasso
  54. 第5回 輪講A 62 高次元の場合における回帰分析 Considerations in High Dimensions ◼ 変数増加

    (減少) 法や縮小推定が有利 ➢ シミュレーションデータで実験 : 𝑝個のうち20個が応答変数に関係 ➢ 回帰手法 : The Lasso 強い正則化 一部の特徴量が 応答変数に関係
  55. 第5回 輪講A 63 高次元の場合における回帰分析 Considerations in High Dimensions ◼ 変数増加

    (減少) 法や縮小推定が有利 ➢ シミュレーションデータで実験 : 𝑝個のうち20個が応答変数に関係 ➢ 回帰手法 : The Lasso 正則化に関わらず 精度が悪い 少しの特徴量が 応答変数に関係
  56. 第5回 輪講A Conclusion 65 まとめ ◼ 予測精度と解釈性を加味した線形モデル選択の方法を学んだ ◼ モデルの柔軟性を考慮した評価方法を学んだ ◼

    高次元データを扱う際はモデル選択と評価の解釈に注意する必要がある ➢ 最良部分選択 ➢ 変数増加法, 変数減少法, 変数増減法 ➢ Ridge Regression ➢ The Lasso ➢ PCR ➢ PLS ➢ 𝐶𝑝, AIC, BIC, Adjusted 𝑅2 ➢ Hold-out法, Cross-Validation
  57. 第5回 輪講A 最良部分選択のアルゴリズム Appendix 68 𝑀0 を説明変数を持たないモデルとする. 𝑀0 の予測値は標本平均など. ①

    𝑘 = 1, 2, ⋯ , 𝑝 について : ← 説明変数の数に応じてループ a. 𝑘個の説明変数を持つ 𝑝 𝑘 個のモデルすべてに回帰を当てはめる. b. 𝑝 𝑘 個のモデルすべてからRSSが最小または𝑅2が最大のものを選び, これを𝑀𝑘 とする. ② 𝑀0 , ⋯ , 𝑀𝑝 のうち最良なモデルを選ぶ. 選択基準は交差検証, AIC, BIC, Adjusted 𝑅2 などがある. ◼ 実際のアルゴリズムは説明変数の数に応じた代表モデルを比較
  58. 第5回 輪講A 変数増加法のアルゴリズム Appendix 69 ① 変数を全く含まないモデルを𝑀0 とする. ② 𝑘

    = 0 , 1, ⋯ , 𝑝 − 1 について以下を繰り返す : ← 説明変数の数に応じてループ a. 𝑀𝑘 の説明変数に含まれない変数のうち, どれか1つを加えることで構成される 𝑝 − 𝑘 個のモデルを 考える. b. 𝑝 − 𝑘 個のモデルのうち, RSSが最小または𝑅2が最大のものを選び, これを𝑀𝑘+1 とする. ③ 𝑀0 , ⋯ , 𝑀𝑝 のうち Best なモデルを選ぶ. 選択基準は交差検証, AIC, BIC, Adjusted 𝑅2 などがある.
  59. 第5回 輪講A 変数減少法のアルゴリズム Appendix 70 ① 𝑝個すべての変数を含むモデルを𝑀𝑝 とする. ② 𝑘

    = 𝑝, 𝑝 − 1 ⋯ , 1 について以下を繰り返す : ← 説明変数の数に応じてループ a. 𝑀𝑘 から説明変数を一つ除いてできる𝑘個のモデルを考える. これらは𝑘 − 1個の説明変数を持つ. b. 𝑘 個のモデルのうち, RSSが最小または𝑅2が最大のものを選び, これを𝑀𝑘−1 とする. ③ 𝑀0 , ⋯ , 𝑀𝑝 のうち Best なモデルを選ぶ. 選択基準は交差検証, AIC, BIC, Adjusted 𝑅2 などがある.
  60. 第5回 輪講A 変数減少法における計算量および問題点 ◼ 最良部分選択に比べて計算量的に効率の良い方法 ◼ 検討すべきモデルの総数 ➢ 最良部分選択 :

    2𝑝個 ➢ 変数増加法 : 1 + σ 𝑘=0 𝑝−1 𝑝 − 𝑘 = 1 + 𝑝 𝑝 + 1 /2 個 ➢ 変数減少法 : 1 + σ𝑘=𝑝 1 𝑘 = 1 + 𝑝 𝑝 + 1 /2 個 ◼ 問題点 : 変数増加法と同様 Appendix 71
  61. 第5回 輪講A 変数増減法のアルゴリズム Appendix 72 ① 変数を全く含まないモデルを𝑀0 とし, 説明変数の集合を𝑆 =

    𝑋1 , ⋯ , 𝑋𝑝 とする. ② 𝑘 = 0, 1, ⋯ , 𝑆 について以下を繰り返す : ← 説明変数の数に応じてループ a. 𝑀𝑘 の説明変数に含まれない𝑆の要素のうち, どれか1つを加えることで構成される モデルを考える. b. そのモデルのうち, RSSが最小または𝑅2が最大のものを選び, これを𝑁𝑗=𝑘+1 とする. c. 加えた1つの説明変数を元に戻す. d. 𝑘が1以上の時, 𝑀𝑘 から説明変数𝑋𝑖 を1つ削除してできる𝑘個のモデルを考える. これらは𝑘 − 1個の説明変数を持つ. e. 𝑘 個のモデルのうち, RSSが最小または𝑅2が最大のものを選び, これを𝐿𝑗=𝑘−1 とする. f. (削除した1つの説明変数𝑋𝑖 を元に戻す. ) g. 𝑁𝑗=𝑘+1 と𝐿𝑗=𝑘−1 のうち最良のモデルを𝑀𝑗 とする. 𝐿𝑘−1 が最良の場合𝑋𝑖 を𝑆から削除する. ③ 𝑀0 , ⋯ , 𝑀 𝑆 のうち Best なモデルを選ぶ. 選択基準は交差検証, AIC, BIC, Adjusted 𝑅2などがある.
  62. 第5回 輪講A Appendix 77 Ridge Regression と The Lasso を最適化問題で表現

    minimize ෍ 𝑖=1 𝑛 𝑦𝑖 − ෢ 𝛽0 − ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 2 subject to ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 ≤ 𝑠 . ◼ The Lasso 残差平方和 制約条件 minimize ෍ 𝑖=1 𝑛 𝑦𝑖 − ෢ 𝛽0 − ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 2 subject to ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 2 ≤ 𝑠 . ◼ Ridge Regression 残差平方和 制約条件 ෢ 𝛽1 , ෢ 𝛽2 , ⋯ , ෢ 𝛽𝑝 ෢ 𝛽1 , ෢ 𝛽2 , ⋯ , ෢ 𝛽𝑝
  63. 第5回 輪講A References ◼ James, Gareth, et al. An introduction

    to statistical learning. Vol. 112. New York: springer, 2013. ◼ 林邦好, 冨田誠, and 田中豊. "主成分分析における軸の回転について." 計算機統計学 19.2 (2008): 89-101. ◼ Geladi, Paul, and Bruce R. Kowalski. "Partial least-squares regression: a tutorial." Analytica chimica acta 185 (1986): 1-17. ◼ Bishop, Christopher M. Pattern recognition and machine learning. springer, 2006. 79 End