Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【Rによる統計的学習入門】6章 線形モデル選択と正則化

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for yusumi yusumi
May 28, 2021
220

【Rによる統計的学習入門】6章 線形モデル選択と正則化

An Introduction to Statistical Learning の日本語訳 6 章

Avatar for yusumi

yusumi

May 28, 2021
Tweet

Transcript

  1. 線形モデル選択と正則化 Linear Model Selection and Regularization yusumi 9 June 2021

    参考資料 An Introduction to Statistical Learning with Applications in R Chapter 6
  2. 目次 1. Introduction 2. Subset Selection 3. Shrinkage Methods 4.

    Dimension Reduction Methods 5. Considerations in High Dimensions 6. Conclusion 7. Appendix 8. References
  3. 第5回 輪講A Introduction 4 特徴量の選択 予測精度を向上させる有効な特徴量を見つけたい e.g.) 不動産の価格推定問題 • 部屋の大きさ

    • 築年数 • 駅からの近さ • 建ぺい率 • 容積率 与えられた特徴量 部屋の大きさ 築年数 駅からの近さ 建ぺい率 容積率
  4. 第5回 輪講A Introduction 5 特徴量の選択 予測精度を向上させる有効な特徴量を見つけたい • 部屋の大きさ • 築年数

    • 駅からの近さ • 建ぺい率 • 容積率 与えられた特徴量 予測に有効な特徴量が 2つだけの場合を考える ◼ データ数は特徴量より 十分多いとする e.g.) 不動産の価格推定問題
  5. 第5回 輪講A Introduction 6 価格を推定する線形重回帰モデル 価格の予測値 𝒙 パラメータ ෡ 𝜷

    ො 𝑦 = ෡ 𝜷𝐓𝒙 ◼ 5つの特徴量から価格を推定するモデル 部屋の大きさ 築年数 駅からの近さ 建ぺい率 容積率 予測に有効な特徴量を 選択するよ 選択された 特徴量ベクトル 線形重回帰モデル 特徴選択モデル
  6. 第5回 輪講A Introduction 7 訓練データから最小二乗法で回帰係数を推定 標準的な線形重回帰モデル 𝑦𝑖 = 𝛽0 +

    𝛽1 𝑥𝑖1 + ⋯ + 𝛽𝑝 𝑥𝑖𝑝 + 𝜖𝑖 応答変数 誤差項 説明変数 : 𝑥𝑖1 , 𝑥𝑖2 , ⋯ , 𝑥𝑖𝑝 回帰係数 : 𝛽1 , 𝛽2 , ⋯ , 𝛽𝑝 ෝ 𝑦𝑖 = ෢ 𝛽0 + ෢ 𝛽1 𝑥𝑖1 + ⋯ + ෢ 𝛽𝑝 𝑥𝑖𝑝 回帰係数の推定値 : ෢ 𝛽1 , ෢ 𝛽2 , ⋯ , ෢ 𝛽𝑝 ෍ 𝑖=1 𝑛 𝑦𝑖 − ො 𝑦𝑖 2 最小化 推定式 残差平方和 (RSS) ෢ 𝛽1 , ෢ 𝛽2 , ⋯ , ෢ 𝛽𝑝 ෞ 𝑦1 , ෞ 𝑦2 , ⋯ , ෞ 𝑦𝑛 𝑦1 , 𝑦2 , ⋯ , 𝑦𝑛 𝜖𝑖 ~𝑁 0, 𝜎2
  7. 第5回 輪講A Introduction 8 線形回帰モデルの評価に関する注意点 注意点 : 説明変数が多いほど訓練誤差は小さくなる →過学習の原因 訓練誤差が小さい

    テスト誤差が小さい ◼ 訓練誤差が最小のモデル = 説明変数を全て含んだモデル 訓練誤差からモデルを評価してはいけない
  8. 第5回 輪講A Introduction 9 線形回帰モデルの評価に関する注意点 ◼ 訓練誤差最小となる特徴選択 → 全説明変数 部屋の大きさ

    築年数 駅からの近さ 建ぺい率 容積率 訓練誤差最小のモデル から特徴選択するよ • 部屋の大きさ • 築年数 • 駅からの距離 • 建ぺい率 • 容積率 選択された特徴量𝒙 予測精度と 解釈性の低下 特徴選択モデル
  9. 第5回 輪講A Introduction 10 目的 特徴選択モデル ◼ 5つの特徴量から価格を推定するモデル 部屋の大きさ 築年数

    駅からの近さ 建ぺい率 容積率 予測に有効な特徴量を 選択した線形モデルが欲しい • 部屋の大きさ • 築年数 選択された特徴量𝒙 予測精度と 解釈性が高い
  10. 第5回 輪講A Subset Selection 12 最良部分選択 𝒙1 𝒙2 𝒙2 𝒙𝑝

    𝒙𝑝 𝒙𝑝 𝒙𝑝 𝑀0 𝑀1 𝑀2𝑝−2 𝑀2𝑝−1 含む 含まない 含まない 含まない 含まない 含まない 含まない 含まない 含む 含む 含む 含む 含む 含む 全特徴量の 組み合わせを考慮 得られたモデル
  11. 第5回 輪講A Subset Selection 13 最良なモデルの選択 ◼ 得られたモデル𝑀0 , ⋯

    , 𝑀2𝑝−1 から最良なモデルを選択 最良なモデル • AIC • BIC • Adjusted 𝑅2 • Hold-out 法 • Cross-Validation 選択基準 説明変数の数に応じた 訓練誤差から選択 テスト誤差から選択
  12. 第5回 輪講A 最良部分選択の問題点 Subset Selection 14 ➢ 𝑝 = 20で100万回以上の

    組合せ計算 ➢ 𝑝 ≥ 40だと1兆回以上の 組合せ計算 説明変数が多い時は 別のモデル選択が必要 ◼ 次元の呪い → 検討するモデル総数 : 2𝑝 計算量の関数 計算量の順序 𝑂 log 𝑛 𝑂 𝑛 𝑂 𝑛 log 𝑛 𝑂 𝑛2 𝑂 𝑛3 𝑂 2𝑛 大
  13. 第5回 輪講A Subset Selection 16 変数増加法 価格 Step1 説明変数を含まないモデルを作り記憶 :

    応答変数の平均値などを単に出力 e.g. ) 不動産価格を予測する問題 Step1 Step2 Step3 Step4
  14. 第5回 輪講A Subset Selection 17 変数増加法 価格 Step2 説明変数を一つ追加したモデルのうち, 訓練誤差最小のモデルを記憶

    価格 価格 価格 築年数 部屋の大きさ 家からの近さ 価格 建ぺい率 容積率 訓練誤差最小 → 記憶 Step1 Step2 Step3 Step4
  15. 第5回 輪講A Subset Selection 18 変数増加法 価格 Step3 記憶したモデルに新たに一つ説明変数を追加し, 訓練誤差最小のモデルを記憶

    価格 価格 価格 築年数 部屋の大きさ 家からの近さ 建ぺい率 容積率 築年数 築年数 築年数 訓練誤差最小 → 記憶 Step1 Step2 Step3 Step4
  16. 第5回 輪講A Subset Selection 19 変数増加法 Step3 記憶したモデルに新たに一つ説明変数を追加し, 訓練誤差最小のモデルを記憶 価格

    築年数 部屋の大きさ 容積率 家からの近さ 価格 築年数 部屋の大きさ 建ぺい率 価格 築年数 部屋の大きさ 訓練誤差最小 → 記憶 Step1 Step2 Step3 Step4
  17. 第5回 輪講A Subset Selection 20 変数増加法 Step3 記憶したモデルに新たに一つ説明変数を追加し, 訓練誤差最小のモデルを記憶 価格

    築年数 部屋の大きさ 家からの近さ 訓練誤差最小 → 記憶 建ぺい率 容積率 価格 築年数 部屋の大きさ 家からの近さ Step1 Step2 Step3 Step4
  18. 第5回 輪講A Subset Selection 21 変数増加法 Step4 記憶したモデルから最良のモデルを選択 最良なモデル •

    AIC • BIC • Adjusted 𝑅2 • Hold-out 法 • Cross-Validation 選択基準 Step1 Step2 Step3 Step4
  19. 第5回 輪講A 変数増加法における計算量 ◼ 検討すべきモデルの総数 Subset Selection 22 2𝑝 個

    1 + σ 𝑘=0 𝑝−1 𝑝 − 𝑘 = 1 + 𝑝 𝑝+1 2 個 最良部分選択 変数増加法 最良部分選択より計算量的に効率の良い方法 e.g. ) 𝑝 = 20のとき 1,048,576個のモデル検討 211個のモデル検討
  20. 第5回 輪講A 変数増加法の問題点 Subset Selection 23 e.g. ) 𝑝 =

    3 (説明変数𝑋1, 𝑋2 , 𝑋3)の以下のモデル ➢1変数における最良モデルは説明変数𝑋1 を含む ➢2変数における最良モデルは説明変数𝑋2 , 𝑋3 を含む これを変数増加法でモデル選択すると… 𝑋1 𝑋2 𝑋3 𝑋1 𝑋2 𝑋3 𝑀2 では必ず𝑋1 を 含まなければならない 初期モデル𝑀0 一変数モデル𝑀1 二変数モデル𝑀2
  21. 第5回 輪講A Subset Selection 24 最良なモデルの選択 ◼ 変数選択の際のモデルの評価 最良なモデル •

    𝐶𝑝 • AIC • BIC • Adjusted 𝑅2 • Hold-out 法 • Cross-Validation 選択基準 説明変数の数に応じた 訓練誤差から選択 テスト誤差から選択
  22. 第5回 輪講A Subset Selection 25 最良なモデルの選択 ◼ 変数選択の際のモデルの評価 最良なモデル •

    𝐶𝑝 • AIC • BIC • Adjusted 𝑅2 • Hold-out 法 • Cross-Validation 選択基準 説明変数の数に応じた 訓練誤差から選択 テスト誤差から選択
  23. 第5回 輪講A Mallows の 𝐶𝑝 Subset Selection 26 𝐶𝑝 ≝

    1 𝑛 ෍ 𝑖=1 𝑛 𝑦𝑖 − ො 𝑦𝑖 2 + 2𝑑 ො 𝜎2 𝑛 訓練MSE 罰則項 𝐶𝑝 が小さいほど良いモデル ◼ 罰則項の導入 → 説明変数の過剰な増加を抑制 ◼ モデルの当てはまりの良さとモデルの複雑さを同時に考慮 𝑑 : 予測に使用した説明変数の数 ො 𝜎2: 誤差項𝜖𝑖 の標本分散 全説明変数を利用
  24. 第5回 輪講A AIC (Akaike’s Information Criterion) Subset Selection 27 対数尤度

    罰則項 AIC ≝ − 2 𝑛 log 𝐿 + 2𝑑 𝑛 ◼ 罰則項の導入 → 説明変数の過剰な増加を抑制 ◼ モデルの当てはまりの良さとモデルの複雑さを同時に考慮 ◼ モデルの当てはまりの良さに最尤法を適用 AICが小さいほど良いモデル 𝑑 : 予測に使用した説明変数の数 𝐿 : 説明変数𝑑個の最尤推定
  25. 第5回 輪講A BIC (Bayesian Information Criterion) Subset Selection 28 対数尤度

    罰則項 BIC ≝ − 2 𝑛 log 𝐿 + log 𝑛 𝑑 𝑛 ◼ モデルの当てはまりの良さとモデルの複雑さを同時に考慮 ◼ 𝑛 > 7 → log 𝑛 > 2 ➢ 𝐶𝑝 やAICに比べて説明変数の数による罰則が強め ➢ 𝐶𝑝 やAICより説明変数が少ないモデルが選ばれやすい ◼ 罰則項の導入 → 説明変数の過剰な増加を抑制 BICが小さいほど良いモデル 𝑑 : 予測に使用した説明変数の数 𝐿 : 説明変数𝑑個の最尤推定
  26. 第5回 輪講A Adjusted 𝑅2 Subset Selection 29 Adjusted 𝑅2 ≝

    1 − 1 𝑛−𝑑−1 σ𝑖=1 𝑛 𝑦𝑖− ො 𝑦𝑖 2 1 𝑛−1 σ 𝑖=1 𝑛 𝑦𝑖− ത 𝑦 2 Adjusted 𝑅2が1に近いほど良いモデル 誤差項𝜖𝑖 の不偏分散 応答変数の不偏分散 ◼ 𝑅2 : 変数が多いほど高評価 → Adjusted 𝑅2 : 予測に関係ない変数を含むと低評価 ◼ モデルの当てはまりの良さとモデルの複雑さを同時に考慮 ◼ 𝑑が大きいと分子が増加
  27. 第5回 輪講A Subset Selection 30 𝐶𝑝, BIC, Adjusted 𝑅2 による最適モデルの選択結果

    ◼ 実験用データセットでの比較 : 説明変数10個 ◼ 罰則項の強さ : Adjusted 𝑅2 < 𝐶𝑝 < BIC
  28. 第5回 輪講A Subset Selection 31 最良なモデルの選択 ◼ 変数選択の際のモデルの評価 最良なモデル •

    𝐶𝑝 • AIC • BIC • Adjusted 𝑅2 • Hold-out 法 • Cross-Validation 選択基準 説明変数の数に応じた 訓練誤差から選択 テスト誤差から選択
  29. 第5回 輪講A Subset Selection 32 Hold-out Validation と Cross-Validation ◼

    テスト誤差が最小のモデルを選択 Hold-out Validation Cross-Validation
  30. 第5回 輪講A Shrinkage Methods 35 リッジ回帰 (Ridge Regression) と The

    Lasso ෍ 𝑖=1 𝑛 𝑦𝑖 − ෢ 𝛽0 − ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 2 + 𝜆 ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 2 𝐿2 ノルム罰則項 残差平方和 最小化 ෢ 𝛽1 , ⋯ , ෢ 𝛽𝑝 ෍ 𝑖=1 𝑛 𝑦𝑖 − ෢ 𝛽0 − ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 2 + 𝜆 ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝐿1 ノルム罰則項 残差平方和 最小化 ෢ 𝛽1 , ⋯ , ෢ 𝛽𝑝 The Lasso Ridge Regression
  31. 第5回 輪講A Shrinkage Methods 36 Ridge Regression の罰則項による回帰係数の変化 𝜆と標準化回帰係数の関係 𝜆が小さい時

    誤差関数は単純な残差平方和 𝜆が大きい時 𝐿2 ノルム罰則項が効いて標準化 回帰係数は0に近づく 全体の回帰係数を0付近に縮小 ◼ 実験用データセットに Ridge Regression を適用 説明変数の標準化必須
  32. 第5回 輪講A Shrinkage Methods 37 Ridge Regression の罰則項による予測精度の変化 Bias Variance

    テストMSE テストMSE, Bias, Varianceの関係 トレードオフ の関係 最小可能MSE ◼ 実験用データセットに Ridge Regression を適用 ➢ 説明変数 𝑝 = 45個 ➢ 観測数 𝑛 = 50個 Variance → 減少 Bias → ほぼ変化なし Variance → 減少 Bias → 増加 テストMSE改善領域
  33. 第5回 輪講A Shrinkage Methods 38 The Lasso の罰則項による回帰係数の変化 𝜆と標準化回帰係数の関係 𝜆が小さい時

    誤差関数は単純な残差平方和 𝜆が大きい時 𝐿1 ノルム罰則項が効いて標準化 回帰係数は0に近づく 回帰係数の一部を0に縮小 ◼ 実験用データセットに The Lasso を適用 説明変数の標準化必須
  34. 第5回 輪講A Shrinkage Methods 39 The Lasso の罰則項による予測精度の変化 Bias Variance

    テストMSE テストMSE, Bias, Varianceの関係 トレードオフ の関係 ◼ 実験用データセットに The Lasso を適用 ➢ 説明変数 𝑝 = 45個 ➢ 観測数 𝑛 = 50個 Variance → 減少 Bias → ほぼ変化なし Variance → 減少 Bias → 増加 テストMSE改善領域 Ridge Regression と結果は似ている
  35. 第5回 輪講A Shrinkage Methods 40 Ridge Regression VS. The Lasso

    ① ◼ 実験用データセットでの比較 Bias Variance テストMSE The LassoとRidge Regressionの関係 ➢ 説明変数 𝑝 = 45個 : 全ての変数が応答変数に関係 ➢ 観測数 𝑛 = 50個 実線 : The Lasso 破線 : Ridge Regression Bias : Lasso ≈ Ridge Variance : Lasso > Ridge MSE : Lasso > Ridge 全ての変数が 応答変数に関係する時 変数選択を必要としないデータは Ridgeの方が優れている ノイズ変数なし
  36. 第5回 輪講A Shrinkage Methods 41 Ridge Regression VS. The Lasso

    ② ◼ 実験用データセットでの比較 Bias Variance テストMSE The LassoとRidge Regressionの関係 ➢ 説明変数 𝑝 = 45個 : 2変数のみ応答変数に関係 ➢ 観測数 𝑛 = 50個 実線 : The Lasso 破線 : Ridge Regression Bias : Lasso < Ridge Variance : Lasso < Ridge MSE : Lasso < Ridge 2変数のみが 応答変数に関係する時 変数選択を必要とするデータは Lassoの方が優れている ノイズ変数あり
  37. 第5回 輪講A Shrinkage Methods 42 Tuning parameter 𝜆 の選択 ◼

    Cross-Validation誤差が最小となる 𝜆 を選択 Optimal 𝜆 Input Data Cross-Validation ①データ入力 ②交差検証による学習 ③誤差最小の𝜆を決定
  38. 第5回 輪講A Dimension Reduction Methods 44 特徴量の集約 ◼ 複数の特徴量をまとめると嬉しいことがある e.g.)

    学校の成績 私の合計点は 80 + 70 + 90 = 240点 だわ 僕の合計点は 230点だ 国語 : 80点 数学 : 70点 英語 : 90点 国語 : 60点 数学 : 90点 英語 : 80点 「合計点」を導入することで比較し易くなった → 特徴量の集約
  39. 第5回 輪講A Dimension Reduction Methods 45 説明変数の変換 今までの説明変数 : 𝑥𝑖1

    , 𝑥𝑖2 ⋯ , 𝑥𝑖𝑝 変換後の合成変数 : 𝑧𝑖1 , 𝑧𝑖2 ⋯ , 𝑧𝑖𝑀 (𝑀 < 𝑝) 𝑧𝑖𝑚 = ෍ 𝑗=1 𝑝 𝜙𝑗𝑚 𝑥𝑖𝑗 変 換 𝜙1𝑚 , 𝜙2𝑚 , ⋯ , 𝜙𝑝𝑚 : 定数 𝑚 = 1, ⋯ , 𝑀 𝜙1𝑚 , 𝜙2𝑚 , ⋯ , 𝜙𝑝𝑚 を上手に選んで説明変数 の次元を削減したい
  40. 第5回 輪講A Dimension Reduction Methods 46 主成分分析 (PCA : Principal

    Component Analysis) 人口と広告費用の散布図における主成分分析 第一主成分 第二主成分 データの分散を 最大にする軸 第一主成分と直交する軸のうち データの分散を最大にする軸 高次元の特徴量から低次元の特徴量を抽出する手法 ◼ 高次元の特徴量 ➢ データの次元数が大きい ◼ 低次元の特徴量 ➢ データの次元数が小さい 高次元の特徴量をできるたげ 損なわずにデータを要約 ※可視化のために2次元データを用いたが本来はもっと高次元データを想定
  41. 第5回 輪講A Dimension Reduction Methods 47 主成分分析における合成変数 (主成分) の導出 maximize

    1 𝑛 ෍ 𝑖=1 𝑛 𝑧𝑖1 − ഥ 𝑧1 2 𝜙11 , ⋯ , 𝜙𝑝1 ◼ 𝜙𝑗𝑚 の決め方 : 合成変数 𝑧𝑖𝑚 の分散を最大化 𝑧𝑖𝑚 = ෍ 𝑗=1 𝑝 𝜙𝑗𝑚 𝑥𝑖𝑗 ◼ 第1主成分 𝒛1 の係数ベクトル𝜙𝑗1 の最適化問題 subject to ෍ 𝑗=1 𝑝 𝜙𝑗1 2 = 1 元の説明変数 𝑥𝑗 : 平均0に中心化 (ഥ 𝑥𝑗 = 0) → 𝑧𝑚 = 𝜙1𝑚 𝑥1 + 𝜙2𝑚 𝑥2 + ⋯ + 𝜙𝑝𝑚 𝑥𝑝 = 0 1 𝑛 ෍ 𝑖=1 𝑛 𝑧𝑖1 2 = 1 𝑛 ෍ 𝑖=1 𝑛 ෍ 𝑗=1 𝑝 𝜙𝑗1 𝑥𝑖𝑗 2 𝜙𝑗1 が無限に大きくならない ための制約条件 ゼロ .
  42. 第5回 輪講A Dimension Reduction Methods 48 第2主成分以降の導出 ◼ 第2主成分 𝒛2

    は既に得られた第1主成分 𝒛1 に含まれない情報を抽出 𝑥𝑖1 , 𝑥𝑖2 ⋯ , 𝑥𝑖𝑝 第1主成分 第2主成分 第1主成分を搾り取ったカスから 第2主成分を搾り取る ◼ 新たに加わる制約条件 ➢ 𝑍𝑖1 と𝑍𝑖2 が無相関 第3, 第4,…主成分も同様の手続き 𝑥𝑖1 , 𝑥𝑖2 ⋯ , 𝑥𝑖𝑝
  43. 第5回 輪講A Dimension Reduction Methods 49 主成分軸の回転 PCAの問題点 : 主成分が多いと軸の解釈が困難

    通常の視点 𝑥軸や𝑦軸から見ると主成分が 何を表しているか分かりづらい 回転後 主成分軸で見ると解釈が容易 軸を回転 軸を回転することで解釈性が向上 主成分はデータの見方を変えただけ 第一主成分 第一主成分
  44. 第5回 輪講A Dimension Reduction Methods 50 主成分回帰 (PCR : Principal

    Component Regression) ෍ 𝑖=1 𝑛 𝑦𝑖 − ෢ 𝛽0 + ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 2 通常の線形回帰モデル ◼ 𝑀個 (𝑀 < 𝑝)の主成分を説明変数として線形回帰 ෢ 𝛽1 , ⋯ , ෢ 𝛽𝑝 最小化 ෍ 𝑖=1 𝑛 𝑦𝑖 − 𝜃0 + ෍ 𝑚=1 𝑀 𝜃𝑚 𝑧𝑖𝑚 2 主成分回帰 (PCR) 𝜃1 , ⋯ , 𝜃𝑀 最小化 説明変数 : 𝑥𝑖1 , ⋯ , 𝑥𝑖𝑝 回帰係数 : ෢ 𝛽1 , ⋯ , ෢ 𝛽𝑝 合成変数 : 𝑧𝑖1 , ⋯ , 𝑧𝑖𝑀 回帰係数 : 𝜃1 , ⋯ , 𝜃𝑝
  45. 第5回 輪講A Dimension Reduction Methods 51 次元削減の利点 ෝ 𝑦𝑖 =

    ෢ 𝛽0 + ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 , 通常の線形回帰モデル 通常 次元削減後の線形回帰モデル PCR 𝑖 = 1, ⋯ , 𝑛 ෝ 𝑦𝑖 = 𝜃0 + ෍ 𝑚=1 𝑀 𝜃𝑚 𝑧𝑖𝑚 , 𝑖 = 1, ⋯ , 𝑛 ◼ 𝑝個の説明変数を𝑀個 (𝑀 < 𝑝)の説明変数に変換 次元を𝑝 + 1個から𝑀 + 1個に削減にすることで 問題を単純化できる
  46. 第5回 輪講A Dimension Reduction Methods 52 PCRの予測性能 ◼ 実験用データセットでのシミュレーション 人工データでのシミュレーション結果

    第5主成分でモデルの 当てはまりが最も良い 少数の主成分でモデル化 できるタスクに適している ➢ 少数の主成分でモデルを説明できるような人工データ PCR 比較用 実線 : The Lasso 破線 : Ridge Regression
  47. 第5回 輪講A Dimension Reduction Methods 53 最適な主成分数の選択 ◼ Cross-Validation誤差が最小となる主成分数を選択 Dimension

    reduction data Cross-Validation ①次元削減データ ②交差検証による学習 ③誤差最小の主成分を決定
  48. 第5回 輪講A Dimension Reduction Methods 54 PCRの問題点 PCRの問題点 : 主成分の導出は教師なし学習

    𝑧𝑖𝑚 = ෍ 𝑗=1 𝑝 𝜙𝑗𝑚 𝑥𝑖𝑗 𝑥𝑖1 , 𝑥𝑖2 ⋯ , 𝑥𝑖𝑝 の線形結合 応答変数𝒚の情報が含まれていない 説明変数𝒙𝑖𝑗 と応答変数𝑦𝑖 の両方を 説明できるように次元削減すれば解釈性向上 ◼ 教師あり学習の導入
  49. 第5回 輪講A Dimension Reduction Methods 55 部分最小二乗法 (PLS : Partial

    Least Squares) ◼ PCRの𝜙𝑗𝑚 の導出を変更 ◼ 教師あり学習の導入 → 解釈性の向上 ➢ 各𝜙𝑗𝑚 を応答変数𝒚の線形回帰モデルの係数と等しくする ➢ Biasの減少 𝑧𝑖𝑚 = ෍ 𝑗=1 𝑝 𝜙𝑗𝑚 𝑥𝑖𝑗 ෍ 𝑖=1 𝑛 𝑦𝑖 − 𝜙0𝑚 + ෍ 𝑗=1 𝑝 𝜙𝑗𝑚 𝑥𝑖𝑗 2 部分最小二乗法 (PLS) 𝜙1𝑚 , ⋯ , 𝜙𝑝𝑚 最小化 説明変数 : 𝑥𝑖1 , ⋯ , 𝑥𝑖𝑝 回帰係数 :𝜙1𝑚 , ⋯ , 𝜙𝑝𝑚
  50. 第5回 輪講A Dimension Reduction Methods 56 PCRとPLSの比較 実験データセットにおけるPCRとPLSの比較 ◼ 予測精度

    ➢ PLS < PCR ◼ 解釈性 ➢ PCR < PLS 予測精度と解釈性どちらを 重視するかで検討する モデルが異なる 実線 : 第1PLS 破線 : 第1PCR Populationsの方がAd Spending よりSalesに強く関係することが分かる ◼ 実験用データセットでの比較 ➢ 説明変数 : Population, Ad Spending ➢ 応答変数 : Sales
  51. 第5回 輪講A Considerations in High Dimensions 58 高次元データにおける問題点 𝑝 =

    2, 𝑛 = 20の最小二乗法による回帰 𝑝 = 2, 𝑛 = 2の最小二乗法による回帰 ◼ p : 説明変数の数 𝑛 : 観測数 データ数 を減らす データに完全に 当てはまらない データに完全に 当てはまる! 𝑝 > 𝑛 または 𝑝 ≈ 𝑛 だと過学習を起こしやすい
  52. 第5回 輪講A 60 高次元の場合における回帰分析 Considerations in High Dimensions ◼ 変数増加

    (減少) 法や縮小推定が有利 ➢ シミュレーションデータで実験 : 𝑝個のうち20個が応答変数に関係 ➢ 回帰手法 : The Lasso Lassoの非零係数の数 テストMSE
  53. 第5回 輪講A 61 高次元の場合における回帰分析 Considerations in High Dimensions ◼ 変数増加

    (減少) 法や縮小推定が有利 ➢ シミュレーションデータで実験 : 𝑝個のうち20個が応答変数に関係 ➢ 回帰手法 : The Lasso Lassoの非零係数の数 弱い 正則化 全ての特徴量が 応答変数に関係 𝜆が小さいほど正則化が効かない Lassoの非零係数の数は増加 ෍ 𝑖=1 𝑛 𝑦𝑖 − 𝛽0 − ෍ 𝑗=1 𝑝 𝛽𝑖 𝑥𝑖𝑗 2 + 𝜆 ෍ 𝑗=1 𝑝 𝛽𝑗 The Lasso
  54. 第5回 輪講A 62 高次元の場合における回帰分析 Considerations in High Dimensions ◼ 変数増加

    (減少) 法や縮小推定が有利 ➢ シミュレーションデータで実験 : 𝑝個のうち20個が応答変数に関係 ➢ 回帰手法 : The Lasso 強い正則化 一部の特徴量が 応答変数に関係
  55. 第5回 輪講A 63 高次元の場合における回帰分析 Considerations in High Dimensions ◼ 変数増加

    (減少) 法や縮小推定が有利 ➢ シミュレーションデータで実験 : 𝑝個のうち20個が応答変数に関係 ➢ 回帰手法 : The Lasso 正則化に関わらず 精度が悪い 少しの特徴量が 応答変数に関係
  56. 第5回 輪講A Conclusion 65 まとめ ◼ 予測精度と解釈性を加味した線形モデル選択の方法を学んだ ◼ モデルの柔軟性を考慮した評価方法を学んだ ◼

    高次元データを扱う際はモデル選択と評価の解釈に注意する必要がある ➢ 最良部分選択 ➢ 変数増加法, 変数減少法, 変数増減法 ➢ Ridge Regression ➢ The Lasso ➢ PCR ➢ PLS ➢ 𝐶𝑝, AIC, BIC, Adjusted 𝑅2 ➢ Hold-out法, Cross-Validation
  57. 第5回 輪講A 最良部分選択のアルゴリズム Appendix 68 𝑀0 を説明変数を持たないモデルとする. 𝑀0 の予測値は標本平均など. ①

    𝑘 = 1, 2, ⋯ , 𝑝 について : ← 説明変数の数に応じてループ a. 𝑘個の説明変数を持つ 𝑝 𝑘 個のモデルすべてに回帰を当てはめる. b. 𝑝 𝑘 個のモデルすべてからRSSが最小または𝑅2が最大のものを選び, これを𝑀𝑘 とする. ② 𝑀0 , ⋯ , 𝑀𝑝 のうち最良なモデルを選ぶ. 選択基準は交差検証, AIC, BIC, Adjusted 𝑅2 などがある. ◼ 実際のアルゴリズムは説明変数の数に応じた代表モデルを比較
  58. 第5回 輪講A 変数増加法のアルゴリズム Appendix 69 ① 変数を全く含まないモデルを𝑀0 とする. ② 𝑘

    = 0 , 1, ⋯ , 𝑝 − 1 について以下を繰り返す : ← 説明変数の数に応じてループ a. 𝑀𝑘 の説明変数に含まれない変数のうち, どれか1つを加えることで構成される 𝑝 − 𝑘 個のモデルを 考える. b. 𝑝 − 𝑘 個のモデルのうち, RSSが最小または𝑅2が最大のものを選び, これを𝑀𝑘+1 とする. ③ 𝑀0 , ⋯ , 𝑀𝑝 のうち Best なモデルを選ぶ. 選択基準は交差検証, AIC, BIC, Adjusted 𝑅2 などがある.
  59. 第5回 輪講A 変数減少法のアルゴリズム Appendix 70 ① 𝑝個すべての変数を含むモデルを𝑀𝑝 とする. ② 𝑘

    = 𝑝, 𝑝 − 1 ⋯ , 1 について以下を繰り返す : ← 説明変数の数に応じてループ a. 𝑀𝑘 から説明変数を一つ除いてできる𝑘個のモデルを考える. これらは𝑘 − 1個の説明変数を持つ. b. 𝑘 個のモデルのうち, RSSが最小または𝑅2が最大のものを選び, これを𝑀𝑘−1 とする. ③ 𝑀0 , ⋯ , 𝑀𝑝 のうち Best なモデルを選ぶ. 選択基準は交差検証, AIC, BIC, Adjusted 𝑅2 などがある.
  60. 第5回 輪講A 変数減少法における計算量および問題点 ◼ 最良部分選択に比べて計算量的に効率の良い方法 ◼ 検討すべきモデルの総数 ➢ 最良部分選択 :

    2𝑝個 ➢ 変数増加法 : 1 + σ 𝑘=0 𝑝−1 𝑝 − 𝑘 = 1 + 𝑝 𝑝 + 1 /2 個 ➢ 変数減少法 : 1 + σ𝑘=𝑝 1 𝑘 = 1 + 𝑝 𝑝 + 1 /2 個 ◼ 問題点 : 変数増加法と同様 Appendix 71
  61. 第5回 輪講A 変数増減法のアルゴリズム Appendix 72 ① 変数を全く含まないモデルを𝑀0 とし, 説明変数の集合を𝑆 =

    𝑋1 , ⋯ , 𝑋𝑝 とする. ② 𝑘 = 0, 1, ⋯ , 𝑆 について以下を繰り返す : ← 説明変数の数に応じてループ a. 𝑀𝑘 の説明変数に含まれない𝑆の要素のうち, どれか1つを加えることで構成される モデルを考える. b. そのモデルのうち, RSSが最小または𝑅2が最大のものを選び, これを𝑁𝑗=𝑘+1 とする. c. 加えた1つの説明変数を元に戻す. d. 𝑘が1以上の時, 𝑀𝑘 から説明変数𝑋𝑖 を1つ削除してできる𝑘個のモデルを考える. これらは𝑘 − 1個の説明変数を持つ. e. 𝑘 個のモデルのうち, RSSが最小または𝑅2が最大のものを選び, これを𝐿𝑗=𝑘−1 とする. f. (削除した1つの説明変数𝑋𝑖 を元に戻す. ) g. 𝑁𝑗=𝑘+1 と𝐿𝑗=𝑘−1 のうち最良のモデルを𝑀𝑗 とする. 𝐿𝑘−1 が最良の場合𝑋𝑖 を𝑆から削除する. ③ 𝑀0 , ⋯ , 𝑀 𝑆 のうち Best なモデルを選ぶ. 選択基準は交差検証, AIC, BIC, Adjusted 𝑅2などがある.
  62. 第5回 輪講A Appendix 77 Ridge Regression と The Lasso を最適化問題で表現

    minimize ෍ 𝑖=1 𝑛 𝑦𝑖 − ෢ 𝛽0 − ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 2 subject to ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 ≤ 𝑠 . ◼ The Lasso 残差平方和 制約条件 minimize ෍ 𝑖=1 𝑛 𝑦𝑖 − ෢ 𝛽0 − ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 2 subject to ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 2 ≤ 𝑠 . ◼ Ridge Regression 残差平方和 制約条件 ෢ 𝛽1 , ෢ 𝛽2 , ⋯ , ෢ 𝛽𝑝 ෢ 𝛽1 , ෢ 𝛽2 , ⋯ , ෢ 𝛽𝑝
  63. 第5回 輪講A References ◼ James, Gareth, et al. An introduction

    to statistical learning. Vol. 112. New York: springer, 2013. ◼ 林邦好, 冨田誠, and 田中豊. "主成分分析における軸の回転について." 計算機統計学 19.2 (2008): 89-101. ◼ Geladi, Paul, and Bruce R. Kowalski. "Partial least-squares regression: a tutorial." Analytica chimica acta 185 (1986): 1-17. ◼ Bishop, Christopher M. Pattern recognition and machine learning. springer, 2006. 79 End