= y x − t 2 p x, t dx dt この期待二乗損失関数は,以下の形に分解できる L = ED y x; D − h x 2 p x dx + ED y x; D − ED y x;D 2 p x dx + h x − t 2p x, t dx dt 1 2 3 bias2 variance noise 但し,この式における ED ∙ とは, データの取り方 D に関して期待値をとったもの x : 特徴量 t : 目的変数 y(x) : モデルによる予測値 p(x, t) : 特徴量と目的変数の同時分布 h(x) : 理想的な回帰関数(最良の予測,神業的予測) データの取り方に対しての予測値の期待 値が,理想的な予測値からどれだけ乖離 しているかを表したもの 各データの取り方に対しての予測値 が, 期待値からどれだけ変動するかを表し たもの 予測したい事象に含まれる本質的なノ イズで,理想的なモデルでも除去しき れない誤差 1 2 3
モデルの数(ブートストラップの回数) ym (X) : 各モデル(弱学習器と呼ぶ)の予測関数 h(X) : 予測しようとする事象に対する最適な「真の予測関数」 εm (X) : モデルが正確でないことに起因する誤差関数 yM X = 1 M m=1 M ym (X) ym X = h X + εm (X) Breiman L. Bagging predictors. Mach Learn. 1996;24:123–40. Prediction: yM X Bootstrap 弱学習器 week learner Raw Training Data Sampled Data Bagging(Bootstrap aggregating)
= σ2 V yM X = 1 M2 m=1 M V εm X = σ2 M < σ2 ここで,簡単のために,誤差の平均が 0,分散が同一値(σ2)かつ互いに無 相関であるとすれば,入力データ X の分布に対する期待二乗和誤差に対して, となる( 但し,E[ ] はデータXの分布に対しての期待値 ) このことは,複数の弱学習器の予測値を平均することで予測値のばらつきを低減できる ことを表している 但し,上記は,モデルの誤差が無相関であるこということを仮定しているため, 厳密にはなりたたない(似たようなモデル間の誤差には必ず相関がある). そのため,上記ほどには予測値の平均のばらつきを低減することはできない. とはいえ,baggingを行うことで一定の効果が得られるは保証されている. yM X = 1 M m=1 M ym (X) ym X = h X + εm (X) 前頁の式をもう一度書くと・・・ であった
Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting. Journal of Computer and System Sciences. 1997;55:119–39. 回帰問題: Friedman JH. Greedy Function Approximation: A Gradient Boosting Machine. The Annals of Statistics. 2001;29:1189–232. yM (X) = 1 M m=1 M ym (X) ym X = h X + εm (X) yM (X) = m=1 M ωm Zm (X) Zm X = h X + εm (X) Random Forest AdaBoost. M1 1. 各弱学習器に対して重みが異なる! 2. 各弱学習器の学習は独立には行われず,連続的に行われる点がRandom Forestと大きく異なる
T n=1 N L tn , fm−1 X + T (但し,T は決定木の予測値) ここで,損失関数 L . を下記のように 正則化項 Ω T を含むように変更する n=1 N L tn , fm−1 X + Tm X + m=1 M Ω (Tm ) 正則化項 Ω T は決定木の構造に関連した L1 及び L2 正則化項をもつ 正則化項の採用により過学習を抑制
L ti , fm−1 Xi + 𝜕 L ti , fm−1 Xi 𝜕 fm−1 Xi fm Xi − fm−1 Xi + 1 2 𝜕2 L ti , fm−1 Xi 𝜕 fm−1 Xi 2 fm Xi − fm−1 Xi 2 と 2 次の項まで含めた式に修正できる これに前頁の正則化項を加えて,m 番目の決定木の構造を最適化す るための目標値を計算する ヘッシアンを含めた最適化により 計算速度が向上
Guestrin C. XGBoost: A Scalable Tree Boosting System. In: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016. p. 785–94. http://arxiv.org/abs/1603.02754