勾配ブースティングと決定木の話 / gradient boosting and decision trees

1 25 2026年4月23日研究室ミーティング勾配ブースティングと決定木の話慶應義塾大学理工学部物理情報工学科渡辺

2 25 LightGBMを理解したい • LightGBMはマイクロソフトが開発した決定木ベースの勾配ブースティングのフレームワーク • 勾配ブースティングとは、ブースティングの一種 • ブースティングとはアンサンブル学習の一種
アンサンブル学習とは？決定木とは？

3 25 アンサンブル学習「弱い」モデルを組み合わせて「強い」モデルを作る Bagging Input Output Boosting Input Output
※並列つなぎのようなもの ※直列つなぎのようなもの

4 25 Bagging (1/3) 不正確な時計しか手に入らないとする

5 25 Bagging (2/3) 不正確な時計をみんなでチェックして平均したら正確な時間がわかる(かもしれない)

6 25 Bagging(3/3) (まとめて見ると)強いモデル多数決や平均弱いモデルより信頼できる出力不正確な出力

7 25 ブースティング (1/3) データ二つのクラスに分類したい

8 25 ブースティング (2/3) 誤って分類されたデータ

9 25 ブースティング (3/3) 誤って分類されたデータの重みを大きくする・・・前のモデルの出力を見て、次のモデルが出力を改善していく前のモデルが間違えたデータを間違いにくくなる

10 25 勾配ブースティング (1/4) {𝑥𝑖 , 𝑦𝑖 } 𝑦𝑖 =
𝑓 𝑥𝑖 データセット以下を満たす関数を作りたい表現力が低い関数を組み合わせて表現力が高い関数を作る 𝑓 𝑥 ~ ሚ 𝑓𝐿 𝑥 = ෍ 𝑘=1 𝐿 𝑔𝑘 (𝑥) {𝑥𝑖 , 𝑦𝑖 } 𝑔1 (𝑥) {𝑥𝑖 , 𝑦𝑖 − ሚ 𝑓1 𝑥 } 𝑔2 (𝑥) 𝑔3 (𝑥) ・・・・ {𝑥𝑖 , 𝑦𝑖 − ሚ 𝑓2 𝑥 } レベル1関数の残差を学習レベル1関数を学習レベル2関数の残差を学習

11 25 勾配ブースティング (2/4) {𝑥𝑖 , 𝑦𝑖 } データセット ሚ
𝑓1 𝑥 = 𝑔1 (𝑥) 弱いモデル(レベル1) 𝐶 = ෍ 𝑖 𝑦𝑖 − 𝑔1 𝑥𝑖 2 平均自乗誤差を最小化このデータをステップ関数の和で表現

12 25 勾配ブースティング (3/4) レベル1のフィッティング結果レベル1残差 𝐶 = ෍ 𝑖
𝑟𝑖 − ሚ 𝑓1 𝑥𝑖 2 𝑔2 (𝑥) をレベル1残差を減らすよう訓練 {𝑥𝑖 , 𝑦𝑖 − ሚ 𝑓1 𝑥 }

13 25 勾配ブースティング (4/4) レベル15関数による近似 ሚ 𝑓15 𝑥 モデルを繋いで誤差を減らし、全体として精度を高める

14 25 勾配と残差 (1/2) 𝑦𝑖 = 𝑓 𝑥𝑖 ሚ 𝑓𝐿
(𝑥) = ෍ 𝑘=1 𝐿 𝑔𝑘 (𝑥|𝜃𝑘 ) 目的関数レベルL近似 (𝑔1 (𝑥)から𝑔𝐿 (𝑥)まで使った近似関数) 𝐶𝐿 ( 𝑦𝑖 , ሚ 𝑓𝐿 (𝑥)) レベルLにおけるコスト関数 − ቤ 𝜕𝐶𝐿 𝜕 ሚ 𝑓𝐿 𝑥 レベルLにおけるコスト関数の負の勾配を目的関数として𝑔𝐿+1 学習させる {𝑔0 , 𝑔1 , ⋯ , 𝑔𝐿 } → 𝑔𝐿+1 ブースティング勾配に関する − ቤ 𝜕𝐶𝐿 𝜕 ሚ 𝑓𝐿 𝑥

15 25 勾配と残差 (2/2) 𝐶𝐿 = ෍ 𝑖 1 2
𝑦𝑖 − ሚ 𝑓𝐿 𝑥𝑖 2 コスト関数として自乗誤差の和を採用すると − 𝜕𝐶𝐿 𝜕 ሚ 𝑓𝐿 𝑥𝑖 = 𝑦𝑖 − ሚ 𝑓𝐿 𝑥𝑖 コスト関数の負の勾配が残差に一致する残差を目的関数としたブースティングは勾配ブースティングの特別な場合

16 25 決定木決定木：木構造を使った予測モデル Yes No Yes No 卵を生むか？恒温動物か？
哺乳類鳥類・・・ ※この分類例がいい加減なのは許して

17 25 決定木による回帰 (1/2) • 𝑥1 : 最寄り駅までの時間(徒歩𝑥1 分) •
𝑥2 : 部屋の広さ(𝑥2 𝑚2) 特徴量 • 𝑦: 妥当な家賃目的変数与えられた条件から「相場」を知りたい (𝑥1 , 𝑥2 ) → 𝑦

18 25 決定木による回帰 (2/2) 𝑥1 > 𝜃1 𝑥2 > 𝜃2
𝑥2 > 𝜃3 Yes No Yes No Yes No 𝑦1 𝑦2 𝑦3 𝑦4 𝑥1 𝑥2 𝑦 決定木ニューラルネットワーク決定木は解釈しやすい駅からどれくらい遠いか？部屋はどれくらいの広さか？ノードの役割が分かりづらい

19 25 決定木による分類 Class A: 円の内部 𝑥2 + 𝑦2 ≤
𝑟2 Class B: 円の外部 𝑥2 + 𝑦2 > 𝑟2 線形な不等式(弱いモデル)だけを使って上記の分類問題を解きたい 𝑥 𝑦 𝑥 > 𝑥𝑐 , 𝑦 > 𝑦𝑐 (𝑥𝑖 , 𝑦𝑖 )

20 25 分類結果: 深さ1 予測結果 𝑥 < −0.91 決定木

21 25 分類結果: 深さ2 𝑥 < −0.91 𝑥 < −0.97
𝑥 < 0.88 予測結果決定木

22 25 分類結果: 深さ3 予測結果決定木

23 25 分類結果: 深さ5 (1/2) 予測結果

24 25 分類結果: 深さ5 (2/2) 決定木展開しても効果が薄いノードは展開しない

25 25 まとめ • アンサンブル学習とは、弱いモデルを複数組み合わせて強いモデルを作る手法 • ブースティングとはアンサンブル学習の一種であり、弱いモデルを直列に繋いで強いモデルを作る手法 •
勾配ブースティングとは、一つ前の近似によるコスト関数の負の勾配を次のモデルに学習させることで全体のロスを下げる方法 (コスト関数として平均自乗誤差を採用すると前のモデルの残差を学習させることに帰着) • 決定木とは単純な条件分岐を再帰的に繰り返すことで分類や回帰を行う手法

勾配ブースティングと決定木の話 / gradient boosting and decisio...

勾配ブースティングと決定木の話 / gradient boosting and decision trees

kaityo256 PRO

More Decks by kaityo256

Other Decks in Education

Featured

Transcript

1 25 2026年4月23日研究室ミーティング勾配ブースティングと決定木の話慶應義塾大学理工学部物理情報工学科渡辺

2 25 LightGBMを理解したい • LightGBMはマイクロソフトが開発した決定木ベースの勾配ブースティングのフレームワーク • 勾配ブースティングとは、ブースティングの一種 • ブースティングとはアンサンブル学習の一種

3 25 アンサンブル学習「弱い」モデルを組み合わせて「強い」モデルを作る Bagging Input Output Boosting Input Output

4 25 Bagging (1/3) 不正確な時計しか手に入らないとする

5 25 Bagging (2/3) 不正確な時計をみんなでチェックして平均したら正確な時間がわかる(かもしれない)

6 25 Bagging(3/3) (まとめて見ると)強いモデル多数決や平均弱いモデルより信頼できる出力不正確な出力

7 25 ブースティング (1/3) データ二つのクラスに分類したい

8 25 ブースティング (2/3) 誤って分類されたデータ

9 25 ブースティング (3/3) 誤って分類されたデータの重みを大きくする・・・前のモデルの出力を見て、次のモデルが出力を改善していく前のモデルが間違えたデータを間違いにくくなる

10 25 勾配ブースティング (1/4) {𝑥𝑖 , 𝑦𝑖 } 𝑦𝑖 =

11 25 勾配ブースティング (2/4) {𝑥𝑖 , 𝑦𝑖 } データセット ሚ

12 25 勾配ブースティング (3/4) レベル1のフィッティング結果レベル1残差 𝐶 = ෍ 𝑖

13 25 勾配ブースティング (4/4) レベル15関数による近似 ሚ 𝑓15 𝑥 モデルを繋いで誤差を減らし、全体として精度を高める

14 25 勾配と残差 (1/2) 𝑦𝑖 = 𝑓 𝑥𝑖 ሚ 𝑓𝐿

15 25 勾配と残差 (2/2) 𝐶𝐿 = ෍ 𝑖 1 2

16 25 決定木決定木：木構造を使った予測モデル Yes No Yes No 卵を生むか？恒温動物か？

17 25 決定木による回帰 (1/2) • 𝑥1 : 最寄り駅までの時間(徒歩𝑥1 分) •

18 25 決定木による回帰 (2/2) 𝑥1 > 𝜃1 𝑥2 > 𝜃2

19 25 決定木による分類 Class A: 円の内部 𝑥2 + 𝑦2 ≤

20 25 分類結果: 深さ1 予測結果 𝑥 < −0.91 決定木

21 25 分類結果: 深さ2 𝑥 < −0.91 𝑥 < −0.97

22 25 分類結果: 深さ3 予測結果決定木

23 25 分類結果: 深さ5 (1/2) 予測結果

24 25 分類結果: 深さ5 (2/2) 決定木展開しても効果が薄いノードは展開しない

25 25 まとめ • アンサンブル学習とは、弱いモデルを複数組み合わせて強いモデルを作る手法 • ブースティングとはアンサンブル学習の一種であり、弱いモデルを直列に繋いで強いモデルを作る手法 •