LightGBMを理解しようとするLT

© 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. LightGBMを数式で理解しようとするLT
発表者兼城大（見習いデータサイエンティスト）

早速ですが質問です (1)XGBoostまたはLightGBMを使ったことある人 (2)XGBoostまたはLightGBMのアルゴリズムを説明できる人 (3)XGBoostからLightGBMのアルゴリズムを説明できる人（繋がりが見えてくると理解が深まる） © 2019 Chura DATA inc.
PROPRIETARY & CONFIDENTIAL.

ざっくり掴むLightGBM © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. XGBoost
LightGBM 重いなぁ… 軽い！しかも精度良い！高速化

LightGBMを掴むポイント 1/3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.
①GBDT(Gradient Boosting Decision Tree) LightGBM ②GOSS(Gradient-based One-side Sampling) ③EFB(Exclusive Feature Bundling) 今回は水色の部分だけ扱う『LightGBM: A Highly Efficient Gradient Boosting Decision Tree』（2017） https://papers.nips.cc/pape r/6907-lightgbm-a-highly- efficient-gradient-boosting- decision-tree [論文の構成] 論文の要約１章：紹介２章：準備３章：GOSS ４章：EFB ５章：実験６章：まとめ数式万歳特徴量削減の話

『LightGBM: A Highly Efficient Gradient Boosting Decision Tree』（2017） https://papers.nips.cc/pape r/6907-lightgbm-a-highly- efficient-gradient-boosting- decision-tree [論文の構成] 論文の要約１章：紹介２章：準備３章：GOSS ４章：EFB ５章：実験６章：まとめ数式万歳 Q. なぜこんな式になるの？ A.貴方の武器を使いなさい。きっとわかるから。。。手持ちの武器（前回のLT資料）そうか！僕たちには、XGBoostのアルゴリズムがあるじゃないか！！ →XGBoostとの繋がりで理解しよう！理解したい！！理解したいよぉ！！！

この流れでXGBoostからLightGBMを理解しよう！今回は水色の部分だけ扱う

© 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. λ＝0とするポイント：
の定義が異なる = −2( ーො −1) (XGBoostの式) = ーො −1(GBDTの式)

GOSSの仕組み 11 12 13 …1 1 21 22 23 …2
2 31 32 33 …3 3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. … 1 2 3 … … … (1)全データXを勾配の降順に並べる。 (2)Xのうち、勾配の上位a×100%データセットをA、その他(1-a)×100%データセットをとする。 (3) のうち、ランダムに ×100％データを抽出し、データセットBとする。 (4)正規化するためにBには1− をかけて結果を出力する。勾配上位a×100%をデータセットA としてとる下位(1-a)×100%をデータセットとしてとる勾配特徴量データさらにから割合bだけ抽出したものをデータセットBとする勾配の大きなデータセットA 勾配の小さなものからいくつかを取ってきたデータセットB 勾配 = ーො −1 要するにサンプリングの話！

展望 • EFBのアルゴリズムについてまとめる。（グラフ彩色問題、NP困難などの背景概念も説明したい） • 「GOSSのアルゴリズムは、(1-a)/bをかけるのでなく、1/bをかけるべきでは？？」と思ったので、もう少し考える。 © 2019 Chura
DATA inc. PROPRIETARY & CONFIDENTIAL. データセットAのサイズ (m×a)個 →そのまま出力データセットBのサイズ (m×(1-a)×b)個 →(1-a)/bして出力（論文） 1/bして出力（僕的）

主な参考・引用文献『LightGBM:A Highly Efficient Gradient Boosting Decision Tree』 Year :2017
Authors:Guolin Ke, Qi Meng , Thomas Finley , Taifeng Wang, Wei Chen, Weidong Ma , Qiwei Ye , Tie-Yan Liu https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient- gradient-boosting-decision-tree © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.

LightGBMを理解しようとするLT

LightGBMを理解しようとするLT

daidesukedonanika

More Decks by daidesukedonanika

Other Decks in Technology

Featured

Transcript

© 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. LightGBMを数式で理解しようとするLT

早速ですが質問です (1)XGBoostまたはLightGBMを使ったことある人 (2)XGBoostまたはLightGBMのアルゴリズムを説明できる人 (3)XGBoostからLightGBMのアルゴリズムを説明できる人（繋がりが見えてくると理解が深まる） © 2019 Chura DATA inc.

ざっくり掴むLightGBM © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. XGBoost

LightGBMを掴むポイント 1/3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.

LightGBMを掴むポイント 2/3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.

LightGBMを掴むポイント 3/3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.

© 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. λ＝0とするポイント：

GOSSの仕組み 11 12 13 …1 1 21 22 23 …2

© 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. 勾配の小さいデータセットは少なくサン

まとめ © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. この流れでXGBoostからLightGBMを理解しよう！

主な参考・引用文献『LightGBM:A Highly Efficient Gradient Boosting Decision Tree』 Year :2017