Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LightGBMを理解しようとするLT

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

 LightGBMを理解しようとするLT

Avatar for daidesukedonanika

daidesukedonanika

June 15, 2019
Tweet

More Decks by daidesukedonanika

Other Decks in Technology

Transcript

  1. © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. LightGBMを数式で理解しよう とするLT

    発表者 兼城大(見習いデータサイエンティスト)
  2. ざっくり掴むLightGBM © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. XGBoost

    LightGBM 重いなぁ… 軽い! しかも精 度良い! 高速化
  3. LightGBMを掴むポイント 1/3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.

    ①GBDT(Gradient Boosting Decision Tree) LightGBM ②GOSS(Gradient-based One-side Sampling) ③EFB(Exclusive Feature Bundling) 今回は水色の 部分だけ扱う 『LightGBM: A Highly Efficient Gradient Boosting Decision Tree』(2017) https://papers.nips.cc/pape r/6907-lightgbm-a-highly- efficient-gradient-boosting- decision-tree [論文の構成] 論文の要約 1章:紹介 2章:準備 3章:GOSS 4章:EFB 5章:実験 6章:まとめ 数 式 万 歳 特徴量削減 の話
  4. LightGBMを掴むポイント 2/3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.

    『LightGBM: A Highly Efficient Gradient Boosting Decision Tree』(2017) https://papers.nips.cc/pape r/6907-lightgbm-a-highly- efficient-gradient-boosting- decision-tree [論文の構成] 論文の要約 1章:紹介 2章:準備 3章:GOSS 4章:EFB 5章:実験 6章:まとめ 数 式 万 歳 Q. なぜこんな式になるの? A.貴方の武器を使いなさい。きっと わかるから。。。 手持ちの武器(前回のLT資料) そうか!僕たちには、XGBoostのアル ゴリズムがあるじゃないか!! →XGBoostとの繋がりで理解しよう! 理解したい!! 理解したいよぉ!!!
  5. LightGBMを掴むポイント 3/3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.

    この流れでXGBoostからLightGBMを理解しよう! 今回は水色の 部分だけ扱う
  6. © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. λ=0とする ポイント:

    の定義が異なる = −2( ーො −1) (XGBoostの式) = ーො −1(GBDTの式)
  7. GOSSの仕組み 11 12 13 …1 1 21 22 23 …2

    2 31 32 33 …3 3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. … 1 2 3 … … … (1)全データXを勾配 の降順に並べる。 (2)Xのうち、勾配の上位a×100%データセットをA、その他(1-a)×100%データセットを とする。 (3) のうち、ランダムに ×100%データを抽出し、データセットBとする。 (4)正規化するためにBには1− をかけて結果を出力する。 勾配上位a×100%を データセットA としてとる 下位(1-a)×100%を データセットとして とる 勾配 特徴量 デ ー タ さらにから割合bだけ抽出 したものをデータセットBと する 勾配の大きな データセットA 勾配の小さなものから いくつかを取ってきた データセットB 勾配 = ーො −1 要するにサンプリングの話!
  8. © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. 勾配の小さいデータ セットは少なくサン

    プリングする ポイント: 出力に対する係数 Aはそのまま、Bには1− をかける
  9. 展望 • EFBのアルゴリズムについてまとめる。 (グラフ彩色問題、NP困難などの背景概念も説明したい) • 「GOSSのアルゴリズムは、(1-a)/bをかけるのでなく、1/bをかけ るべきでは??」と思ったので、もう少し考える。 © 2019 Chura

    DATA inc. PROPRIETARY & CONFIDENTIAL. データセットAのサイズ (m×a)個 →そのまま出力 データセットBのサイズ (m×(1-a)×b)個 →(1-a)/bして出力(論文) 1/bして出力(僕的)
  10. 主な参考・引用文献 『LightGBM:A Highly Efficient Gradient Boosting Decision Tree』 Year :2017

    Authors:Guolin Ke, Qi Meng , Thomas Finley , Taifeng Wang, Wei Chen, Weidong Ma , Qiwei Ye , Tie-Yan Liu https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient- gradient-boosting-decision-tree © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.