Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LightGBMを理解しようとするLT
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
daidesukedonanika
June 15, 2019
Technology
1.5k
3
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
LightGBMを理解しようとするLT
daidesukedonanika
June 15, 2019
More Decks by daidesukedonanika
See All by daidesukedonanika
モダンデータアーキテクチャ~ウィッシュじゃないよデータメッシュ~
daidesukedonanika
0
2.3k
XGBoostを数式で理解しようとするLT
daidesukedonanika
1
2.1k
Other Decks in Technology
See All in Technology
あなたの知らないPDFのアクセシビリティ
lycorptech_jp
PRO
0
240
フルAIで個人開発して学んだあれこれ / yuruai vol.1
isaoshimizu
0
110
時期が悪い!それでもRaspberry Piを買って遊んで活用するには / 20260627-osc26do-rpi-jikigawarui
akkiesoft
0
790
作る力から、見極める力へ — AI時代に広がるエンジニアの価値と役割
rince
0
330
LayerX コーポレートエンジニアリング室におけるサプライチェーンセキュリティへの取り組み / Supply Chain Security at LayerX Corporate Engineering
yuyatakeyama
3
830
Deep Data Security 機能解説
oracle4engineer
PRO
2
110
Claude Codeをどのように キャッチアップしているか
oikon48
13
8.8k
BPaaSで進むAIオペレーションの現在地 AI実装が効く領域とスケーラビリティの選定と実装
kentarofujii
0
150
SteampipeとExcel Power QueryでAWS構成定義書の作成を自動化する
jhashimoto
0
180
2026年6月23日 Syncable Tech + Start Python Club にて
hamukazu
0
150
事業会社における 機械学習・推薦システム技術の活用事例と必要な能力 / ml-recsys-in-layerx-wantedly-2026
yuya4
0
160
アラート調査向けAIエージェントの本番導入とその後/AI Agents for Alert Investigation: Production Deployment and After
taddy_919
0
100
Featured
See All Featured
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
240
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Making the Leap to Tech Lead
cromwellryan
135
9.9k
Un-Boring Meetings
codingconduct
0
320
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
First, design no harm
axbom
PRO
2
1.2k
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
470
HTML-Aware ERB: The Path to Reactive Rendering @ RubyCon 2026, Rimini, Italy
marcoroth
1
230
WCS-LA-2024
lcolladotor
0
650
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
2
580
Rails Girls Zürich Keynote
gr2m
96
14k
Transcript
© 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. LightGBMを数式で理解しよう とするLT
発表者 兼城大(見習いデータサイエンティスト)
早速ですが質問です (1)XGBoostまたはLightGBMを使ったことある人 (2)XGBoostまたはLightGBMのアルゴリズムを説明できる人 (3)XGBoostからLightGBMのアルゴリズムを説明できる人 (繋がりが見えてくると理解が深まる) © 2019 Chura DATA inc.
PROPRIETARY & CONFIDENTIAL.
ざっくり掴むLightGBM © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. XGBoost
LightGBM 重いなぁ… 軽い! しかも精 度良い! 高速化
LightGBMを掴むポイント 1/3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.
①GBDT(Gradient Boosting Decision Tree) LightGBM ②GOSS(Gradient-based One-side Sampling) ③EFB(Exclusive Feature Bundling) 今回は水色の 部分だけ扱う 『LightGBM: A Highly Efficient Gradient Boosting Decision Tree』(2017) https://papers.nips.cc/pape r/6907-lightgbm-a-highly- efficient-gradient-boosting- decision-tree [論文の構成] 論文の要約 1章:紹介 2章:準備 3章:GOSS 4章:EFB 5章:実験 6章:まとめ 数 式 万 歳 特徴量削減 の話
LightGBMを掴むポイント 2/3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.
『LightGBM: A Highly Efficient Gradient Boosting Decision Tree』(2017) https://papers.nips.cc/pape r/6907-lightgbm-a-highly- efficient-gradient-boosting- decision-tree [論文の構成] 論文の要約 1章:紹介 2章:準備 3章:GOSS 4章:EFB 5章:実験 6章:まとめ 数 式 万 歳 Q. なぜこんな式になるの? A.貴方の武器を使いなさい。きっと わかるから。。。 手持ちの武器(前回のLT資料) そうか!僕たちには、XGBoostのアル ゴリズムがあるじゃないか!! →XGBoostとの繋がりで理解しよう! 理解したい!! 理解したいよぉ!!!
LightGBMを掴むポイント 3/3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.
この流れでXGBoostからLightGBMを理解しよう! 今回は水色の 部分だけ扱う
© 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. λ=0とする ポイント:
の定義が異なる = −2( ーො −1) (XGBoostの式) = ーො −1(GBDTの式)
GOSSの仕組み 11 12 13 …1 1 21 22 23 …2
2 31 32 33 …3 3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. … 1 2 3 … … … (1)全データXを勾配 の降順に並べる。 (2)Xのうち、勾配の上位a×100%データセットをA、その他(1-a)×100%データセットを とする。 (3) のうち、ランダムに ×100%データを抽出し、データセットBとする。 (4)正規化するためにBには1− をかけて結果を出力する。 勾配上位a×100%を データセットA としてとる 下位(1-a)×100%を データセットとして とる 勾配 特徴量 デ ー タ さらにから割合bだけ抽出 したものをデータセットBと する 勾配の大きな データセットA 勾配の小さなものから いくつかを取ってきた データセットB 勾配 = ーො −1 要するにサンプリングの話!
© 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. 勾配の小さいデータ セットは少なくサン
プリングする ポイント: 出力に対する係数 Aはそのまま、Bには1− をかける
まとめ © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. この流れでXGBoostからLightGBMを理解しよう!
今回は水色の 部分だけ扱う
展望 • EFBのアルゴリズムについてまとめる。 (グラフ彩色問題、NP困難などの背景概念も説明したい) • 「GOSSのアルゴリズムは、(1-a)/bをかけるのでなく、1/bをかけ るべきでは??」と思ったので、もう少し考える。 © 2019 Chura
DATA inc. PROPRIETARY & CONFIDENTIAL. データセットAのサイズ (m×a)個 →そのまま出力 データセットBのサイズ (m×(1-a)×b)個 →(1-a)/bして出力(論文) 1/bして出力(僕的)
主な参考・引用文献 『LightGBM:A Highly Efficient Gradient Boosting Decision Tree』 Year :2017
Authors:Guolin Ke, Qi Meng , Thomas Finley , Taifeng Wang, Wei Chen, Weidong Ma , Qiwei Ye , Tie-Yan Liu https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient- gradient-boosting-decision-tree © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.