Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
kansai-kaggler-senkin13.pdf
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
senkin13
February 29, 2024
3
2.7k
kansai-kaggler-senkin13.pdf
senkin13
February 29, 2024
Tweet
Share
More Decks by senkin13
See All by senkin13
atmaCup #16 in collaboration with RECRUIT 2nd place solution
senkin13
1
360
kanto_kaggler_senkin13
senkin13
1
2.7k
Featured
See All Featured
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
370
AI: The stuff that nobody shows you
jnunemaker
PRO
2
240
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
0
430
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
350
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
110
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.2k
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
80
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
Evolving SEO for Evolving Search Engines
ryanjones
0
120
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
117
110k
WENDY [Excerpt]
tessaabrams
9
36k
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.1k
Transcript
Kaggle金メダル獲得戦 略 詹金 センキン
コンペ成績 • Kaggle: 12 Gold • Other Platform: 10+ Prize
4 Gold - No Shake
4 Gold - Shakedown
4 Gold - Shakeup
金メダルの難易度分析 • 1000チームの場合Top 12が金(1.2%)、3000チームの場合Top 16が金(0.53%)、5000チームの場 合Top 20が金(0.4%)、参加者が多いほど多ければ難しい • 終盤金争いチームが大体30~50チーム(30%~50%) 、金争い組に入れば確率が高い
宝くじコンペを避ける • 宝くじに近いコンペを真面目にやると大ダメージ
コンペ選択戦略 • データ数が多い(数千万~数億) • 評価指標が競技にふさわしい • CVとLBが一致(自分の実験、CV/LB投稿) • 精度向上の理由がわかる(特徴量、hyper-parameter tuning
、 ensemble) • GM/MasterがLB上位が多い • 自分が得意な領域あるいは楽しめる領域 ※4つ以上を満たせば良いコンペ
モチベーション戦略 • 一石多鳥の目標(勉強、ゲーム、名誉、就職転職 ……) • ドーパミンを増やす(よくLBにジャンプアップ、 アイディアがうまくいける……) • 順調なとき加速させる、伸び悩むとき気分転換( 休憩、運動、旅行……)
• 自己維持難しければ、チーム組んだり、 Discussionで活発に投稿したり
情報収集戦略 • 自分の経験、スキル漏れなく全部発揮だせる • Kaggle過去類似なコンペの上位 solutionの勉強 • 現コンペ公開したnotebook、discussionの吸収 • Kaggle以外の世界で情報収集、関連技術の論文、記事
(H&Mコンペ使ったProNE 1st solution) • 常識や経験や苦労に絞らず独創的な発想 (OpenProblemsコンペ使ったlightgbm sparse matrix学 習 2nd solution)
Shakedownしない戦略 • なるべく大きい改善点を注力して、小さい改善は overfitting、ランダム誤差の可能性ある • 多様性があるチームとマージ • Public LBをこだわらず、 trust
cv+lb > trust cv > trust lb • 最終subの選択はbugなし、leakなしの一つbest cv 、一 つbest lb
ご清聴ありがとうございました!