Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
kansai-kaggler-senkin13.pdf
Search
senkin13
February 29, 2024
3
2.7k
kansai-kaggler-senkin13.pdf
senkin13
February 29, 2024
Tweet
Share
More Decks by senkin13
See All by senkin13
atmaCup #16 in collaboration with RECRUIT 2nd place solution
senkin13
1
350
kanto_kaggler_senkin13
senkin13
1
2.7k
Featured
See All Featured
Git: the NoSQL Database
bkeepers
PRO
432
66k
Navigating Weather and Climate Data
rabernat
0
68
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
61
51k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Building Flexible Design Systems
yeseniaperezcruz
330
40k
We Are The Robots
honzajavorek
0
130
It's Worth the Effort
3n
188
29k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
61
48k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.3k
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.1k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
The untapped power of vector embeddings
frankvandijk
1
1.5k
Transcript
Kaggle金メダル獲得戦 略 詹金 センキン
コンペ成績 • Kaggle: 12 Gold • Other Platform: 10+ Prize
4 Gold - No Shake
4 Gold - Shakedown
4 Gold - Shakeup
金メダルの難易度分析 • 1000チームの場合Top 12が金(1.2%)、3000チームの場合Top 16が金(0.53%)、5000チームの場 合Top 20が金(0.4%)、参加者が多いほど多ければ難しい • 終盤金争いチームが大体30~50チーム(30%~50%) 、金争い組に入れば確率が高い
宝くじコンペを避ける • 宝くじに近いコンペを真面目にやると大ダメージ
コンペ選択戦略 • データ数が多い(数千万~数億) • 評価指標が競技にふさわしい • CVとLBが一致(自分の実験、CV/LB投稿) • 精度向上の理由がわかる(特徴量、hyper-parameter tuning
、 ensemble) • GM/MasterがLB上位が多い • 自分が得意な領域あるいは楽しめる領域 ※4つ以上を満たせば良いコンペ
モチベーション戦略 • 一石多鳥の目標(勉強、ゲーム、名誉、就職転職 ……) • ドーパミンを増やす(よくLBにジャンプアップ、 アイディアがうまくいける……) • 順調なとき加速させる、伸び悩むとき気分転換( 休憩、運動、旅行……)
• 自己維持難しければ、チーム組んだり、 Discussionで活発に投稿したり
情報収集戦略 • 自分の経験、スキル漏れなく全部発揮だせる • Kaggle過去類似なコンペの上位 solutionの勉強 • 現コンペ公開したnotebook、discussionの吸収 • Kaggle以外の世界で情報収集、関連技術の論文、記事
(H&Mコンペ使ったProNE 1st solution) • 常識や経験や苦労に絞らず独創的な発想 (OpenProblemsコンペ使ったlightgbm sparse matrix学 習 2nd solution)
Shakedownしない戦略 • なるべく大きい改善点を注力して、小さい改善は overfitting、ランダム誤差の可能性ある • 多様性があるチームとマージ • Public LBをこだわらず、 trust
cv+lb > trust cv > trust lb • 最終subの選択はbugなし、leakなしの一つbest cv 、一 つbest lb
ご清聴ありがとうございました!