Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
kansai-kaggler-senkin13.pdf
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
senkin13
February 29, 2024
2.8k
3
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
kansai-kaggler-senkin13.pdf
senkin13
February 29, 2024
More Decks by senkin13
See All by senkin13
atmaCup #16 in collaboration with RECRUIT 2nd place solution
senkin13
1
370
kanto_kaggler_senkin13
senkin13
1
2.8k
Featured
See All Featured
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
320
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
Bash Introduction
62gerente
615
220k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Side Projects
sachag
455
43k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
1
250
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
370
GraphQLの誤解/rethinking-graphql
sonatard
75
12k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.5k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
330
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.7k
Transcript
Kaggle金メダル獲得戦 略 詹金 センキン
コンペ成績 • Kaggle: 12 Gold • Other Platform: 10+ Prize
4 Gold - No Shake
4 Gold - Shakedown
4 Gold - Shakeup
金メダルの難易度分析 • 1000チームの場合Top 12が金(1.2%)、3000チームの場合Top 16が金(0.53%)、5000チームの場 合Top 20が金(0.4%)、参加者が多いほど多ければ難しい • 終盤金争いチームが大体30~50チーム(30%~50%) 、金争い組に入れば確率が高い
宝くじコンペを避ける • 宝くじに近いコンペを真面目にやると大ダメージ
コンペ選択戦略 • データ数が多い(数千万~数億) • 評価指標が競技にふさわしい • CVとLBが一致(自分の実験、CV/LB投稿) • 精度向上の理由がわかる(特徴量、hyper-parameter tuning
、 ensemble) • GM/MasterがLB上位が多い • 自分が得意な領域あるいは楽しめる領域 ※4つ以上を満たせば良いコンペ
モチベーション戦略 • 一石多鳥の目標(勉強、ゲーム、名誉、就職転職 ……) • ドーパミンを増やす(よくLBにジャンプアップ、 アイディアがうまくいける……) • 順調なとき加速させる、伸び悩むとき気分転換( 休憩、運動、旅行……)
• 自己維持難しければ、チーム組んだり、 Discussionで活発に投稿したり
情報収集戦略 • 自分の経験、スキル漏れなく全部発揮だせる • Kaggle過去類似なコンペの上位 solutionの勉強 • 現コンペ公開したnotebook、discussionの吸収 • Kaggle以外の世界で情報収集、関連技術の論文、記事
(H&Mコンペ使ったProNE 1st solution) • 常識や経験や苦労に絞らず独創的な発想 (OpenProblemsコンペ使ったlightgbm sparse matrix学 習 2nd solution)
Shakedownしない戦略 • なるべく大きい改善点を注力して、小さい改善は overfitting、ランダム誤差の可能性ある • 多様性があるチームとマージ • Public LBをこだわらず、 trust
cv+lb > trust cv > trust lb • 最終subの選択はbugなし、leakなしの一つbest cv 、一 つbest lb
ご清聴ありがとうございました!