Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Kaggle Notebookの計算資源だけ使って画像コンペでソロ金を取る秘訣
Search
Yusuke-Takagi-Q
November 25, 2023
2
3.3k
Kaggle Notebookの計算資源だけ使って画像コンペでソロ金を取る秘訣
Kaggle Tokyo Meetup 2023 LT発表資料です
Yusuke-Takagi-Q
November 25, 2023
Tweet
Share
More Decks by Yusuke-Takagi-Q
See All by Yusuke-Takagi-Q
LPIXEL_CADDi_イベント資料
yusuketakagi
0
900
Transformerは何をやっているのか
yusuketakagi
6
3k
MAMLとその派生サーベイ
yusuketakagi
4
2.2k
Featured
See All Featured
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.1k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
169
50k
Music & Morning Musume
bryan
46
6.2k
Building Better People: How to give real-time feedback that sticks.
wjessup
365
19k
Site-Speed That Sticks
csswizardry
2
190
Dealing with People You Can't Stand - Big Design 2015
cassininazir
365
25k
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.6k
Adopting Sorbet at Scale
ufuk
73
9.1k
What's in a price? How to price your products and services
michaelherold
243
12k
A better future with KSS
kneath
238
17k
Optimising Largest Contentful Paint
csswizardry
33
3k
Become a Pro
speakerdeck
PRO
26
5k
Transcript
Kaggle Notebookの計算資源だけ使って 画像コンペでソロ金を取る秘訣 2023年11月26日 髙木 優介
CONFIDENTIAL Copyright © LPIXEL Inc. 2 自己紹介 • 名前:髙木 優介
◦ Xアカウント名:たっかー(@takka__Q) ◦ Kaggle :Q_takka(https://www.kaggle.com/qtakka) • 所属:エルピクセル株式会社 研究開発本部 シニアエンジニア ◦ AI画像診断支援技術のアルゴリズム開発などを行っています ▪ Kaggleはめちゃくちゃ役に立ってます😄 ◦ Software Design誌にて「画像解析AIの作り方」連載中 • Kaggle Competitions Master ◦ 主に画像コンペにソロで参加 ◦ 無課金Master ▪ 直近2回は public金 → private銀 をやらかしているので反省中
CONFIDENTIAL Copyright © LPIXEL Inc. 3 Kaggleと計算資源 Kaggleでメダルを取るには • 大きいモデルが必要・・・
• たくさんの実験をしないといけない・・・ • 画像コンペだとデータ量も多いし・・・ → たくさんの計算資源が必須!! と考えていませんか?
CONFIDENTIAL Copyright © LPIXEL Inc. 4 Kaggle Notebookでメダル それ自体は否定できない・・・が Kaggle
Notebookの計算資源だけで銀メダルを取ることは 普通に可能です! さらに上手くいけばソロ金だって取ることができる!! (この事実はある意味、希望でもあり絶望でもあるかもしれない)
CONFIDENTIAL Copyright © LPIXEL Inc. 5 実際に・・・ 約1年前のコンペ「HuBMAP + HPA
- Hacking the Human Body」にお いて、Kaggle Notebookの計算資源だけで7位! • 病理画像内の組織をセマンティックセグメンテーションするコンペ • 前回のHuBMAPでも残り2週間までKaggle Notebookのみで頑張って金圏にし がみついていました 次スライド以降で秘訣を説明します! ⇦ Solutionの最後に書いたこと :)
CONFIDENTIAL Copyright © LPIXEL Inc. 6 秘訣 1. コンペ選び 2.
計算資源と時間の活用方法 3. アンサンブル戦略
CONFIDENTIAL Copyright © LPIXEL Inc. 7 秘訣1:コンペ選び Kaggle Notebookの計算資源はやはり十分ではない・・・ なので、データセットのサイズが小さいコンペを選ぶのが鉄則
経験上データセットサイズが10GB以下であればなんとかなる ここ最近ではHuBMAP一択!
CONFIDENTIAL Copyright © LPIXEL Inc. 8 秘訣1:コンペ選び 前々回HuBMAP:9.39GB 前回HuBMAP:4.37GB とても小さくて参戦しやすい!
ただし、毎回コンペの癖が強いでの注意 事故っても責任取れません
CONFIDENTIAL Copyright © LPIXEL Inc. 9 秘訣2:計算資源と時間の活用方法 Kaggle NotebookのGPUは基本的に週30時間しか使えない・・・ なので、時間の使い方が肝に
1. データセットの作られ方を分析し、どのようにLBを活用すべきか検討 ◦ 使用できる時間の関係上どうしてもLBの結果に頼る必要があるため ◦ 正しいvalidationの作り方の方針も定まる 2. 1実験 4~5時間程度で終わるアーキテクチャを探してその周辺を探索 ◦ 基本的に1日1モデル学習する(4時間/日 x 7日 = 28時間) ◦ コンペに参加しているときは、1日も休まない気持ちで ◦ 8時間くらい学習しないと精度が出ない時は諦めて強いサーバに頼る😭
CONFIDENTIAL Copyright © LPIXEL Inc. 10 秘訣2:計算資源と時間の活用方法 Kaggle NotebookのGPUは基本的に週30時間しか使えない・・・ なので、時間の使い方が肝に
3. 1日の内、1subは作成したモデルを投げ、残り4subは細かな条件(閾値 など)を探索するのに使用 ◦ とりあえず何かきっかけを掴むためにも毎日5subする ◦ アンサンブルする段階に入ったら、4subはアンサンブル方法探索にも使う
CONFIDENTIAL Copyright © LPIXEL Inc. 11 秘訣2:計算資源と時間の活用方法 コンペ参加時の平日の過ごし方 1. 朝起きて、実験を回す
2. 仕事 3. 昼頃に実験が終わるのでsubmitする 4. 仕事 5. 仕事終了後に色々なsubmitをしつつ、明日の実験内容を考える 6. 2ヶ月繰り返す
CONFIDENTIAL Copyright © LPIXEL Inc. 12 秘訣3:アンサンブル戦略 前述の通り、Kaggle Notebookにはモデル作成時間も計算資源もない そのような中で高スコアのsubmitを作る必要ある
→ コンペでは高性能な単体モデルが求められている訳ではない • コンペ中盤あたりから早々にアンサンブルに取り掛かるのが吉 • 作成するモデルもアンサンブルに有効なものを作ることに注力
CONFIDENTIAL Copyright © LPIXEL Inc. 13 まとめ • モデル作成の王道からは少し離れたことも紹介しましたが、 Kaggle
Notebookの計算資源でもソロ金を取ることは可能! • 今回紹介した秘訣を参考に、Kaggle Notebookの計算資源だけ で金メダルにチャレンジしてみてはいかがでしょうか? ◦ やることなくてモチベーション低下中のGMの方いかがですか? (Appendixに無課金Masterになった経緯なども載せています)
CONFIDENTIAL Copyright © LPIXEL Inc. 14 Appendix • 無課金でMasterになった経緯 •
簡単な弊社紹介
CONFIDENTIAL Copyright © LPIXEL Inc. 15 Appendix:無課金でMasterに • 最初のメダルは、学生時代に参加したTwo Sigmaコンペ(株価予測)
◦ 運よく銀メダルを取れた ◦ Kaggle Notebookのみ(学習自体Kaggle Notebookでやらないといけな いルール) • 以降もいくつかコンペに参加したがメダルは取れず ◦ 研究室に配属になってからは Kaggle < 研究
CONFIDENTIAL Copyright © LPIXEL Inc. 16 Appendix:無課金でMasterに • 就職してから再びKaggleに参加 •
次のメダルは現職の自己研鑽制度で会社の計算資源を借りて出た UW-Madison GI Tract Image Segmentation コンペ ◦ 銅メダル ◦ これでもわかる通り、過去全てのコンペでKaggle Notebookだけの資源 で挑戦したわけではない • 次はHuBMAP ◦ 紹介済み
CONFIDENTIAL Copyright © LPIXEL Inc. 17 Appendix:無課金でMasterに • その次は、RSNA コンペで銀メダル
◦ 自己研鑽制度で会社の計算資源を借りた ◦ ここでMasterに • 最後に前回のHuBMAPで銀メダル ◦ 残り2週間までKaggle Notebookで頑張って金圏にいました ◦ 最終盤でより大きいモデルの方が精度が出ることが分かったので、自己研 鑽制度で会社の計算資源を借りた
CONFIDENTIAL Copyright © LPIXEL Inc. 18 Appendix:無課金でMasterに • これまでの流れもでわかるようにkaggleは基本的に計算資源がある方 がチャレンジしやすい
• 無課金でMasterになるなら制度で計算資源を借りることができる会社 に入るのが最も手っ取り早い
CONFIDENTIAL Copyright © LPIXEL Inc. 19 Appendix:弊社紹介 エルピクセルの機械学習エンジニアの仕事は大きく分けて • 自社のAI画像診断支援技術製品の開発
• 製薬企業などとの協業 があり、どちらもKaggleとの親和性が高い業務となっています! ご興味がありましたら、こちらからご応募ください! (カジュアル面談も随時受け付けています)
CONFIDENTIAL Copyright © LPIXEL Inc. 20 Appendix:弊社紹介 ホームページ:https://lpixel.net/ note :
https://note.com/lpixel/ 採用情報: • https://herp.careers/v1/lpixel • https://www.wantedly.com/companies/lpixel お問い合わせ:https://lpixel.net/lpixel_contact_form/