Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Kaggle Notebookの計算資源だけ使って画像コンペでソロ金を取る秘訣
Search
Yusuke-Takagi-Q
November 25, 2023
2
3.2k
Kaggle Notebookの計算資源だけ使って画像コンペでソロ金を取る秘訣
Kaggle Tokyo Meetup 2023 LT発表資料です
Yusuke-Takagi-Q
November 25, 2023
Tweet
Share
More Decks by Yusuke-Takagi-Q
See All by Yusuke-Takagi-Q
LPIXEL_CADDi_イベント資料
yusuketakagi
0
550
Transformerは何をやっているのか
yusuketakagi
6
3k
MAMLとその派生サーベイ
yusuketakagi
4
2.1k
Featured
See All Featured
Testing 201, or: Great Expectations
jmmastey
38
7.1k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
16
2.1k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Adopting Sorbet at Scale
ufuk
73
9.1k
The Art of Programming - Codeland 2020
erikaheidi
52
13k
10 Git Anti Patterns You Should be Aware of
lemiorhan
654
59k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
700
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
43
6.8k
YesSQL, Process and Tooling at Scale
rocio
168
14k
Mobile First: as difficult as doing things right
swwweet
222
8.9k
Reflections from 52 weeks, 52 projects
jeffersonlam
346
20k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
Transcript
Kaggle Notebookの計算資源だけ使って 画像コンペでソロ金を取る秘訣 2023年11月26日 髙木 優介
CONFIDENTIAL Copyright © LPIXEL Inc. 2 自己紹介 • 名前:髙木 優介
◦ Xアカウント名:たっかー(@takka__Q) ◦ Kaggle :Q_takka(https://www.kaggle.com/qtakka) • 所属:エルピクセル株式会社 研究開発本部 シニアエンジニア ◦ AI画像診断支援技術のアルゴリズム開発などを行っています ▪ Kaggleはめちゃくちゃ役に立ってます😄 ◦ Software Design誌にて「画像解析AIの作り方」連載中 • Kaggle Competitions Master ◦ 主に画像コンペにソロで参加 ◦ 無課金Master ▪ 直近2回は public金 → private銀 をやらかしているので反省中
CONFIDENTIAL Copyright © LPIXEL Inc. 3 Kaggleと計算資源 Kaggleでメダルを取るには • 大きいモデルが必要・・・
• たくさんの実験をしないといけない・・・ • 画像コンペだとデータ量も多いし・・・ → たくさんの計算資源が必須!! と考えていませんか?
CONFIDENTIAL Copyright © LPIXEL Inc. 4 Kaggle Notebookでメダル それ自体は否定できない・・・が Kaggle
Notebookの計算資源だけで銀メダルを取ることは 普通に可能です! さらに上手くいけばソロ金だって取ることができる!! (この事実はある意味、希望でもあり絶望でもあるかもしれない)
CONFIDENTIAL Copyright © LPIXEL Inc. 5 実際に・・・ 約1年前のコンペ「HuBMAP + HPA
- Hacking the Human Body」にお いて、Kaggle Notebookの計算資源だけで7位! • 病理画像内の組織をセマンティックセグメンテーションするコンペ • 前回のHuBMAPでも残り2週間までKaggle Notebookのみで頑張って金圏にし がみついていました 次スライド以降で秘訣を説明します! ⇦ Solutionの最後に書いたこと :)
CONFIDENTIAL Copyright © LPIXEL Inc. 6 秘訣 1. コンペ選び 2.
計算資源と時間の活用方法 3. アンサンブル戦略
CONFIDENTIAL Copyright © LPIXEL Inc. 7 秘訣1:コンペ選び Kaggle Notebookの計算資源はやはり十分ではない・・・ なので、データセットのサイズが小さいコンペを選ぶのが鉄則
経験上データセットサイズが10GB以下であればなんとかなる ここ最近ではHuBMAP一択!
CONFIDENTIAL Copyright © LPIXEL Inc. 8 秘訣1:コンペ選び 前々回HuBMAP:9.39GB 前回HuBMAP:4.37GB とても小さくて参戦しやすい!
ただし、毎回コンペの癖が強いでの注意 事故っても責任取れません
CONFIDENTIAL Copyright © LPIXEL Inc. 9 秘訣2:計算資源と時間の活用方法 Kaggle NotebookのGPUは基本的に週30時間しか使えない・・・ なので、時間の使い方が肝に
1. データセットの作られ方を分析し、どのようにLBを活用すべきか検討 ◦ 使用できる時間の関係上どうしてもLBの結果に頼る必要があるため ◦ 正しいvalidationの作り方の方針も定まる 2. 1実験 4~5時間程度で終わるアーキテクチャを探してその周辺を探索 ◦ 基本的に1日1モデル学習する(4時間/日 x 7日 = 28時間) ◦ コンペに参加しているときは、1日も休まない気持ちで ◦ 8時間くらい学習しないと精度が出ない時は諦めて強いサーバに頼る😭
CONFIDENTIAL Copyright © LPIXEL Inc. 10 秘訣2:計算資源と時間の活用方法 Kaggle NotebookのGPUは基本的に週30時間しか使えない・・・ なので、時間の使い方が肝に
3. 1日の内、1subは作成したモデルを投げ、残り4subは細かな条件(閾値 など)を探索するのに使用 ◦ とりあえず何かきっかけを掴むためにも毎日5subする ◦ アンサンブルする段階に入ったら、4subはアンサンブル方法探索にも使う
CONFIDENTIAL Copyright © LPIXEL Inc. 11 秘訣2:計算資源と時間の活用方法 コンペ参加時の平日の過ごし方 1. 朝起きて、実験を回す
2. 仕事 3. 昼頃に実験が終わるのでsubmitする 4. 仕事 5. 仕事終了後に色々なsubmitをしつつ、明日の実験内容を考える 6. 2ヶ月繰り返す
CONFIDENTIAL Copyright © LPIXEL Inc. 12 秘訣3:アンサンブル戦略 前述の通り、Kaggle Notebookにはモデル作成時間も計算資源もない そのような中で高スコアのsubmitを作る必要ある
→ コンペでは高性能な単体モデルが求められている訳ではない • コンペ中盤あたりから早々にアンサンブルに取り掛かるのが吉 • 作成するモデルもアンサンブルに有効なものを作ることに注力
CONFIDENTIAL Copyright © LPIXEL Inc. 13 まとめ • モデル作成の王道からは少し離れたことも紹介しましたが、 Kaggle
Notebookの計算資源でもソロ金を取ることは可能! • 今回紹介した秘訣を参考に、Kaggle Notebookの計算資源だけ で金メダルにチャレンジしてみてはいかがでしょうか? ◦ やることなくてモチベーション低下中のGMの方いかがですか? (Appendixに無課金Masterになった経緯なども載せています)
CONFIDENTIAL Copyright © LPIXEL Inc. 14 Appendix • 無課金でMasterになった経緯 •
簡単な弊社紹介
CONFIDENTIAL Copyright © LPIXEL Inc. 15 Appendix:無課金でMasterに • 最初のメダルは、学生時代に参加したTwo Sigmaコンペ(株価予測)
◦ 運よく銀メダルを取れた ◦ Kaggle Notebookのみ(学習自体Kaggle Notebookでやらないといけな いルール) • 以降もいくつかコンペに参加したがメダルは取れず ◦ 研究室に配属になってからは Kaggle < 研究
CONFIDENTIAL Copyright © LPIXEL Inc. 16 Appendix:無課金でMasterに • 就職してから再びKaggleに参加 •
次のメダルは現職の自己研鑽制度で会社の計算資源を借りて出た UW-Madison GI Tract Image Segmentation コンペ ◦ 銅メダル ◦ これでもわかる通り、過去全てのコンペでKaggle Notebookだけの資源 で挑戦したわけではない • 次はHuBMAP ◦ 紹介済み
CONFIDENTIAL Copyright © LPIXEL Inc. 17 Appendix:無課金でMasterに • その次は、RSNA コンペで銀メダル
◦ 自己研鑽制度で会社の計算資源を借りた ◦ ここでMasterに • 最後に前回のHuBMAPで銀メダル ◦ 残り2週間までKaggle Notebookで頑張って金圏にいました ◦ 最終盤でより大きいモデルの方が精度が出ることが分かったので、自己研 鑽制度で会社の計算資源を借りた
CONFIDENTIAL Copyright © LPIXEL Inc. 18 Appendix:無課金でMasterに • これまでの流れもでわかるようにkaggleは基本的に計算資源がある方 がチャレンジしやすい
• 無課金でMasterになるなら制度で計算資源を借りることができる会社 に入るのが最も手っ取り早い
CONFIDENTIAL Copyright © LPIXEL Inc. 19 Appendix:弊社紹介 エルピクセルの機械学習エンジニアの仕事は大きく分けて • 自社のAI画像診断支援技術製品の開発
• 製薬企業などとの協業 があり、どちらもKaggleとの親和性が高い業務となっています! ご興味がありましたら、こちらからご応募ください! (カジュアル面談も随時受け付けています)
CONFIDENTIAL Copyright © LPIXEL Inc. 20 Appendix:弊社紹介 ホームページ:https://lpixel.net/ note :
https://note.com/lpixel/ 採用情報: • https://herp.careers/v1/lpixel • https://www.wantedly.com/companies/lpixel お問い合わせ:https://lpixel.net/lpixel_contact_form/