競技としてのKaggle、役に立つKaggle

競技としてのKaggle 役に立つKaggle GO株式会社内田祐介 (@yu4u)

© GO Inc. 2 自己紹介 @yu4u n Kaggle Competitions Grandmaster
https://www.kaggle.com/ren4yu n SIGNATE Grandmaster https://signate.jp/users/11285 n 画像コンペメインでやっています

© GO Inc. 6 月刊Kaggleは役に立たない n 定期的にKaggleは実務の役に立たないという議論が発生することから、出るたびに月刊Kaggleと言われる n 姉妹誌に「月刊競技プログラミングは役に立たない」
⽉刊競技プログラミングは役に⽴たない 2014年5⽉創刊⽉刊Kaggleは役に⽴たない 2017年6⽉創刊

© GO Inc. 7 今日の話 n コンペの流れとtips的な情報を主観強めで紹介 Q&Aパネルトークのネタになればお役立ちリンクは後で是非ゆっくり見てください n
それぞれ役に立つ〜とか言おうと思ったが、だいたい役に立ちそうだったのでちょっとタイトル詐欺月刊: Kaggleは役に立たない by @threecourse さん https://threecourse.hatenablog.com/entry/%3Fp%3D1144 にほぼ答えがあった実例で示すKaggleコンペと開発実務の差 by @kaeru_nantoka さん https://speakerdeck.com/kaerururu/lpixelxcaddi-kaerururu n 画像コンペ前提の話多め

© GO Inc. 8 娯楽としてのKaggle n 参加していないコンペでもコンペ終了日にX（旧Twitter）で盛り上がっているのを見るだけで楽しいトリッキーに見えるけど本質的な手法が勝っていたりすると面白い https://www.kaggle.com/competitions/llm-prompt-
recovery/discussion/494343 もちろんやっているコンペの終了日は楽しい n Kagglerを訪ねて三千里 https://www.youtube.com/@takamisato4299 n Kaggler会 https://kansaikaggler.connpass.com/event/316950/（2024/7/5） https://connpass.com/event/290248/（資料あり） n Kaggle Grandmasterなりました振り返り GMになると振り返り記事を書くしきたり https://yu4u.hatenadiary.org/entry/2023/01/15/185119#%E5%8F% 82%E8%80%83%E6%96%87%E7%8C%AE

© GO Inc. 10 コンペの流れタスク理解 EDA 仮説検証モデル最適化
ベースライン構築チームマージコンペ終了反省会

© GO Inc. 11 タスク理解/EDA n 基本的なEDAはdiscussion, codeを眺めてキャッチアップのんびり全体像を把握適宜気になる情報はメモとして蓄積
Discussionは全部読む n ベースラインの構築に向けて提供データ、目的変数、評価指標を理解適宜追加でEDAを実施必要に応じてドメイン知識もキャッチアップ ChatGPTで捗る n 過去の類似タスクのコンペも参照（特にシリーズもの）

© GO Inc. 12 Probing n コードコンペにおいて、（private）テストデータの情報を取得する行為 Shake downしないため・shake
upを狙うため n Submission時に得られるテストデータの情報に応じて Notebookの終了時間をsleepして調整既にスコアの分かっている複数の結果のどれを投稿するか分岐 https://www.kaggle.com/code/tomooinubushi/lb-probing- notebook-for-hms n あるプラットフォームでは以前例外メッセージが見れた例外メッセージにテストデータの情報を入れられた何も分からないKaggle notebook subのエラーと対照的な優しさ

© GO Inc. 13 ベースラインの構築 n 前処理、validation戦略、モデル構築、学習、評価のパイプライン全体含めてベースライン n 「適切な」ベースライン構築が超重要
これができれば銀メダルは取れる印象銀が簡単というわけではなく適切なベースライン構築が難しい Kaggleは0.1%の精度を競うと言われたりするが、 discussion/codeを見ない状態で取り組むと公開notebookにも勝てないケースも多いのでは乗っかる公開notebookを選択し（重要）、必要な要素をうまく自分自身のパイプラインに取り込む要素＝前処理、split、Dataset、モデル

© GO Inc. 14 モデル構築 n 基本的にはデファクトスタンダードなライブラリを活用 n 画像コンペだと… timm：クラス分類、2Dバックボーン
create_optimizer_v2, create_scheduler_v2とかも便利 mmdetection, YOLOv5/8：物体検出 YOLOv8は様々なタスクに対応 segmentation_models_pytorch：セグメンテーション mmaction2：3Dバックボーン MONAI：セグメンテーション、2D, 3Dバックボーン 3Dデータ拡張とかも n その他 albumentations：データ拡張 wandb：実験管理 pytorch-lightning：パイプライン構築

© GO Inc. 15 Validation戦略 n “testデータの状況を模倣（再現）した適切なvalidation strategyを設定” Kaggleへの取り組み方~validation編~ by
@charmq さん https://docs.google.com/presentation/d/1cjZTtvBDiHci1Hl c33UH9LVJXyj2t5Hh9ZiHnp3BgVk/edit#slide=id.p n Leakを発生させない n コンペメトリックをちゃんと見る取り合えず学習してみたくなりval lossで代替しがち n 可能ならhold outではなくK-Fold CV平均 Fold毎に結構ブレる

© GO Inc. 16 仮説検証・試行錯誤 n Kaggleの仮説検証・試行錯誤のプロセスはかなり（SOTA狙いの）研究と似ている但しKaggleでは新規性・納得性・貢献は不要、結果が全て n
日々改善ネタを貯める入浴中、通勤中、寝かしつけ中、コーヒーブレイク中、 discussion/code眺めながら n 必ず1つの仮説のみを検証仮説＝これが効くのではというネタの追加、ハイパラやバックボーン変更等、あらゆる変更

© GO Inc. 17 仮説検証の効率化 n 「全部やる」ための方法論 n 試行回数の増やし方 2021年度版
https://speakerdeck.com/butsugiri/increasing-number-of- attempts-ver-2021 n 研究効率化Tips 2024 https://speakerdeck.com/ryo_nakamura/yan-jiu-xiao-lu-hua- tipp-2024 n ChatGPT, GitHub Copilot等の活用 n wandb 導入簡単、勝手に色々モニタしてくれる、グラフも見やすい、比較も簡単・直感的、再現用の実行コマンド・commit hashも教えてくれる、スマホでも見れる（中毒者）

© GO Inc. 18 ハイパラ自動最適化 n みんな大好きOptuna n 画像コンペだと1試行が重すぎて躊躇してしまう n
Happywhale - Whale and Dolphin Identification 1st https://www.kaggle.com/competitions/happy-whale-and- dolphin/discussion/320192 小さい画像サイズやバックボーン設定でハイパラ最適化得られたハイパラは大きな画像サイズやバックボーンでも汎化自動じゃなくても軽いモデルで試行錯誤を早くするのは重要 n SIGNATE 鰹節コンペ2nd（体験談） https://www.slideshare.net/ren4yu/signate-2nd-place- solution 物体検出のアンサンブル手法weighted boxes fusionのモデルの weightとIoUしきい値を調整

© GO Inc. 19 アノテーション n 基本的にはKaggleでは学習データとして使えるアノテーション情報が提供された状態でコンペが開催される n 追加でアノテーションを行うこと自体は許可されている
がそこまで行われていないラベルなしデータが提供されているケースが少ないアノテーションにドメインの専門性が必要

© GO Inc. 20 参加者がアノテーションを行っていたケース n Happywhale - Whale and
Dolphin Identification クジラやイルカの個体識別を行うコンペ。顔認証と同様、まずは個体の領域をcropする前処理が重要だがコンペとしては bounding boxデータが提供されていなかった https://www.kaggle.com/competitions/happy-whale-and- dolphin/discussion/311184 Bounding boxをアノテーションして公開自身もアノテーション実施（独自にやっていた人は多かった）ある程度アノテーションした後に学習、全データで推論を行い、検出ができなかった画像や、複数検出があった画像を目検し、学習データを追加所謂Human-in-the-Loop機械学習！

© GO Inc. 21 参加者がアノテーションを行っていたケース n Benetech - Making Graphs
Accessible 複数種類のグラフ画像からの情報抽出 Benetechコンペ参戦記（1st solution） https://speakerdeck.com/yumeneko/benetechkonpecan-zhan- ji?slide=25 500枚アノテーション＋10000枚半自動ラベリング

© GO Inc. 22 Human-in-the-Loop機械学習 n モデルだけではなくデータも（こそ）重要昔からGarbage In, Garbage
Outと言われている近年はData-Centric AIがキーワードに n データセットをいかに高品質かつ効率的に作成するか Human-in-the-Loop機械学習本 n 第8回 Data-Centric AI勉強会 ~Human-in-the-Loop機械学習特別回~ https://dcai-jp.connpass.com/ event/315963/

© GO Inc. 23 Pseudo Labeling n ラベルのないtrainやtestデータに訓練済みモデルで疑似ラベルを付与すること。効くかはやってみないと分からないが基本品質の低いラベルありデータの修正に使ったり
物体検出タスクでtrainデータ疑似ラベルを「追加」 https://www.kaggle.com/competitions/hubmap-hacking-the- human-vasculature/discussion/428295 n 使い方も様々 train + pseudo train + pseudo -> trainでfinetune pseudo -> trainでfinetune 確信度の高いデータだけ追加 Pseudo labelingを複数回実施 https://www.kaggle.com/competitions/happy-whale-and- dolphin/discussion/320192

© GO Inc. 24 チームマージ n 信頼できそうな人・知り合いとマージしましょう！ n マージ後やること Slackワークスペースの作成、現状のsolutionの共有、oofの共有、
コードの共有、アンサンブルsub Oofの共有とweight最適化は必ずやりたい Oofのフォーマットやweight最適化の手順を決めておくと良い多様性重要パイプラインが違うだけで多様性がありアンサンブルでgainがある他の人と違うアーキテクチャ重要（1D, 2D, 2.5D, 3Dモデル等）（余談）基本的にみんなgreedyに最適化しているので、効いた・効かないがバラバラ

© GO Inc. 25 初期マージ vs. 終盤マージ n 初期マージ手分けしたいコンペ
様々なパイプラインが考えられる 1D, 2D, 2.5D, 3D マルチモーダルなデータデータの種類ごとにモデルを作るほうが良さそうコードコンペ n 終盤マージクソデカモデルアンサンブルゲー csvコンペ

© GO Inc. 27 最終日、最終submission選択、祈り n チームでもソロでも最終submissionをどうするかはある程度事前に決めておいた方が良い直前だとLBの状態とかに左右されがち n
最終submission コンペの性質（CVが信頼できるのか等）によって決定基本的にはCVスコアで1sub、後1つは攻めたsub 最終subをどうするか確証が持てるのは良いコンペ

© GO Inc. 28 Solution作成・反省会・top solution再現 n Solutionは終了前に完成させて、終了と同時に投稿するのがお勧め金圏じゃなくても読んでもらえる
n Top solutionは把握しておいて次コンペでのoption・武器として持っておくだけでも（言い訳）

競技としてのKaggle、役に立つKaggle

競技としてのKaggle、役に立つKaggle

yu4u

More Decks by yu4u

Other Decks in Technology

Featured

Transcript

競技としてのKaggle 役に立つKaggle GO株式会社内田祐介 (@yu4u)

© GO Inc. 2 自己紹介 @yu4u n Kaggle Competitions Grandmaster

© GO Inc. 3 はじめに

© GO Inc. 4 はじめに n team SONY 優勝おめでとうございます！ https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/leaderboard

© GO Inc. 5 月刊Kaggleは役に立たない n 定期的にKaggleは実務の役に立たないという議論が発生することから、出るたびに月刊Kaggleと言われる n 姉妹誌に「月刊競技プログラミングは役に立たない」

© GO Inc. 6 月刊Kaggleは役に立たない n 定期的にKaggleは実務の役に立たないという議論が発生することから、出るたびに月刊Kaggleと言われる n 姉妹誌に「月刊競技プログラミングは役に立たない」

© GO Inc. 7 今日の話 n コンペの流れとtips的な情報を主観強めで紹介 Q&Aパネルトークのネタになればお役立ちリンクは後で是非ゆっくり見てください n

© GO Inc. 9 Kaggleで一番辛いとき Weight 0

© GO Inc. 10 コンペの流れタスク理解 EDA 仮説検証モデル最適化

© GO Inc. 11 タスク理解/EDA n 基本的なEDAはdiscussion, codeを眺めてキャッチアップのんびり全体像を把握適宜気になる情報はメモとして蓄積

© GO Inc. 12 Probing n コードコンペにおいて、（private）テストデータの情報を取得する行為 Shake downしないため・shake

© GO Inc. 13 ベースラインの構築 n 前処理、validation戦略、モデル構築、学習、評価のパイプライン全体含めてベースライン n 「適切な」ベースライン構築が超重要

© GO Inc. 14 モデル構築 n 基本的にはデファクトスタンダードなライブラリを活用 n 画像コンペだと… timm：クラス分類、2Dバックボーン

© GO Inc. 15 Validation戦略 n “testデータの状況を模倣（再現）した適切なvalidation strategyを設定” Kaggleへの取り組み方~validation編~ by

© GO Inc. 16 仮説検証・試行錯誤 n Kaggleの仮説検証・試行錯誤のプロセスはかなり（SOTA狙いの）研究と似ている但しKaggleでは新規性・納得性・貢献は不要、結果が全て n

© GO Inc. 17 仮説検証の効率化 n 「全部やる」ための方法論 n 試行回数の増やし方 2021年度版

© GO Inc. 18 ハイパラ自動最適化 n みんな大好きOptuna n 画像コンペだと1試行が重すぎて躊躇してしまう n

© GO Inc. 19 アノテーション n 基本的にはKaggleでは学習データとして使えるアノテーション情報が提供された状態でコンペが開催される n 追加でアノテーションを行うこと自体は許可されている

© GO Inc. 20 参加者がアノテーションを行っていたケース n Happywhale - Whale and

© GO Inc. 21 参加者がアノテーションを行っていたケース n Benetech - Making Graphs

© GO Inc. 22 Human-in-the-Loop機械学習 n モデルだけではなくデータも（こそ）重要昔からGarbage In, Garbage

© GO Inc. 23 Pseudo Labeling n ラベルのないtrainやtestデータに訓練済みモデルで疑似ラベルを付与すること。効くかはやってみないと分からないが基本品質の低いラベルありデータの修正に使ったり

© GO Inc. 24 チームマージ n 信頼できそうな人・知り合いとマージしましょう！ n マージ後やること Slackワークスペースの作成、現状のsolutionの共有、oofの共有、

© GO Inc. 25 初期マージ vs. 終盤マージ n 初期マージ手分けしたいコンペ

© GO Inc. 26 LeakとShakeは… n Shake 無理ゲー（モデルの推論がほぼrandom guessに近い） Public

© GO Inc. 27 最終日、最終submission選択、祈り n チームでもソロでも最終submissionをどうするかはある程度事前に決めておいた方が良い直前だとLBの状態とかに左右されがち n

© GO Inc. 28 Solution作成・反省会・top solution再現 n Solutionは終了前に完成させて、終了と同時に投稿するのがお勧め金圏じゃなくても読んでもらえる

© GO Inc. 29 そして次のコンペへ…