Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【第2回】関東Kaggler会「How are you handling High Score...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for takaito takaito
August 03, 2024
2.4k

【第2回】関東Kaggler会「How are you handling High Score Public Notebook?」

【第2回】関東Kaggler会のLT4: 「How are you handling High Score Public Notebook?」の資料となります.

Avatar for takaito

takaito

August 03, 2024
Tweet

More Decks by takaito

Transcript

  1. 1 大学の専攻: 自然言語処理 お仕事: 資産運用会社のクオンツアナリスト Kaggle: Competitions Master Kaggle歴: 4年目に突入

    (2021年~) データ分析スキルの向上を目的に様々なコンペに参加 @takaito0423 簡単な自己紹介
  2. 2 【第1回】 関東kaggler会でのLT スコアが改善せず,気持ちがネガティブになったときには以下を思い出してください! ① バイアスなどをきちんと理解する ② 相対的な順位だけでなく,自身の成長にフォーカスする ③ チームを組んで参加する

    ④ 無理のないペースで取り組む 参加者同士で切磋琢磨しながら自己成長を続けていくという経過を楽しむことを忘れずに! 努力を続けていれば,きっといつかは上位争いに参加できるようになると思います!! 気楽にソロ参加でも,ワイワイとチーム参加でもいいので, とにかく楽しんで継続していくことが大事だと思います!!
  3. 6 High Score Public Notebookとは? ✔ Public(LB) Scoreが高く,コピーするだけで銅圏~銀圏に届くような公開Notebook ✔ 状況次第では一瞬で銀圏から追い出されることも...

    ✔ 初学者~中級者からすると,1からコードを書く必要がなく大変助かる場合も多い ✔ 逆に,公開Notebookを超えることができずに苦労することも ✔ 自然言語処理系のコンペに多いように感じる (個人的な主観)
  4. 10 Notebookの活用例 (一般的な例) 自身のサブとアンサンブル ✔ あくまで多様性を持たせるための予測モデルに過ぎず,別途自作したものと最後に混ぜる ✔ 使用する公開notebookは,前処理から推論までの速度を改善することで,アドバンテージを得られる ベースにしてがっつり独自の変更を加えていく ✔

    ベースが同じであることから,銀圏までは駆け上がれることも多いが,金圏まで抜けるのはなかなか難しい印象 ~理想~ 高いスコア 汎用性の高いnotebook ~現実~ 微妙なスコア よくわからない混沌としたnotebook
  5. 11 Public Notebookが倒せない 立ちはだかるHigh Score Public Notebook ✔ 諦めずに様々な手法に挑戦するけど... ✔

    モデルのハイパーパラメータや閾値の最適化に挑戦するけど... どう向き合うか? ✔ (心の平安を保つために) アンサンブルだけは最後まで取っておく ✔ 斜に構える ✔ 常に疑問を持って何回も分析を行う!!
  6. 13 徹底的に分析する クロスバリデーション(CV)での評価を丁寧に! ✔ 適切なCV戦略の選択する ✔ 学習データの一部を切り分けておき,テストデータに見立てて評価を行う ex) データを5分割し4つのデータでCV,残り一つをLBに見立ててスコアを確認する ✔

    seedやデータ分割を変更して複数回検証を行う その検証結果から,偶然高いのか,notebookとして優れているのか判断する ✔ ルールベースによる後処理はCVでもover fittingする可能性があるので注意が必要(テキスト系のコンペなど) https://upura.hatenablog.com/entry/2018/12/04/224436 ディスカッションや上位常連のLBの順位など, 使える情報は何でも使って,確信に変えていく!!
  7. 14 実例: ICR - Identifying Age-Related Conditions ✔ ある人が3つの病状のいずれかに罹患(りかん)しているかどうかを予測するコンペ ✔

    評価関数はbalanced logarithmic loss ✔ テストデータの件数などの問題もあり,あまりいいコンペではなかったが,学ぶことはいろいろとあった ✔ ある閾値を下回った予測値を0にする後処理を追加することでLB スコアが改善することを示すNotebookが公開され,その後も閾値 やモデル数を変えただけのHigh Score Notebookが公開された ✔ 手元で検証を行えばわかることだが,評価指標の性質から,この 後処理に誤分類がひとつでも入ると大幅にスコアが悪化する ✔ むしろ0.1以下は0.1にする処理を入れた方がスコアは安定した
  8. 16 まとめ ✔ High Score Public Notebookに関して,以下の3点を紹介 1. 活用方法,2. 検証方法,3.

    向き合い方 ✔ High Score Public Notebookに惑わされることのない分析力とメンタルを身に着けることが大切 ✔ 大事なことは,新しい知識を学ぶ姿勢ととにかく諦めずに挑戦し続けること,そして楽しむこと みんなでkaggleを楽しんで行きましょう!!