Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Kaggle昔?話

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.

 Kaggle昔?話

4年くらい前から今までのコンペを振り返ります

Avatar for Hidehisa Arai

Hidehisa Arai

June 18, 2021
Tweet

More Decks by Hidehisa Arai

Other Decks in Technology

Transcript

  1. 自己紹介
 2 • 21新卒で機械学習エンジニア 
 • 鳥コンペ2でCompetitions Grandmasterになりました 
 ◦

    PrizeなしGM😢
 • 音コンペばかりやってる 
 ◦ 鳥の声ばかり分類してる 
 • Kaggle歴3年だと思っていたら4年だっ たらしい
 ◦ メルカリコンペが最初 
 • 学生時代は航空宇宙 
 https://www.kaggle.com/hidehisaarai1213 https://twitter.com/kaggle_araisan https://github.com/koukyo1994
  2. 時系列で見るCode Competition
 5 2017/11
 Mercari 
 最初期のKernel Onlyコンペ
 2018/09
 Two

    Sigma(2)
 最初のTime Series APIコンペ
 2018/11~ 2019/04
 Quora(2), Petfinder, Jigsaw(2), Freesound 
 
 Synchronous Kernels-Onlyではなかった頃。Stage2 でエラー落ちして死ぬ可能性がありワクワクドキドキ が楽しめた。
 2019/05
 Kerneler
 最初のSynchronous KO
 2020/01
 Connect X
 最初のシミュレー ションコンペ
 2019/06~現在
 Code Competition全盛の時代 
 
 いまやCode Competitionではないコンペが珍しい時代になった。一 方で昔あったような学習もKaggle Notebookで行うような形式のコン ペは消失した。
 2020/10
 Riiid
 超久しぶりのTime Series API

  3. 特徴的だったCode Competitionたち①
 6 Mercari Price Suggestion 
 
 • 計算は学習込み、CPUのみ1hr

    
 • 外部データ使用不可のため学習済み 単語埋め込みなども使われなかった 
 • 優勝チームの解法が超シンプル 
 ◦ 75行のPythonコードでトップのス コアが再現できる
 https://www.kaggle.com/lopuhin/mercari-golf-0-3875-cv-in-75-loc-1900-s https://www.kaggle.com/c/mercari-price-suggestion-challenge
  4. 特徴的だったCode Competitionたち②
 7 Instant Gratification 
 
 • 初めてのSynchronous Kernels-Only

    Competition
 • Submissionが通れば自動的にStage 2 でも落ちないことが保証されるのは画 期的だった
 • (コンペ自体は人工データのためあんま 面白くなかった)
 • 理論上の最高スコアが0.975であり、そ の出し方に気づいたらあとは運で勝負 が決まる謎コンペだった 
 Synchronous Kernels-Only以前は2nd stageでうっかり死ぬ可能 性があった

  5. 時系列で見るNLPコンペ
 9 2017/11
 Mercari 
 Tfidf + Ridge回帰, LightGBM, NNなどが強

    かった
 2017/12
 Jigsaw(1)
 Word Embedding大活躍。翻 訳を用いたData Augmentationなどが初め て?使われた
 2018/04
 Avito
 少し前までマルチ モーダルコンペの代 名詞だった
 2018/11
 Quora(2)
 使えるWord Embeddingが制限さ れていた
 2018/12
 Petfinder
 BERTよりWord Embeddingの方が強 かった
 2019/02
 Gendered Pronoun
 上位解法がBERTだっ た最初のコンペ
 2019/03
 Jigsaw(2)
 BERT時代初期
 参加者数が多い
 2019/10
 TF2.0 QA
 TF推奨だったためTF がよく使われた珍し いNLPコンペ
 2019/11
 Google QUEST
 BERTの他にUniversal Sentence Encoderが見 られた
 2020/03
 Jigsaw(3)
 多言語NLPコンペ。 Multilingual BERTが 火を吹いた
 2020/03
 Tweet Sentiment
 ラベルノイズが特徴 的だった
 2021/03
 Shopee
 マルチモーダルかつ 多言語。

  6. 直近のコンペ傾向
 12 画像・自然言語・音・時系列タスク 
 (NNが強い)
 画像+言語
 類似商品検索
 距離学習など
 画像
 (弱教師あり)領

    域分割
 研究色が強い
 画像
 キャプショニング
 Encoder-Decoder
 画像枚数が非常に多い 
 音
 環境音分類
 SED+後処理
 医用画像
 物体検知?
 医用画像
 多ラベル分類
 でかいモデルで殴る 
 画像
 多クラス分類
 ラベルノイズがひどい & リーク
 音
 多ラベル分類
 ラベル信頼度が鍵
 医用画像
 領域分割
 荒れた
 動画
 イベント検出
 3D + 2Dの二段階
 時系列
 系列ラベリング
 Transformer無双
 系列データ
 系列ラベリング
 NNアンサンブル
 定期開催されるタイプ 
 シミュレーション系
 その他
 テーブル
 NBA勝敗予測
 Santa
 最適化コンペ
 ジャンケンエージェ ント作成
 運ゲーと名高い
 サッカーエージェン ト作成
 強化学習がうまく いっていた
 陣取り合戦
 ルールベースが強 い
 系列データ
 位置推定
 後処理の最適化が重要 

  7. 13 KaggleといえばXGBoost(LightGBM)の時代は終わり?
 年
 2018 2019 2020 2021 GBDTが上位に いた回数 9

    9 6 3 GBDTが上位に いたコンペ例 Talking Data Home Credit PLAsTiCC Petfinder IEEE-CIS DSB2019 M5 TReNDS Riiid NBA BirdCLEF2021 アンサンブル込みでGBDTが上位にいたコンペ数(NBA×2を毎年含む) 
 GBDTは引き続き使われているが手法のコアではなくなってきている