Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Kaggle昔?話
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Hidehisa Arai
June 18, 2021
Technology
2.6k
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Kaggle昔?話
4年くらい前から今までのコンペを振り返ります
Hidehisa Arai
June 18, 2021
More Decks by Hidehisa Arai
See All by Hidehisa Arai
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
2.2k
生成AIの二大潮流と自動運転
koukyo1994
22
25k
ICML2021論文読み会資料
koukyo1994
2
1.7k
【2019-06-19】アルゴリズム勉強会 - 最小全域木
koukyo1994
0
300
コンペ中のコード、どうしてる?
koukyo1994
3
2.3k
変数間の関係を捉えたいあなたへ
koukyo1994
3
1.8k
脱! Deepでポン🎶ハイパラチューニング芸人を卒業するために
koukyo1994
7
4.9k
鳥蛙コンペ反省会資料
koukyo1994
3
1.5k
6th place solution to Cornell Birdcall Identification Challenge
koukyo1994
0
190
Other Decks in Technology
See All in Technology
AIAU_UMEMOGU_ninomiya_slide
ninomiya_ii
0
260
MySQL & MySQL HeatWave Report - June 2026
freshdaz
0
150
AI 不只幫你寫 Code: 當專案從 300 暴增到 1500, 我們如何撐住 DevOps
appleboy
0
240
40代で“やっとエンジニアになれた”――閉じた学びを開き、空の青さを知る / 20260628 Naoki Takahashi
shift_evolve
PRO
4
890
AIをフル活用してオンコール機能のプロトタイプを2日で作った話 / Building an AI-Powered On-Call Prototype in Just Two Days
nari_ex
0
140
【FinOps】データドリブンな意思決定を目指して
z63d
0
370
[AWS Summit Japan 2026]迷っているあなたへ_小さな一歩が、やがて自分を助けてくれる
sh_fk2
2
420
AIのReact習熟度を測る
uhyo
2
690
AIネイティブな開発のサプライチェーンリスク対策 〜激動の開発現場でリスクに立ち向かう〜【ZennFes】
cscengineer
PRO
2
160
AI時代のコスト管理を考えよう〜明日から使える実践AWSノウハウ~
yoshimi0227
0
870
本当の”仕事”を手放せる未来が見えた
mu7889yoon
0
140
[チョークトーク資料]AWS DevOps Agent を使いこなす / AWS Dev Ops Agent Chalk Talk AWS Summit Japan 2026
kinunori
4
770
Featured
See All Featured
Statistics for Hackers
jakevdp
799
230k
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
430
Utilizing Notion as your number one productivity tool
mfonobong
4
330
Agile that works and the tools we love
rasmusluckow
331
22k
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
270
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
400
Art, The Web, and Tiny UX
lynnandtonic
304
22k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.8k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
55k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
180
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.6k
The Limits of Empathy - UXLibs8
cassininazir
1
370
Transcript
Kaggle 昔?話 第二回 分析コンペLT会 Hidehisa Arai 1
自己紹介 2 • 21新卒で機械学習エンジニア • 鳥コンペ2でCompetitions Grandmasterになりました ◦
PrizeなしGM😢 • 音コンペばかりやってる ◦ 鳥の声ばかり分類してる • Kaggle歴3年だと思っていたら4年だっ たらしい ◦ メルカリコンペが最初 • 学生時代は航空宇宙 https://www.kaggle.com/hidehisaarai1213 https://twitter.com/kaggle_araisan https://github.com/koukyo1994
話すこと • Code Competition今/昔 • NLPコンペ今/昔 • コンペの傾向変化について 3 全てアライがKaggleに参加したメルカリコンペ(2017/11)以降の話になります
それより前の昔話はtksさんの発表などが面白いです( https://www.slideshare.net/ssuser4a5291/kaggle-06-tks )
Code Competition今/昔 4
時系列で見るCode Competition 5 2017/11 Mercari 最初期のKernel Onlyコンペ 2018/09 Two
Sigma(2) 最初のTime Series APIコンペ 2018/11~ 2019/04 Quora(2), Petfinder, Jigsaw(2), Freesound Synchronous Kernels-Onlyではなかった頃。Stage2 でエラー落ちして死ぬ可能性がありワクワクドキドキ が楽しめた。 2019/05 Kerneler 最初のSynchronous KO 2020/01 Connect X 最初のシミュレー ションコンペ 2019/06~現在 Code Competition全盛の時代 いまやCode Competitionではないコンペが珍しい時代になった。一 方で昔あったような学習もKaggle Notebookで行うような形式のコン ペは消失した。 2020/10 Riiid 超久しぶりのTime Series API
特徴的だったCode Competitionたち① 6 Mercari Price Suggestion • 計算は学習込み、CPUのみ1hr
• 外部データ使用不可のため学習済み 単語埋め込みなども使われなかった • 優勝チームの解法が超シンプル ◦ 75行のPythonコードでトップのス コアが再現できる https://www.kaggle.com/lopuhin/mercari-golf-0-3875-cv-in-75-loc-1900-s https://www.kaggle.com/c/mercari-price-suggestion-challenge
特徴的だったCode Competitionたち② 7 Instant Gratification • 初めてのSynchronous Kernels-Only
Competition • Submissionが通れば自動的にStage 2 でも落ちないことが保証されるのは画 期的だった • (コンペ自体は人工データのためあんま 面白くなかった) • 理論上の最高スコアが0.975であり、そ の出し方に気づいたらあとは運で勝負 が決まる謎コンペだった Synchronous Kernels-Only以前は2nd stageでうっかり死ぬ可能 性があった
NLPコンペ今/昔 8
時系列で見るNLPコンペ 9 2017/11 Mercari Tfidf + Ridge回帰, LightGBM, NNなどが強
かった 2017/12 Jigsaw(1) Word Embedding大活躍。翻 訳を用いたData Augmentationなどが初め て?使われた 2018/04 Avito 少し前までマルチ モーダルコンペの代 名詞だった 2018/11 Quora(2) 使えるWord Embeddingが制限さ れていた 2018/12 Petfinder BERTよりWord Embeddingの方が強 かった 2019/02 Gendered Pronoun 上位解法がBERTだっ た最初のコンペ 2019/03 Jigsaw(2) BERT時代初期 参加者数が多い 2019/10 TF2.0 QA TF推奨だったためTF がよく使われた珍し いNLPコンペ 2019/11 Google QUEST BERTの他にUniversal Sentence Encoderが見 られた 2020/03 Jigsaw(3) 多言語NLPコンペ。 Multilingual BERTが 火を吹いた 2020/03 Tweet Sentiment ラベルノイズが特徴 的だった 2021/03 Shopee マルチモーダルかつ 多言語。
NLPコンペ所感 • アライはBERT以降のコンペやってないことに気がついた • 近年はBERTが初期装備になっている感がある • 多言語が増えてきている ◦ 日本語NLPコンペが来て、MeCabの使い方で無双する日 本人Kaggler達を見たい・・・
• ラベルノイズやタスク設計の難しさ、データ不足などNLP要素 以外のところに難しさがあることも多い ◦ このあたりの傾向は画像コンペと類似 10
コンペの傾向変化について 11
直近のコンペ傾向 12 画像・自然言語・音・時系列タスク (NNが強い) 画像+言語 類似商品検索 距離学習など 画像 (弱教師あり)領
域分割 研究色が強い 画像 キャプショニング Encoder-Decoder 画像枚数が非常に多い 音 環境音分類 SED+後処理 医用画像 物体検知? 医用画像 多ラベル分類 でかいモデルで殴る 画像 多クラス分類 ラベルノイズがひどい & リーク 音 多ラベル分類 ラベル信頼度が鍵 医用画像 領域分割 荒れた 動画 イベント検出 3D + 2Dの二段階 時系列 系列ラベリング Transformer無双 系列データ 系列ラベリング NNアンサンブル 定期開催されるタイプ シミュレーション系 その他 テーブル NBA勝敗予測 Santa 最適化コンペ ジャンケンエージェ ント作成 運ゲーと名高い サッカーエージェン ト作成 強化学習がうまく いっていた 陣取り合戦 ルールベースが強 い 系列データ 位置推定 後処理の最適化が重要
13 KaggleといえばXGBoost(LightGBM)の時代は終わり? 年 2018 2019 2020 2021 GBDTが上位に いた回数 9
9 6 3 GBDTが上位に いたコンペ例 Talking Data Home Credit PLAsTiCC Petfinder IEEE-CIS DSB2019 M5 TReNDS Riiid NBA BirdCLEF2021 アンサンブル込みでGBDTが上位にいたコンペ数(NBA×2を毎年含む) GBDTは引き続き使われているが手法のコアではなくなってきている
コンペ傾向所感 • 近年はデータ量増加やNNがとても強い(≒GPUがないときつ い)コンペが多く初心者お断り感が増している ◦ 今後動画コンペが増えると予想 • 研究色が強いコンペが増えている、あと医用画像多い ◦ HPAなど
• シミュレーションコンペは今後発展していきそうな雰囲気があ る 14