Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データコンペを開いた話
Search
Yamaguchi Takahiro
September 19, 2019
Science
440
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
データコンペを開いた話
データコンペを開いた時のあれこれのお話です
Yamaguchi Takahiro
September 19, 2019
More Decks by Yamaguchi Takahiro
See All by Yamaguchi Takahiro
関西Kaggler会_不確実性最適化ゲーム入門
nyk510
1
750
コンペを気楽に開催しよーぜ!@関西Kaggler会
nyk510
0
1.4k
Django のセキュリティリリースを見る
nyk510
0
130
3分でMLアプリを作る 〜推論コードにちょっとのStreamlitを添えて〜
nyk510
1
1.2k
硬派で真面目なグラフを描く
nyk510
0
570
CORSをちゃんと理解する atmaバックエンド勉強会#4
nyk510
0
460
pythonで気軽にパッケージを作るのは良いという話。
nyk510
14
9.9k
RestAPIのページネーション atma バックエンド勉強会 #3
nyk510
1
1.1k
AWS CPU Credit を完全に理解する
nyk510
0
510
Other Decks in Science
See All in Science
プロジェクト「Azayaka」のSARの数式とジオメトリ
syuchimu
0
350
人生を変えた一冊「独学大全」のはなし / Self-study ENCYCLOPEDIA: The Book Which Change My Life #独学大全 #EM推し本
expajp
0
160
Cross-Media Technologies, Information Science and Human-Information Interaction
signer
PRO
3
32k
TypeScript で WebAssembly を用いた 型安全なプラグイン設計
nagano
2
530
あなたに水耕栽培を愛していないとは言わせない
mutsumix
1
340
20251212_LT忘年会_データサイエンス枠_新川.pdf
shinpsan
0
290
ダメな自分の育て方―性格タイプの「劣等機能」から理解するニガテ克服術
ppillc
0
170
20260410_SystemsThinking
takusamar
1
110
Utiliser Bitcoin sans Internet
rlifchitz
0
250
やるべきときにMLをやる AIエージェント開発
fufufukakaka
2
1.5k
AkarengaLT vol.41
hashimoto_kei
1
140
データベース11: 正規化(1/2) - 望ましくない関係スキーマ
trycycle
PRO
0
1.1k
Featured
See All Featured
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
850
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
340
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.8k
Being A Developer After 40
akosma
91
590k
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
4k
How to make the Groovebox
asonas
2
2.2k
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
160
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
140
Building the Perfect Custom Keyboard
takai
2
800
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2.1k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.4k
Transcript
データコンペ を開いた話
Hello! 山口貴大 twitter @nyker_goto atma 株式会社 取締役/ DS / ふろんと
/ ばっくえんど / いんふら Kaggle Master kaggle.com/nyk510 京都大学大学院 最適化数理卒 SGDが好き 2
3 とつぜんですが
4 atmaCup ご存知ですよね?
5 え、知らない?
atmaCupとは atma 株式会社が主催するオンサイトデータコンペ https://atma-cup.atma.co.jp • 実際に会場に集まり、準備されたデータをテーマに沿って 分析・予測を行いその精度を競うイベント • 全員で一斉にスタートし短い時間で決着するため参加者のスキ ルがオンラインのデータコンペより強く結果に表れます。
6
atmaCup #1 8/3 #1(第2回)を開催 全参加者: 26人 (東京から10人以上) 参加者の半数が Kaggler の超ハイレベルな大会
Kaggle GrandMaster: 1人 Kaggle Master: 5人 Kaggle Expert: 7人 終了後のアンケートでは 全員が次回も参加したい(5段階評価)と回答 :D 7
しかし!! 8
コンペを作るのは なかなか大変!!! 9
大変だったこと × システムを作るのが大変 × 使うデータの選定が大変 × いい感じの解ける問題を作るのが大変 10
Kaggle っぽいシステムを作る必要性 • スコア計算/ランキング • ディスカッション・Vote • チームマージ… Vue.js +
Nuxt ✖ DjangoRestFramework GitlabCIによる自動デプロイ + AWS(ECS) つくってわかるアプリとしての Kaggle の凄さ 1.システムを作るのが大変 11
2.使うデータの選定が大変 それを解いてためになる問題にしたい • 匿名データではないリアルなデータを用意 (まあまあ大変) Train/Public/Private の分割は慎重に…… • Leakage があると何を言われるかわからないこわい
いい感じ(要出典)にハンドリングできるデータ量に • 一日しかないのでその中で扱えるぐらいのいい感じ(要出典)の データ 12
3.いい感じの解ける問題を作るのが大変 Leak とかなかったらいいかというとそうでもない • 解けないと面白くない • でも簡単すぎると差がつかない いい感じ(要出典)に差がつくような問題設定にする必要がある 13
結果どうなるか… 14
いい感じに作るの 大変すぎて病む 15
16 *コンペ前日
よかったこと!! × みんなで解くのは楽しい これは本当に、たのしい!! × [回答者として]とても勉強になる みんなが何をやっているか知れるのは大きい × [出題者として]出題の難しさを知れる 17
よだん AutoMLも参戦してました (8位/31) くわしい顛末はブログで AutoML Tablesを使ってKagglerを倒せなかった話 #atmaCup https://atma.hatenablog.com/entry/2019/08/26/180951 18
次回 10月 ~ 11月頃 開催予定 データ提供元募集中! atmaCup #2
THANKS! Arigato Gozaimashita !! 20