Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
オンサイトデータコンペの魅力: 関わる全員が楽しいコンペ設計のための取り組み
Search
Yamaguchi Takahiro
August 01, 2020
Science
3
5.5k
オンサイトデータコンペの魅力: 関わる全員が楽しいコンペ設計のための取り組み
オンサイトデータコンペティションatmaCupを楽しいコンペにするための取り組みについて。
Yamaguchi Takahiro
August 01, 2020
Tweet
Share
More Decks by Yamaguchi Takahiro
See All by Yamaguchi Takahiro
コンペを気楽に開催しよーぜ!@関西Kaggler会
nyk510
0
1.3k
Django のセキュリティリリースを見る
nyk510
0
110
3分でMLアプリを作る 〜推論コードにちょっとのStreamlitを添えて〜
nyk510
1
1.1k
硬派で真面目なグラフを描く
nyk510
0
530
CORSをちゃんと理解する atmaバックエンド勉強会#4
nyk510
0
420
pythonで気軽にパッケージを作るのは良いという話。
nyk510
14
9.8k
RestAPIのページネーション atma バックエンド勉強会 #3
nyk510
1
1k
AWS CPU Credit を完全に理解する
nyk510
0
470
atmaCup#8 Opening
nyk510
0
280
Other Decks in Science
See All in Science
蔵本モデルが解き明かす同期と相転移の秘密 〜拍手のリズムはなぜ揃うのか?〜
syotasasaki593876
1
140
会社でMLモデルを作るとは @電気通信大学 データアントレプレナーフェロープログラム
yuto16
1
400
機械学習 - K近傍法 & 機械学習のお作法
trycycle
PRO
0
1.3k
Collective Predictive Coding as a Unified Theory for the Socio-Cognitive Human Minds
tanichu
0
130
イロレーティングを活用した関東大学サッカーの定量的実力評価 / A quantitative performance evaluation of Kanto University Football Association using Elo rating
konakalab
0
120
Transport information Geometry: Current and Future II
lwc2017
0
220
Performance Evaluation and Ranking of Drivers in Multiple Motorsports Using Massey’s Method
konakalab
0
120
高校生就活へのDA導入の提案
shunyanoda
0
6.1k
Text-to-SQLの既存の評価指標を問い直す
gotalab555
1
130
データベース04: SQL (1/3) 単純質問 & 集約演算
trycycle
PRO
0
1.1k
2025-06-11-ai_belgium
sofievl
1
200
データマイニング - グラフ埋め込み入門
trycycle
PRO
1
110
Featured
See All Featured
For a Future-Friendly Web
brad_frost
180
10k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
14k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Building Adaptive Systems
keathley
44
2.8k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
Large-scale JavaScript Application Architecture
addyosmani
514
110k
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
The Cost Of JavaScript in 2023
addyosmani
55
9.3k
Speed Design
sergeychernyshev
33
1.3k
Transcript
オンサイトデータコンペの魅力。 関わる全員が楽しいコンペ設計のための取り組み
自己紹介 山口貴大 atma(アートマ)株式会社 取締役 京都大学院・情報学研究科 数理最適化専攻 学生時代に数理最適化の応用としての機械学習に興味をもち新卒で atma入社。主にデータ分析領域から、エンジニアとしてフロントエンド・ バックエンドの開発、たまにインフラ構築も。 Kaggle
Master 趣味: 綺麗なウェブサイトの構造を読むこと twitter: @nyker_goto 2
atma株式会社とは 事業内容 - AI導入コンサルティング・POC・システム開発 - コンサルティングフェーズからシステム開発まで一気通貫に出来ることが強み - toB/toC のシステム開発 -
自社サービス - オンサイトデータコンペティション・ atmaCup を開催 3 大阪にあるベンチャー企業です。
データコンペティションとは 1.課題とデータの提供 出題者が出すデータ分析の課題を 参加者が解いて、その精度を競う大会 上位解法を賞金と引き換えに受け取る 出題者 参加者 2. 機械学習 モデルの構築
3.システム上で自動採点 精度でランク付け 4 4.ランクに応じて 賞金・称号の授与 オンラインプラットフォームがいくつか存在 海外: Kaggle / 国内: Signate 3. 出来上がったモデルを システムへ提出 0.課題の設計 参加者の力を借りて問題を解くことが出来る ため、データサイエンスの課題解決方法の一 つとして近年注目されている。
みんな嬉しい。データコンペティション 基本的に賞金獲得は上位数名のみ。 (ほとんどの参加者は賞金はもらえない ) 出題者(ホスト)にだけメリットがありそうだが、実はそうでもない。 能力を試すことができる データサイエンスの能力は可視化されにくい。共通の問題を同時に解くの で、自分の能力を測る場として最適。 新しい知見を得ることができる コンペ終了後に上位入賞者が自分の解法を公開する場合が多い。
上位陣の解法を元に自分のレベルアップをはかることができる。 5
オンサイトデータコンペティション・atmaCup の特徴 オンサイトデータコンペとは 実際に会場に集まり、 準備されたデータをテーマに沿って分析・予測を行い、 その精度を競うイベントです。 特徴: 時間が短く・実際に集まる 1. 短い時間で分析する力が求められる
2. 解法についてその場で議論できる 6 過去の開催情報・最終ランキングはコンペ用サイト ぐるぐるからみることができます https://www.guruguru.ml/ ぐるぐる・Data Competition Platform for atmaCup
/ 動員数 毎回多数の方々に参加頂いています。 参加希望者が多く毎回開催と同時 (数時間)で定員 が埋まる状況。 前回atmaCup#5は初のオンライン開催 300人枠すべてが埋まる盛況 **Kaggle GrandMaster
世界で上位0.1% *Kaggle Master 世界上位1% / 日本で100人程度 Kaggle Expert: 日本で数百人 #2 #3 #4 #5 全員 34 85 58 218 #GrandMaster** 2 3 0 4 #Master* 7 15 11 29 #Expert 8 27 25 72 参加者数の推移 7
/ 様々な実問題解決への応用 過去開催のうちいくつかは実際に課題解決へ応用されています。 atmaCup#4(*) 購買情報からユーザーの次回の購入品目の予測 ID-POSの購買履歴データを用いてユーザーの買いそうな商品を予測する問題。 販売促進活動やレコメンド・店内配置の最適化に応用できる。 現在システム化を見据えたソリューションの活用プロジェクトが進行中。 atmaCup#5 実験対象の状態予測問題
実験データから状態を推定する問題。人に匹敵するような精度をだすモデルが優勝。 今後システム化することで、研究者がより本質的課題解決に時間を使うことができる。 8 (*) リテールAI研究会・MSさんとの共同開催
オンサイトデータコンペの魅力。 関わる全員が楽しいコンペ設計のための取り組み
オンサイトデータコンペの魅力。 関わる全員が楽しいコンペ設計のための取り組み 楽しいコンペって なんだろう?
楽しい(良い)データコンペティションの要素 1. コンペに適した課題設計になっている - コンペ上位の解法が実際の問題を解決できるものであること - 課題をカンニング出来たり、そもそも解けないとコンペとしては成立しない 2. 参加者が楽しい -
知的好奇心を満たすような普段触れない・取り組めない課題やデータか (データを触っていて楽しい) 11
設計に失敗すると、楽しくないコンペになる 課題設計に失敗してしまうコンペティションも中には存在する。 - 答えがGoogle検索でわかってしまうコンペ (カンニング出来る状態/Leakageと呼ぶ) - 予測が難しすぎてすべて0で予測するモデルが上位入賞するコンペ (予測が不可能) - ...etc
参加者: 真面目にモデルを作った時間が報われず悲しい & ホストへ悪印象 ホスト: 上位の解法から得られるものがすくなく、開催した意味が少ない 12
コンペに適した課題設計 3. 初心者・中級者へ向けたサポートの実施 4. 振り返り会の実施 5. 分析者にとって快適なコンペサイトの構築 参加者が楽しめる工夫 1. 解いてためになるような課題設計
2. データサイエンティストによる 課題とデータ検証 atmaCupが楽しいコンペティションになるために 13
1. 解いてためになるような課題設計 本当にやりたいこと = 課題を解決する方法を知ること コンペ開催主体はなにを求めているのか ? を丁寧にヒアリング - 本当の課題は何か
- 何が出来ると解決と言えるのか 14 コンペティション課題を解くことが 最終的にやりたいことを達成できるような課題設計に
2. データサイエンティストによる提供データ・課題の検証 リークや予測不可能性があり、コンペとして破綻していないかどうかを 実際にデータサイエンティストが問題を解いて チェック • 本当にモデルを作ります。 課題が適切でない場合再度問題設定・モデリング • 場合によっては想定課題が
100を超えて、作成モデル数はその数十倍になることも • 大変すぎるのでモデル作成をサポートするためのライブラリを作っています https://github.com/nyk510/vivid (pip install python-vivid をしましょう) 出題企業様へのフィードバックの実施 • 終了後に上位の解法を元に結果や解法について、出来る限りわかりやすく解説 • 実際のオペレーションに活用できる知見にしてもらえるように 15
3. 初心者・中級者へ向けたサポートの実施 atmaCupは強い人だけでなく、初心者の参加を歓迎しています。 質問はなんでもOK! コンペの順位に差し障る内容以外の質問は何時でも OK。 データサイエンティストによる分析講座を開催 データの可視化・コードの書き方・機械学習モデルの作成など。 終了後にはコードを notebook
として共有 参加者全員が submit してスコアを出すところまでを体験して 少しでもデータ分析の面白さを知ってもらえるように 16 #5はオンライン開催だったため youtube-liveで配信
4. 振り返り会の開催 参加して終わりではなく、さらなるレベルアップにつなげてほしいという思いから コンペ終了後 atma 主催で振り返り会を開催しています。 参加者のLTや出題側の意図などのプレゼンで 分析に関するより深い知識を共有できる場を提供 前回は本参加者の半数近くが振り返り会にも参加 17
atma office にて振り返り会の開催 (atmaCup#3)
5. 分析者にとって快適なコンペサイトの構築 コンペサイトは単にデータを閲覧・提出する場所ではなく、 ユーザー同士の大切なコミュニケーションの場所であり、その使い勝手はとても大切です。 ストレスなく扱えるような UI・UX の探求 分析者が開発を担当。分析者にとって嬉しいシステムを実現可 能 常に楽しい体験ができるよう日々更新
コンペ中リアルタイムに要望を受け付けて改修も ?! (ex: atmaCup#5 / twitter投稿ボタンの追加, ディスカッションのtag) 18
つまるところ、コンペは楽しいということを伝えたい 僕がそもそもデータコンペティションのファン。 コンペって良いなと思ってもらえるように関わる人全員が楽しくなるように努力している。 • 課題を持っている企業さんには、素晴らしい課題解決方法を提案して喜んでもらい、 コンペティションは良いものだと思ってほしい • 参加者さんには解いて面白くて・学びが深い「楽しい」コンペ設計を提供して楽しんでもらい つぎまた参加したいなと思ってほしい 19
今後第5回以降も開催予定ですので、参加いただけるととても嬉しいです!
まとめ データコンペティションは出題ホストだけでなく参加者も嬉しい仕組み がしかし適切に問題設計をしないと、誰も得しない事になってしまう場合もあります。 良いコンペティションになるためatmaCupで取り組んでいることを紹介しました。 20