Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
オンサイトデータコンペの魅力: 関わる全員が楽しいコンペ設計のための取り組み
Search
Yamaguchi Takahiro
August 01, 2020
Science
3
5.3k
オンサイトデータコンペの魅力: 関わる全員が楽しいコンペ設計のための取り組み
オンサイトデータコンペティションatmaCupを楽しいコンペにするための取り組みについて。
Yamaguchi Takahiro
August 01, 2020
Tweet
Share
More Decks by Yamaguchi Takahiro
See All by Yamaguchi Takahiro
コンペを気楽に開催しよーぜ!@関西Kaggler会
nyk510
0
1.1k
Django のセキュリティリリースを見る
nyk510
0
59
3分でMLアプリを作る 〜推論コードにちょっとのStreamlitを添えて〜
nyk510
1
1k
硬派で真面目なグラフを描く
nyk510
0
480
CORSをちゃんと理解する atmaバックエンド勉強会#4
nyk510
0
360
pythonで気軽にパッケージを作るのは良いという話。
nyk510
14
9.5k
RestAPIのページネーション atma バックエンド勉強会 #3
nyk510
1
860
AWS CPU Credit を完全に理解する
nyk510
0
420
atmaCup#8 Opening
nyk510
0
230
Other Decks in Science
See All in Science
Factorized Diffusion: Perceptual Illusions by Noise Decomposition
tomoaki0705
0
310
化学におけるAI・シミュレーション活用のトレンドと 汎用原子レベルシミュレーター: Matlantisを使った素材開発
matlantis
0
430
理論計算機科学における 数学の応用: 擬似ランダムネス
nobushimi
1
400
LIMEを用いた判断根拠の可視化
kentaitakura
0
430
証明支援系LEANに入門しよう
unaoya
0
630
ACL読み会2024@名大 REANO: Optimising Retrieval-Augmented Reader Models through Knowledge Graph Generation
takuma_matsubara
0
140
統計学入門講座 第1回スライド
techmathproject
0
220
インフラだけではない MLOps の話 @事例でわかるMLOps 機械学習の成果をスケールさせる処方箋 発売記念
icoxfog417
PRO
2
710
【健康&筋肉と生産性向上の関連性】 【Google Cloudを企業で運用する際の知識】 をお届け
yasumuusan
0
450
最適化超入門
tkm2261
14
3.4k
20分で分かる Human-in-the-Loop 機械学習におけるアノテーションとヒューマンコンピューターインタラクションの真髄
hurutoriya
5
2.8k
07_浮世満理子_アイディア高等学院学院長_一般社団法人全国心理業連合会代表理事_紹介資料.pdf
sip3ristex
0
120
Featured
See All Featured
Documentation Writing (for coders)
carmenintech
67
4.6k
Visualization
eitanlees
146
15k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
2.1k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
Making Projects Easy
brettharned
116
6k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
49k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Building Flexible Design Systems
yeseniaperezcruz
328
38k
Fireside Chat
paigeccino
34
3.2k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
Transcript
オンサイトデータコンペの魅力。 関わる全員が楽しいコンペ設計のための取り組み
自己紹介 山口貴大 atma(アートマ)株式会社 取締役 京都大学院・情報学研究科 数理最適化専攻 学生時代に数理最適化の応用としての機械学習に興味をもち新卒で atma入社。主にデータ分析領域から、エンジニアとしてフロントエンド・ バックエンドの開発、たまにインフラ構築も。 Kaggle
Master 趣味: 綺麗なウェブサイトの構造を読むこと twitter: @nyker_goto 2
atma株式会社とは 事業内容 - AI導入コンサルティング・POC・システム開発 - コンサルティングフェーズからシステム開発まで一気通貫に出来ることが強み - toB/toC のシステム開発 -
自社サービス - オンサイトデータコンペティション・ atmaCup を開催 3 大阪にあるベンチャー企業です。
データコンペティションとは 1.課題とデータの提供 出題者が出すデータ分析の課題を 参加者が解いて、その精度を競う大会 上位解法を賞金と引き換えに受け取る 出題者 参加者 2. 機械学習 モデルの構築
3.システム上で自動採点 精度でランク付け 4 4.ランクに応じて 賞金・称号の授与 オンラインプラットフォームがいくつか存在 海外: Kaggle / 国内: Signate 3. 出来上がったモデルを システムへ提出 0.課題の設計 参加者の力を借りて問題を解くことが出来る ため、データサイエンスの課題解決方法の一 つとして近年注目されている。
みんな嬉しい。データコンペティション 基本的に賞金獲得は上位数名のみ。 (ほとんどの参加者は賞金はもらえない ) 出題者(ホスト)にだけメリットがありそうだが、実はそうでもない。 能力を試すことができる データサイエンスの能力は可視化されにくい。共通の問題を同時に解くの で、自分の能力を測る場として最適。 新しい知見を得ることができる コンペ終了後に上位入賞者が自分の解法を公開する場合が多い。
上位陣の解法を元に自分のレベルアップをはかることができる。 5
オンサイトデータコンペティション・atmaCup の特徴 オンサイトデータコンペとは 実際に会場に集まり、 準備されたデータをテーマに沿って分析・予測を行い、 その精度を競うイベントです。 特徴: 時間が短く・実際に集まる 1. 短い時間で分析する力が求められる
2. 解法についてその場で議論できる 6 過去の開催情報・最終ランキングはコンペ用サイト ぐるぐるからみることができます https://www.guruguru.ml/ ぐるぐる・Data Competition Platform for atmaCup
/ 動員数 毎回多数の方々に参加頂いています。 参加希望者が多く毎回開催と同時 (数時間)で定員 が埋まる状況。 前回atmaCup#5は初のオンライン開催 300人枠すべてが埋まる盛況 **Kaggle GrandMaster
世界で上位0.1% *Kaggle Master 世界上位1% / 日本で100人程度 Kaggle Expert: 日本で数百人 #2 #3 #4 #5 全員 34 85 58 218 #GrandMaster** 2 3 0 4 #Master* 7 15 11 29 #Expert 8 27 25 72 参加者数の推移 7
/ 様々な実問題解決への応用 過去開催のうちいくつかは実際に課題解決へ応用されています。 atmaCup#4(*) 購買情報からユーザーの次回の購入品目の予測 ID-POSの購買履歴データを用いてユーザーの買いそうな商品を予測する問題。 販売促進活動やレコメンド・店内配置の最適化に応用できる。 現在システム化を見据えたソリューションの活用プロジェクトが進行中。 atmaCup#5 実験対象の状態予測問題
実験データから状態を推定する問題。人に匹敵するような精度をだすモデルが優勝。 今後システム化することで、研究者がより本質的課題解決に時間を使うことができる。 8 (*) リテールAI研究会・MSさんとの共同開催
オンサイトデータコンペの魅力。 関わる全員が楽しいコンペ設計のための取り組み
オンサイトデータコンペの魅力。 関わる全員が楽しいコンペ設計のための取り組み 楽しいコンペって なんだろう?
楽しい(良い)データコンペティションの要素 1. コンペに適した課題設計になっている - コンペ上位の解法が実際の問題を解決できるものであること - 課題をカンニング出来たり、そもそも解けないとコンペとしては成立しない 2. 参加者が楽しい -
知的好奇心を満たすような普段触れない・取り組めない課題やデータか (データを触っていて楽しい) 11
設計に失敗すると、楽しくないコンペになる 課題設計に失敗してしまうコンペティションも中には存在する。 - 答えがGoogle検索でわかってしまうコンペ (カンニング出来る状態/Leakageと呼ぶ) - 予測が難しすぎてすべて0で予測するモデルが上位入賞するコンペ (予測が不可能) - ...etc
参加者: 真面目にモデルを作った時間が報われず悲しい & ホストへ悪印象 ホスト: 上位の解法から得られるものがすくなく、開催した意味が少ない 12
コンペに適した課題設計 3. 初心者・中級者へ向けたサポートの実施 4. 振り返り会の実施 5. 分析者にとって快適なコンペサイトの構築 参加者が楽しめる工夫 1. 解いてためになるような課題設計
2. データサイエンティストによる 課題とデータ検証 atmaCupが楽しいコンペティションになるために 13
1. 解いてためになるような課題設計 本当にやりたいこと = 課題を解決する方法を知ること コンペ開催主体はなにを求めているのか ? を丁寧にヒアリング - 本当の課題は何か
- 何が出来ると解決と言えるのか 14 コンペティション課題を解くことが 最終的にやりたいことを達成できるような課題設計に
2. データサイエンティストによる提供データ・課題の検証 リークや予測不可能性があり、コンペとして破綻していないかどうかを 実際にデータサイエンティストが問題を解いて チェック • 本当にモデルを作ります。 課題が適切でない場合再度問題設定・モデリング • 場合によっては想定課題が
100を超えて、作成モデル数はその数十倍になることも • 大変すぎるのでモデル作成をサポートするためのライブラリを作っています https://github.com/nyk510/vivid (pip install python-vivid をしましょう) 出題企業様へのフィードバックの実施 • 終了後に上位の解法を元に結果や解法について、出来る限りわかりやすく解説 • 実際のオペレーションに活用できる知見にしてもらえるように 15
3. 初心者・中級者へ向けたサポートの実施 atmaCupは強い人だけでなく、初心者の参加を歓迎しています。 質問はなんでもOK! コンペの順位に差し障る内容以外の質問は何時でも OK。 データサイエンティストによる分析講座を開催 データの可視化・コードの書き方・機械学習モデルの作成など。 終了後にはコードを notebook
として共有 参加者全員が submit してスコアを出すところまでを体験して 少しでもデータ分析の面白さを知ってもらえるように 16 #5はオンライン開催だったため youtube-liveで配信
4. 振り返り会の開催 参加して終わりではなく、さらなるレベルアップにつなげてほしいという思いから コンペ終了後 atma 主催で振り返り会を開催しています。 参加者のLTや出題側の意図などのプレゼンで 分析に関するより深い知識を共有できる場を提供 前回は本参加者の半数近くが振り返り会にも参加 17
atma office にて振り返り会の開催 (atmaCup#3)
5. 分析者にとって快適なコンペサイトの構築 コンペサイトは単にデータを閲覧・提出する場所ではなく、 ユーザー同士の大切なコミュニケーションの場所であり、その使い勝手はとても大切です。 ストレスなく扱えるような UI・UX の探求 分析者が開発を担当。分析者にとって嬉しいシステムを実現可 能 常に楽しい体験ができるよう日々更新
コンペ中リアルタイムに要望を受け付けて改修も ?! (ex: atmaCup#5 / twitter投稿ボタンの追加, ディスカッションのtag) 18
つまるところ、コンペは楽しいということを伝えたい 僕がそもそもデータコンペティションのファン。 コンペって良いなと思ってもらえるように関わる人全員が楽しくなるように努力している。 • 課題を持っている企業さんには、素晴らしい課題解決方法を提案して喜んでもらい、 コンペティションは良いものだと思ってほしい • 参加者さんには解いて面白くて・学びが深い「楽しい」コンペ設計を提供して楽しんでもらい つぎまた参加したいなと思ってほしい 19
今後第5回以降も開催予定ですので、参加いただけるととても嬉しいです!
まとめ データコンペティションは出題ホストだけでなく参加者も嬉しい仕組み がしかし適切に問題設計をしないと、誰も得しない事になってしまう場合もあります。 良いコンペティションになるためatmaCupで取り組んでいることを紹介しました。 20