Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
オンサイトデータコンペの魅力: 関わる全員が楽しいコンペ設計のための取り組み
Search
Yamaguchi Takahiro
August 01, 2020
Science
5.6k
3
Share
オンサイトデータコンペの魅力: 関わる全員が楽しいコンペ設計のための取り組み
オンサイトデータコンペティションatmaCupを楽しいコンペにするための取り組みについて。
Yamaguchi Takahiro
August 01, 2020
More Decks by Yamaguchi Takahiro
See All by Yamaguchi Takahiro
関西Kaggler会_不確実性最適化ゲーム入門
nyk510
1
420
コンペを気楽に開催しよーぜ!@関西Kaggler会
nyk510
0
1.4k
Django のセキュリティリリースを見る
nyk510
0
130
3分でMLアプリを作る 〜推論コードにちょっとのStreamlitを添えて〜
nyk510
1
1.2k
硬派で真面目なグラフを描く
nyk510
0
560
CORSをちゃんと理解する atmaバックエンド勉強会#4
nyk510
0
460
pythonで気軽にパッケージを作るのは良いという話。
nyk510
14
9.9k
RestAPIのページネーション atma バックエンド勉強会 #3
nyk510
1
1k
AWS CPU Credit を完全に理解する
nyk510
0
500
Other Decks in Science
See All in Science
会社でMLモデルを作るとは @電気通信大学 データアントレプレナーフェロープログラム
yuto16
1
680
シャボン玉の虹から原子も地震も重力も見える! 〜 物理の目「干渉縞」のすごい力 〜
syotasasaki593876
1
130
Fairfax County’s Tree Canopy: Examining the Effects of Land Development Regulations on Tree Canopy Conservation
pwiseman
1
110
Conversation is the New Dashboard: 属人性を排除する第4世代BIツールの勢力図
shomaekawa
1
570
NDCG is NOT All I Need
statditto
2
3.1k
先端因果推論特別研究チームの研究構想と 人間とAIが協働する自律因果探索の展望
sshimizu2006
3
900
AIに仕事を奪われる 最初の医師たちへ
ikora128
0
1.1k
Endel Tulvingとエピソード記憶
rmaruy
0
120
次代のデータサイエンティストへ~スキルチェックリスト、タスクリスト更新~
datascientistsociety
PRO
3
40k
機械学習 - K近傍法 & 機械学習のお作法
trycycle
PRO
0
1.4k
タンパク質間相互作⽤を利⽤した⼈⼯知能による新しい薬剤遺伝⼦-疾患相互作⽤の同定
tagtag
PRO
0
200
Non-Gaussian, nonlinear causal discovery with hidden variables and application
sshimizu2006
0
120
Featured
See All Featured
Automating Front-end Workflow
addyosmani
1370
210k
The Language of Interfaces
destraynor
162
26k
Writing Fast Ruby
sferik
630
63k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
So, you think you're a good person
axbom
PRO
2
2k
The untapped power of vector embeddings
frankvandijk
2
1.7k
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
2
1.4k
Music & Morning Musume
bryan
47
7.2k
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
140
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.2k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.6k
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
2k
Transcript
オンサイトデータコンペの魅力。 関わる全員が楽しいコンペ設計のための取り組み
自己紹介 山口貴大 atma(アートマ)株式会社 取締役 京都大学院・情報学研究科 数理最適化専攻 学生時代に数理最適化の応用としての機械学習に興味をもち新卒で atma入社。主にデータ分析領域から、エンジニアとしてフロントエンド・ バックエンドの開発、たまにインフラ構築も。 Kaggle
Master 趣味: 綺麗なウェブサイトの構造を読むこと twitter: @nyker_goto 2
atma株式会社とは 事業内容 - AI導入コンサルティング・POC・システム開発 - コンサルティングフェーズからシステム開発まで一気通貫に出来ることが強み - toB/toC のシステム開発 -
自社サービス - オンサイトデータコンペティション・ atmaCup を開催 3 大阪にあるベンチャー企業です。
データコンペティションとは 1.課題とデータの提供 出題者が出すデータ分析の課題を 参加者が解いて、その精度を競う大会 上位解法を賞金と引き換えに受け取る 出題者 参加者 2. 機械学習 モデルの構築
3.システム上で自動採点 精度でランク付け 4 4.ランクに応じて 賞金・称号の授与 オンラインプラットフォームがいくつか存在 海外: Kaggle / 国内: Signate 3. 出来上がったモデルを システムへ提出 0.課題の設計 参加者の力を借りて問題を解くことが出来る ため、データサイエンスの課題解決方法の一 つとして近年注目されている。
みんな嬉しい。データコンペティション 基本的に賞金獲得は上位数名のみ。 (ほとんどの参加者は賞金はもらえない ) 出題者(ホスト)にだけメリットがありそうだが、実はそうでもない。 能力を試すことができる データサイエンスの能力は可視化されにくい。共通の問題を同時に解くの で、自分の能力を測る場として最適。 新しい知見を得ることができる コンペ終了後に上位入賞者が自分の解法を公開する場合が多い。
上位陣の解法を元に自分のレベルアップをはかることができる。 5
オンサイトデータコンペティション・atmaCup の特徴 オンサイトデータコンペとは 実際に会場に集まり、 準備されたデータをテーマに沿って分析・予測を行い、 その精度を競うイベントです。 特徴: 時間が短く・実際に集まる 1. 短い時間で分析する力が求められる
2. 解法についてその場で議論できる 6 過去の開催情報・最終ランキングはコンペ用サイト ぐるぐるからみることができます https://www.guruguru.ml/ ぐるぐる・Data Competition Platform for atmaCup
/ 動員数 毎回多数の方々に参加頂いています。 参加希望者が多く毎回開催と同時 (数時間)で定員 が埋まる状況。 前回atmaCup#5は初のオンライン開催 300人枠すべてが埋まる盛況 **Kaggle GrandMaster
世界で上位0.1% *Kaggle Master 世界上位1% / 日本で100人程度 Kaggle Expert: 日本で数百人 #2 #3 #4 #5 全員 34 85 58 218 #GrandMaster** 2 3 0 4 #Master* 7 15 11 29 #Expert 8 27 25 72 参加者数の推移 7
/ 様々な実問題解決への応用 過去開催のうちいくつかは実際に課題解決へ応用されています。 atmaCup#4(*) 購買情報からユーザーの次回の購入品目の予測 ID-POSの購買履歴データを用いてユーザーの買いそうな商品を予測する問題。 販売促進活動やレコメンド・店内配置の最適化に応用できる。 現在システム化を見据えたソリューションの活用プロジェクトが進行中。 atmaCup#5 実験対象の状態予測問題
実験データから状態を推定する問題。人に匹敵するような精度をだすモデルが優勝。 今後システム化することで、研究者がより本質的課題解決に時間を使うことができる。 8 (*) リテールAI研究会・MSさんとの共同開催
オンサイトデータコンペの魅力。 関わる全員が楽しいコンペ設計のための取り組み
オンサイトデータコンペの魅力。 関わる全員が楽しいコンペ設計のための取り組み 楽しいコンペって なんだろう?
楽しい(良い)データコンペティションの要素 1. コンペに適した課題設計になっている - コンペ上位の解法が実際の問題を解決できるものであること - 課題をカンニング出来たり、そもそも解けないとコンペとしては成立しない 2. 参加者が楽しい -
知的好奇心を満たすような普段触れない・取り組めない課題やデータか (データを触っていて楽しい) 11
設計に失敗すると、楽しくないコンペになる 課題設計に失敗してしまうコンペティションも中には存在する。 - 答えがGoogle検索でわかってしまうコンペ (カンニング出来る状態/Leakageと呼ぶ) - 予測が難しすぎてすべて0で予測するモデルが上位入賞するコンペ (予測が不可能) - ...etc
参加者: 真面目にモデルを作った時間が報われず悲しい & ホストへ悪印象 ホスト: 上位の解法から得られるものがすくなく、開催した意味が少ない 12
コンペに適した課題設計 3. 初心者・中級者へ向けたサポートの実施 4. 振り返り会の実施 5. 分析者にとって快適なコンペサイトの構築 参加者が楽しめる工夫 1. 解いてためになるような課題設計
2. データサイエンティストによる 課題とデータ検証 atmaCupが楽しいコンペティションになるために 13
1. 解いてためになるような課題設計 本当にやりたいこと = 課題を解決する方法を知ること コンペ開催主体はなにを求めているのか ? を丁寧にヒアリング - 本当の課題は何か
- 何が出来ると解決と言えるのか 14 コンペティション課題を解くことが 最終的にやりたいことを達成できるような課題設計に
2. データサイエンティストによる提供データ・課題の検証 リークや予測不可能性があり、コンペとして破綻していないかどうかを 実際にデータサイエンティストが問題を解いて チェック • 本当にモデルを作ります。 課題が適切でない場合再度問題設定・モデリング • 場合によっては想定課題が
100を超えて、作成モデル数はその数十倍になることも • 大変すぎるのでモデル作成をサポートするためのライブラリを作っています https://github.com/nyk510/vivid (pip install python-vivid をしましょう) 出題企業様へのフィードバックの実施 • 終了後に上位の解法を元に結果や解法について、出来る限りわかりやすく解説 • 実際のオペレーションに活用できる知見にしてもらえるように 15
3. 初心者・中級者へ向けたサポートの実施 atmaCupは強い人だけでなく、初心者の参加を歓迎しています。 質問はなんでもOK! コンペの順位に差し障る内容以外の質問は何時でも OK。 データサイエンティストによる分析講座を開催 データの可視化・コードの書き方・機械学習モデルの作成など。 終了後にはコードを notebook
として共有 参加者全員が submit してスコアを出すところまでを体験して 少しでもデータ分析の面白さを知ってもらえるように 16 #5はオンライン開催だったため youtube-liveで配信
4. 振り返り会の開催 参加して終わりではなく、さらなるレベルアップにつなげてほしいという思いから コンペ終了後 atma 主催で振り返り会を開催しています。 参加者のLTや出題側の意図などのプレゼンで 分析に関するより深い知識を共有できる場を提供 前回は本参加者の半数近くが振り返り会にも参加 17
atma office にて振り返り会の開催 (atmaCup#3)
5. 分析者にとって快適なコンペサイトの構築 コンペサイトは単にデータを閲覧・提出する場所ではなく、 ユーザー同士の大切なコミュニケーションの場所であり、その使い勝手はとても大切です。 ストレスなく扱えるような UI・UX の探求 分析者が開発を担当。分析者にとって嬉しいシステムを実現可 能 常に楽しい体験ができるよう日々更新
コンペ中リアルタイムに要望を受け付けて改修も ?! (ex: atmaCup#5 / twitter投稿ボタンの追加, ディスカッションのtag) 18
つまるところ、コンペは楽しいということを伝えたい 僕がそもそもデータコンペティションのファン。 コンペって良いなと思ってもらえるように関わる人全員が楽しくなるように努力している。 • 課題を持っている企業さんには、素晴らしい課題解決方法を提案して喜んでもらい、 コンペティションは良いものだと思ってほしい • 参加者さんには解いて面白くて・学びが深い「楽しい」コンペ設計を提供して楽しんでもらい つぎまた参加したいなと思ってほしい 19
今後第5回以降も開催予定ですので、参加いただけるととても嬉しいです!
まとめ データコンペティションは出題ホストだけでなく参加者も嬉しい仕組み がしかし適切に問題設計をしないと、誰も得しない事になってしまう場合もあります。 良いコンペティションになるためatmaCupで取り組んでいることを紹介しました。 20