Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DSOps #5-1

Yusuke Kaneko
February 28, 2022
27k

DSOps #5-1

公開用

Yusuke Kaneko

February 28, 2022
Tweet

Transcript

  1. 担当
 世古 裕都(20年度入社)
 Air Track の DS/MLチーム所属
 
 • データ分析・可視化


    • 広告配信ロジックの最適化
 • 来訪・購買最大化のための配信設計
 

  2. オフライン指標の改善 ≠ 事業改善
 オフライン指標の改善幅 
 CVR改善幅
 Bernardi et al., 150

    Successful Machine Learning Models: 6 Lessons Learned at Booking.com, KDD 2019
 あまり相関がない

  3. 人は事業改善する施策を見つけるのが苦手
 • 検索連動広告の表示方法を変える軽微な修正 
 • Bing内では施策が過小評価 
 • 施策が実施されることなく半年間放置されていた 


    ↓
 • 12%の売上改善につながり、年間100億円を生む改善 
 どんな施策が事業改善するのかは
 やってみないと分からない

  4. 事業を改善する施策を見つけるためには
 オフライン指標の改善幅 
 CVR改善幅
 Bernardi et al., 150 Successful Machine

    Learning Models: 6 Lessons Learned at Booking.com, KDD 2019
 オフライン指標を改善する
 モデルを見つける

  5. 事業を改善する施策を見つけるためには
 オフライン指標の改善幅 
 CVR改善幅
 Bernardi et al., 150 Successful Machine

    Learning Models: 6 Lessons Learned at Booking.com, KDD 2019
 事業を改善する
 施策を見つける

  6. A/Bテストを「学ぶ」💡
 • Airbnb, Amazon, Booking.com, eBay, Facebook, Google, LinkedIn, Lyft,

    Microsoft, Netflix, Twitter, Uber, Yahoo!/Oath, and Yandex … 毎年何万もの実験が実施 • 効果があるものは数%で この積み重ねが結果的に 大きなインパクトになる
  7. A/Bテストを「学ぶ」💡
 11 
 • A/Bテストとは? どう比較するのか?(前回のお話)
 
 
 • A/Bテストをする文化づくり(前半)


    ◦ どう始め、どう浸透させるのか
 
 • A/Bテストのスケール方法(後半)
 
 Ron Kohavi,Diane Tang,Ya Xu ”Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing” 

  8. 
 1. HiPPOが正義。計測や実験は不要。
 
 2. 計測をはじめる
 a. まだHiPPOに頼っている。 
 b.

    通説にそぐわない新事実の否定(センメルヴェイス反射) 
 
 3. 継続的な計測、実験に基づいてのみ意思決定が行われる
 
 データドリブンな文化になるまでの変遷
 16 どうやってステップを進めるか

  9. Walk:指標の設計や組織の実験の活性化
 19 • 実験の信用性のアップ
 ◦ A/A test
 ◦ Sample Ratio

    Mismatch (SRM) test
 ▪ 設計した介入群・統制群のサンプル比率と実測値が違わないことを確認するtest 
 
 • ~50 / year (週1)
 
 

  10. Experimentation Maturity Models
 1. Crawl
 a. goal: 基礎的かつ前提となるものを作る 
 b.

    要約統計量を計算して検定とか 
 c. 小さな成功から次のステージにステップアップす る
 d. ~10 / years
 2. Walk
 a. goal: 指標の設計や組織の実験の活性化 
 b. 実験の信用性のアップ 
 i. A/A test
 ii. Sample Ratio Mismatch (SRM) test 
 c. ~50 / year
 3. Run
 a. goal: 実験をスケールさせること
 b. 複数の指標のトレードオフを考慮したOECの 明文化
 c. たくさんの施策の評価に実験を用いている
 d. ~250 / year
 4. Fly
 a. すべての変化を実験で評価
 b. 簡単なテストならDSなしでできる
 c. 自動化
 d. 実験から組織の知見を積み上げていく
 e. thousands / year
 22 組織が様々な意思決定を実験からデータドリブンにやるようになるまでの4フェーズ 

  11. “Leaders cannot just provide the organization with an experimentation platform

    and tools. They must provide the right incentives, processes, and empowerment of the organization to make data-driven decision.”
 25 ⇒ データドリブンな文化を作るためには必要な存在
 Crawl, Walkの段階ではリーダーシップが特に重要

  12. Leader は何をするのか
 
 failure
 • まず速く失敗するという文化づくり
 • 失敗から学ぶ
 • ショートサイクルで実験を回せるようにする


    ◦ フレッシュで早い実験のフィードバックの 
 サイクルを作る
 
 decision process
 • なにかの導入の意思決定を実験で指標が改善した かどうかに基づいて行う
 • 実験結果のレビュー、その結果が意思決定にどう影 響するのかの透明性を上げる
 • 実験を指標の測定だけでなくROIの評価にも使う
 others
 • OECの合意をとること
 • 適当な実装と高いデータのクオリティ
 • 特に最適化において実験が役に立つこと
 26
  13. Processes(信用できる実験結果の担保)
 Educational ProcessesとCultural Normの確立 
 • Educational Processes
 ◦ 確かな実験のデザインと実行

    
 ◦ 正しい結果の解釈
 • Cultural Norm
 ◦ イノベーションへの期待 
 ◦ 失敗の歓迎
 ◦ 学ぼうという姿勢
 28
  14. Educational Processes の一例
 実験チェックリスト(Google)
 • 実験開始前に要件を満たしているかチェック 
 ◦ “What is

    your hypothesis ?”
 ◦ “How big of a change do you care about ?” 
 ◦ power analysis question
 • experts によってレビュー済みのチェックリストが用いられる 
 • 実験初心者のレベルアップが目的 
 • 組織全体がレベルアップしてくれば徐々に必要がなくなってくる 
 29
  15. • 多くの指標を計算する & ダッシュボードで常に見られる状態にしておく
 ◦ 指標: OEC, guardrail, ...
 ◦

    結果のcherry-pickを防ぐ
 • 驚きの実験結果(成功失敗を問わない)、メタアナリシス等はみんなに見てもら う
 • negative impactなTreatmentをローンチできない仕組み
 • 失敗の歓迎、失敗から学ぶのが基本という考え
 組織の実験の透明性を高めるために
 30
  16. 公開にあたり、省略したAir Track の事例について簡単に紹介します。 
 • オフライン指標 ≠ ビジネスKPI の事例 


    ◦ 来訪予測モデルのlog-lossが改善した一方で、ビジネスKPI(来訪単価)が悪化 
 • Air Track における Walk→Run フェーズでの取組み 
 ◦ 構築した実験基盤の概要と、一連の実験のフローを紹介 
 • Educational Processes の取組み 
 ◦ 実際に利用している実験チェックリストを紹介 
 • 実験の透明性を高めるための取組み 
 ◦ 実験開始時にビジネス・開発メンバにも共有するダッシュボードを紹介 
 紹介した事例について
 31