Upgrade to Pro — share decks privately, control downloads, hide ads and more …

メルカリにおけるA/Bテスト標準化への取り組み

 メルカリにおけるA/Bテスト標準化への取り組み

2021/7/28, Retty ✕ Mercari Analyst Talk Night!
https://mercari.connpass.com/event/218848/

yaginuuun

July 28, 2021
Tweet

More Decks by yaginuuun

Other Decks in Technology

Transcript

  1. 2 Confidential 自己紹介 • 前職ではe-learning serviceのData Scientist • メルカリではData Analystとして主にA/Bテスト周り、

    推薦システムの改善を担当 • 個人でPodcastをやっていたり • よろしくお願いします! 柳沼 慎哉 Twitter: @yaginuuun
  2. 3 Confidential メルカリの分析チーム(JP Analytics) ※ テーマによってはチーム横断で取り組む場合も あり Growth Analytics Product

    Analytics Analytics Infra Product の改善施策の意思決定を主導する (施策の成功指標設計、実験の設計・評価、カスタマーインサイトの導出) 事業戦略の意思決定を主導する (マーケティング予算等グループ全体の成長戦略への提言、グロース施策への提言 ) 分析環境・ノウハウの整備によりデータの民主化を進める (KPIの標準化、分析基盤の整備、実験設計の標準化) 大きく3つのサブチームに分かれている
  3. 4 Confidential メルカリの分析チーム(JP Analytics) ※ テーマによってはチーム横断で取り組む場合も あり Growth Analytics Product

    Analytics Analytics Infra Product の改善施策の意思決定を主導する (施策の成功指標設計、実験の設計・評価、カスタマーインサイトの導出) 事業戦略の意思決定を主導する (マーケティング予算等グループ全体の成長戦略への提言、グロース施策への提言 ) 分析環境・ノウハウの整備によりデータの民主化を進める (KPIの標準化、分析基盤の整備、実験設計の標準化) 今日は Analytics Infra team における取り組みの話
  4. 5 Confidential 今日のテーマ:A/Bテストの標準化 Not 自動化 いわゆる Tech giant における Experimentation

    Platform の ようにA/Bテスト自動分析基盤作った、という話ではない But 標準化 施策評価者が統計的な検討事項やPitfallを考慮しつつ、一定以上 の品質でA/Bテストから信頼に足る結果を得、それを元に意思決定 できるようにする。
  5. 7 Confidential Why 標準化? Experimentation Maturity Models(成熟モデル) Fly 04 •

    1000~ tests / year • テスト集計が自動化されている • ほぼ全ての変更時に A/Bテストが行われている Run 03 • ~250 tests / year • 評価基準が合意され、システマチックに意思決 定することができている Walk 02 • ~50 tests / year • 標準的な指標の定義ができている • A/Bテスト結果の信頼性が確立されている Crawl 01 • ~10 tests / year • 統計値を計算できる基盤が整っている。 Kohavi, R., Tang, D., & Xu, Y. (2020). Experimentation Platform and Culture. In Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (pp. 58-78). Cambridge: Cambridge University Press.
  6. 8 Confidential Why 標準化? 完全な自動化は最終ステップ Fly 04 • 1000~ tests

    / year • テスト集計が自動化されている • ほぼ全ての変更時に A/Bテストが行われている Run 03 • ~250 tests / year • 評価基準が合意され、システマチックに意思決 定することができている Walk 02 • ~50 tests / year • 標準的な指標の定義ができている • A/Bテスト結果の信頼性が確立されている Crawl 01 • ~10 tests / year • 統計値を計算できる基盤が整っている。 Kohavi, R., Tang, D., & Xu, Y. (2020). Experimentation Platform and Culture. In Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (pp. 58-78). Cambridge: Cambridge University Press.
  7. 9 Confidential Why 標準化? 自動化よりも前にやることがある 
 Fly 04 • 1000~

    tests / year • テスト集計が自動化されている • ほぼ全ての変更時に A/Bテストが行われている Run 03 • ~250 tests / year • 評価基準が合意され、システマチックに意思決 定することができている Walk 02 • ~50 tests / year • 標準的な指標の定義ができている • A/Bテスト結果の信頼性が確立されている Crawl 01 • ~10 tests / year • 統計値を計算できる基盤が整っている。 Kohavi, R., Tang, D., & Xu, Y. (2020). Experimentation Platform and Culture. In Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (pp. 58-78). Cambridge: Cambridge University Press.
  8. 10 Confidential A/Bテスト結果の信頼性 • Sample Ratio Mismatch • 多重比較 •

    Power Analysis(サンプルサイズ設計) • 評価指標選定 • Cherry picking • … A/Bテストはシンプルに見えて、その設計や評価において Pitfall がたくさんある。 
 メルカリにおいても、必ずしも適切に行われていたわけではなかった。 
 

  9. 14 Confidential Contents: • Background • Test settings • Metrics

    details • How to evaluate metrics • Action plan
 Experiment design doc A/Bテスト開始前に決めるべきことをテンプレート化
  10. 15 Confidential Contents: • Background • Test settings • Metrics

    details • How to evaluate metrics • Action plan
 Experiment design doc 主要な部分について解説
  11. 16 Confidential Contents: • Background • Test settings • Metrics

    details • How to evaluate metrics • Action plan
 Experiment design doc 主要な部分について解説
  12. 17 Confidential Experiment design doc - Background A/Bテストの背景となっている情報を記入する Objective テストを行う目的

    Issue 解決したい問題 How to improve Issueを解決するために行う変更内容 Hypothesis その変更によってどのようにUX、ビジネスが 改善するのか
  13. 18 Confidential Contents: • Background • Test settings • Metrics

    details • How to evaluate metrics • Action plan
 Experiment design doc 主要な部分について解説
  14. 19 Confidential Experiment design doc - Metrics Details 3種類の評価指標 Goal

    metrics 改善を期待する指標 1 2 3 Guardrail metrics UX, ビジネス上重要な棄損したくない指標 Debugging metrics 意図通りテストが進んでいるかを確認する指標
  15. 20 Confidential Experiment design doc - Metrics Details まずは Goal

    metrics についてもう少し詳しく Goal metrics 改善を期待する指標 1 2 3 Guardrail metrics UX, ビジネス上重要な棄損したくない指標 Debugging metrics 意図通りテストが進んでいるかを確認する指標
  16. 21 Confidential Goal metrics 典型的なECサイト上での購買を例に 1 訪問 検索 2 商品閲覧

    3 購入完了 N 例えば検索バーを少しだけ目立たせる変更 Search execute rate item view rate Purchase rate
  17. 22 Confidential Goal metrics 変更から遠い指標:変更による効果が途中のステップの中で希釈されてしまう。 1 訪問 検索 2 商品閲覧

    3 購入完了 N 例えば検索バーを少しだけ目立たせる変更 Search execute rate item view rate Purchase rate これは基本的に Goal metrics に設定しない
  18. 23 Confidential Goal metrics なるべく変更に近い位置を Goal metrics に置く 1 訪問

    検索 2 商品閲覧 3 購入完了 N 例えば検索バーを少しだけ目立たせる変更 Search execute rate item view rate Purchase rate
  19. 24 Confidential Experiment design doc - Metrics Details Guardrail metrics

    Goal metrics 改善を期待する指標 1 2 3 Guardrail metrics UX, ビジネス上重要な棄損したくない指標 Debugging metrics 意図通りテストが進んでいるかを確認する指標
  20. 25 Confidential Guardrail metrics 再び典型的なECサイト上での購買を例に 1 訪問 検索 2 商品閲覧

    3 購入完了 N Search execute rate item view rate Purchase rate 例えばカート画面で執拗に購買を迫る変更
  21. 28 Confidential Experiment design doc - Metrics Details 最後に Debugging

    metrics Goal metrics 改善を期待する指標 1 2 3 Guardrail metrics UX, ビジネス上重要な棄損したくない指標 Debugging metrics 意図通りテストが進んでいるかを確認する指標
  22. 31 Confidential Debugging metrics 何か予想外のバイアスが混入していないか? 主には Sample Ratio Mismatch (SRM)

    の確認 • 各指標の分母となる数値が variant 間で割り当て比率からズレていないかの確認 • 適合度のカイ二乗検定などでチェックする Kohavi, R., Tang, D., & Xu, Y. (2020). Sample Ratio Mismatch and Other Trust-Related Guardrail Metrics. In Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (pp. 219-225). Cambridge: Cambridge University Press.
  23. 32 Confidential Sample Ratio Mismatch (SRM) Skypeにおける実例 • 通話音質向上を狙ったA/Bテスト ◦

    control: ネットワーク状況によらず固定のバッファリングパラメータ ◦ treatment: 使用者のネットワーク状況に応じてバッファリングパラメータを自動調節 • しかし、音質の悪化、再生遅延の増加というネガティブな結果に • 通話単位でランダマイズ。結果集計で treatment では control と比較して30%もサン プルサイズが少ないことがわかった。→ SRMの発生 Aleksander Fabijan, Jayant Gupchup, Somit Gupta, Jeff Omhover, Wen Qin, Lukas Vermeer, and Pavel Dmitriev. 2019. Diagnosing Sample Ratio Mismatch in Online Controlled Experiments: A Taxonomy and Rules of Thumb for Practitioners.
  24. 33 Confidential Sample Ratio Mismatch (SRM) 何が起こっていたのか? 通話途中に variant の

    id が実際にアサインされたものから変わってしまうというバグが混入し ており、結果として、本当は treatment に割り当てられているはずの群がそのように記録され て いなかった。 Aleksander Fabijan, Jayant Gupchup, Somit Gupta, Jeff Omhover, Wen Qin, Lukas Vermeer, and Pavel Dmitriev. 2019. Diagnosing Sample Ratio Mismatch in Online Controlled Experiments: A Taxonomy and Rules of Thumb for Practitioners. SRM check を行うことで、このような効果検証をする上で致命的な問題に気づける可能性を格 段に上げることができる。
  25. 34 Confidential Contents: • Background • Test settings • Metrics

    details • How to evaluate metrics • Action plan
 Experiment design doc 主要な部分について解説
  26. 35 Confidential Experiment design doc - Action plan 指標の動き方による基本的な Next

    Action をあらかじめ合意しておく • Good scenario: 基本的に Treatment を開放 ◦ Goal metrics: Up ◦ Guardrail metrics: Up or Flat • Bad scenario: 基本的に Close ( = Control を開放) ◦ Guardrail metrics: Down • ... 終了した後になって試行錯誤してしまったり、 cherry picking してしまうことを防ぐ
  27. 36 Confidential まとめ A/Bテストの標準化を目指して Experiment design doc を中心としたワークフローを整備し た。 良かったこと

    • Template のメリット ◦ 書体が揃う → 過去のDocumentを読み解くコストが下がる ◦ 検討項目の抜け漏れがなくなる ◦ 話し合いをする板としての役割を果たしてくれる • Review のメリット ◦ A/Bテストの検証に慣れていないメンバーでも Pitfalls を避けつつ一定基準の質を保 ちつつ検証を行うことができる。
  28. 37 Confidential References • Trustworthy Online Controlled Experiments - A

    Practical Guide to A/B Testing:A/Bテストについてはこの本を読めばOK • A/Bテスト実践ガイド 真のデータドリブンへ至る信用できる実験とは:上記の日 本語版 • Top Challenges from the first Practical Online Controlled Experiments Summit:A/Bテスト関連の海外Tech企業の事例が豊富。特 に7章が今回の話題に近い • 効果検証入門
  29. 38 Confidential We’re hiring !! • シニアデータアナリスト • データアナリスト (アーキテクト)

    • データアナリスト (マーケット・リサーチャー) 詳細は mercari careers から Data Analytics で絞り込み!