メルカリにおけるA/Bテスト標準化への取り組み

1 Conﬁdential メルカリにおけるA/Bテスト標準化への取り組み柳沼慎哉（@yaginuuun） 2021/7/28, Retty ✕ Mercari Analyst
Talk Night!

2 Conﬁdential 自己紹介 • 前職ではe-learning serviceのData Scientist • メルカリではData Analystとして主にA/Bテスト周り、
推薦システムの改善を担当 • 個人でPodcastをやっていたり • よろしくお願いします！柳沼慎哉 Twitter: @yaginuuun

3 Conﬁdential メルカリの分析チーム（JP Analytics） ※ テーマによってはチーム横断で取り組む場合もあり Growth Analytics Product
Analytics Analytics Infra Product の改善施策の意思決定を主導する（施策の成功指標設計、実験の設計・評価、カスタマーインサイトの導出）事業戦略の意思決定を主導する（マーケティング予算等グループ全体の成長戦略への提言、グロース施策への提言 ) 分析環境・ノウハウの整備によりデータの民主化を進める（KPIの標準化、分析基盤の整備、実験設計の標準化）大きく３つのサブチームに分かれている

4 Conﬁdential メルカリの分析チーム（JP Analytics） ※ テーマによってはチーム横断で取り組む場合もあり Growth Analytics Product
Analytics Analytics Infra Product の改善施策の意思決定を主導する（施策の成功指標設計、実験の設計・評価、カスタマーインサイトの導出）事業戦略の意思決定を主導する（マーケティング予算等グループ全体の成長戦略への提言、グロース施策への提言 ) 分析環境・ノウハウの整備によりデータの民主化を進める（KPIの標準化、分析基盤の整備、実験設計の標準化）今日は Analytics Infra team における取り組みの話

5 Conﬁdential 今日のテーマ：A/Bテストの標準化 Not 自動化いわゆる Tech giant における Experimentation
Platform のようにA/Bテスト自動分析基盤作った、という話ではない But 標準化施策評価者が統計的な検討事項やPitfallを考慮しつつ、一定以上の品質でA/Bテストから信頼に足る結果を得、それを元に意思決定できるようにする。

6 Conﬁdential A/Bテスト（Randomized Controlled Trial） • 世界中で使われている効果検証のゴールドスタンダード • メルカリでもほとんどの変更がA/Bテストによって評価されている。 Control
group Treatment group

7 Conﬁdential Why 標準化？ Experimentation Maturity Models（成熟モデル） Fly 04 •
1000~ tests / year • テスト集計が自動化されている • ほぼ全ての変更時に A/Bテストが行われている Run 03 • ~250 tests / year • 評価基準が合意され、システマチックに意思決定することができている Walk 02 • ~50 tests / year • 標準的な指標の定義ができている • A/Bテスト結果の信頼性が確立されている Crawl 01 • ~10 tests / year • 統計値を計算できる基盤が整っている。 Kohavi, R., Tang, D., & Xu, Y. (2020). Experimentation Platform and Culture. In Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (pp. 58-78). Cambridge: Cambridge University Press.

8 Conﬁdential Why 標準化？完全な自動化は最終ステップ Fly 04 • 1000~ tests
/ year • テスト集計が自動化されている • ほぼ全ての変更時に A/Bテストが行われている Run 03 • ~250 tests / year • 評価基準が合意され、システマチックに意思決定することができている Walk 02 • ~50 tests / year • 標準的な指標の定義ができている • A/Bテスト結果の信頼性が確立されている Crawl 01 • ~10 tests / year • 統計値を計算できる基盤が整っている。 Kohavi, R., Tang, D., & Xu, Y. (2020). Experimentation Platform and Culture. In Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (pp. 58-78). Cambridge: Cambridge University Press.

9 Conﬁdential Why 標準化？自動化よりも前にやることがある   Fly 04 • 1000~
tests / year • テスト集計が自動化されている • ほぼ全ての変更時に A/Bテストが行われている Run 03 • ~250 tests / year • 評価基準が合意され、システマチックに意思決定することができている Walk 02 • ~50 tests / year • 標準的な指標の定義ができている • A/Bテスト結果の信頼性が確立されている Crawl 01 • ~10 tests / year • 統計値を計算できる基盤が整っている。 Kohavi, R., Tang, D., & Xu, Y. (2020). Experimentation Platform and Culture. In Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (pp. 58-78). Cambridge: Cambridge University Press.

10 Conﬁdential A/Bテスト結果の信頼性 • Sample Ratio Mismatch • 多重比較 •
Power Analysis（サンプルサイズ設計） • 評価指標選定 • Cherry picking • … A/Bテストはシンプルに見えて、その設計や評価において Pitfall がたくさんある。   メルカリにおいても、必ずしも適切に行われていたわけではなかった。    

11 Conﬁdential ではどのように標準化を行う？ Experiment design doc を中心としたA/Bテスト検証フローの整備私たちが行ったこと 

12 Conﬁdential Experiment design doc を中心としたA/Bテスト検証フローの整備 • A/Bテストの設計項目をテンプレート化 • 同時にReviewプロセスも整備することで効果検証の質を担保する
具体的に 

13 Conﬁdential Experiment design doc を中心としたA/Bテスト検証フローの整備 • A/Bテストの設計項目をテンプレート化 • 同時にReviewプロセスも整備することで効果検証の質を担保する
今日は実際に運用しているテンプレートの各項目にフォーカスして紹介  

14 Conﬁdential Contents: • Background • Test settings • Metrics
details • How to evaluate metrics • Action plan  Experiment design doc A/Bテスト開始前に決めるべきことをテンプレート化

details • How to evaluate metrics • Action plan  Experiment design doc 主要な部分について解説

17 Conﬁdential Experiment design doc - Background A/Bテストの背景となっている情報を記入する Objective テストを行う目的
Issue 解決したい問題 How to improve Issueを解決するために行う変更内容 Hypothesis その変更によってどのようにUX、ビジネスが改善するのか

19 Conﬁdential Experiment design doc - Metrics Details 3種類の評価指標 Goal
metrics 改善を期待する指標 1 2 3 Guardrail metrics UX, ビジネス上重要な棄損したくない指標 Debugging metrics 意図通りテストが進んでいるかを確認する指標

20 Conﬁdential Experiment design doc - Metrics Details まずは Goal
metrics についてもう少し詳しく Goal metrics 改善を期待する指標 1 2 3 Guardrail metrics UX, ビジネス上重要な棄損したくない指標 Debugging metrics 意図通りテストが進んでいるかを確認する指標

21 Conﬁdential Goal metrics 典型的なECサイト上での購買を例に 1 訪問検索 2 商品閲覧
3 購入完了 N 例えば検索バーを少しだけ目立たせる変更 Search execute rate item view rate Purchase rate

22 Conﬁdential Goal metrics 変更から遠い指標：変更による効果が途中のステップの中で希釈されてしまう。 1 訪問検索 2 商品閲覧
3 購入完了 N 例えば検索バーを少しだけ目立たせる変更 Search execute rate item view rate Purchase rate これは基本的に Goal metrics に設定しない

23 Conﬁdential Goal metrics なるべく変更に近い位置を Goal metrics に置く 1 訪問
検索 2 商品閲覧 3 購入完了 N 例えば検索バーを少しだけ目立たせる変更 Search execute rate item view rate Purchase rate

24 Conﬁdential Experiment design doc - Metrics Details Guardrail metrics
Goal metrics 改善を期待する指標 1 2 3 Guardrail metrics UX, ビジネス上重要な棄損したくない指標 Debugging metrics 意図通りテストが進んでいるかを確認する指標

25 Conﬁdential Guardrail metrics 再び典型的なECサイト上での購買を例に 1 訪問検索 2 商品閲覧
3 購入完了 N Search execute rate item view rate Purchase rate 例えばカート画面で執拗に購買を迫る変更

26 Conﬁdential Guardrail metrics Pros カート画面で購買を迷っている人のうち何割かを購買転換できる可能性が高い Cons 必要以上に購買を迫られる不信感から離反が増加してしまう可能性がある

27 Conﬁdential Guardrail metrics Pros カート画面で購買を迷っている人のうち何割かを購買転換できる可能性が高い Cons 必要以上に購買を迫られる不信感から離反が増加してしまう可能性があるリテンションなどを Guardrail
metrics に設定して監視

28 Conﬁdential Experiment design doc - Metrics Details 最後に Debugging
metrics Goal metrics 改善を期待する指標 1 2 3 Guardrail metrics UX, ビジネス上重要な棄損したくない指標 Debugging metrics 意図通りテストが進んでいるかを確認する指標

29 Conﬁdential Debugging metrics 意図通りとは • 施した変更は十分に認知されているか？ • 何か予想外のバイアスが混入していないか？

30 Conﬁdential Debugging metrics 施した変更は十分に認知されているか？例：Goal metricsにもGuardrail metricsにも変化がなかった。 → そもそも認知が足りていなかっただけなのか、それとも本当に変更に効果がなかったのか判別
がつかない。変更箇所の使用率を確認しておくことで切り分けが可能になる

31 Conﬁdential Debugging metrics 何か予想外のバイアスが混入していないか？主には Sample Ratio Mismatch (SRM)
の確認 • 各指標の分母となる数値が variant 間で割り当て比率からズレていないかの確認 • 適合度のカイ二乗検定などでチェックする Kohavi, R., Tang, D., & Xu, Y. (2020). Sample Ratio Mismatch and Other Trust-Related Guardrail Metrics. In Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (pp. 219-225). Cambridge: Cambridge University Press.

32 Conﬁdential Sample Ratio Mismatch (SRM) Skypeにおける実例 • 通話音質向上を狙ったA/Bテスト ◦
control: ネットワーク状況によらず固定のバッファリングパラメータ ◦ treatment: 使用者のネットワーク状況に応じてバッファリングパラメータを自動調節 • しかし、音質の悪化、再生遅延の増加というネガティブな結果に • 通話単位でランダマイズ。結果集計で treatment では control と比較して30%もサンプルサイズが少ないことがわかった。→ SRMの発生 Aleksander Fabijan, Jayant Gupchup, Somit Gupta, Jeff Omhover, Wen Qin, Lukas Vermeer, and Pavel Dmitriev. 2019. Diagnosing Sample Ratio Mismatch in Online Controlled Experiments: A Taxonomy and Rules of Thumb for Practitioners.

33 Conﬁdential Sample Ratio Mismatch (SRM) 何が起こっていたのか？通話途中に variant の
id が実際にアサインされたものから変わってしまうというバグが混入しており、結果として、本当は treatment に割り当てられているはずの群がそのように記録されていなかった。 Aleksander Fabijan, Jayant Gupchup, Somit Gupta, Jeff Omhover, Wen Qin, Lukas Vermeer, and Pavel Dmitriev. 2019. Diagnosing Sample Ratio Mismatch in Online Controlled Experiments: A Taxonomy and Rules of Thumb for Practitioners. SRM check を行うことで、このような効果検証をする上で致命的な問題に気づける可能性を格段に上げることができる。

35 Conﬁdential Experiment design doc - Action plan 指標の動き方による基本的な Next
Action をあらかじめ合意しておく • Good scenario: 基本的に Treatment を開放 ◦ Goal metrics: Up ◦ Guardrail metrics: Up or Flat • Bad scenario: 基本的に Close ( = Control を開放) ◦ Guardrail metrics: Down • ... 終了した後になって試行錯誤してしまったり、 cherry picking してしまうことを防ぐ

36 Conﬁdential まとめ A/Bテストの標準化を目指して Experiment design doc を中心としたワークフローを整備した。良かったこと
• Template のメリット ◦ 書体が揃う → 過去のDocumentを読み解くコストが下がる ◦ 検討項目の抜け漏れがなくなる ◦ 話し合いをする板としての役割を果たしてくれる • Review のメリット ◦ A/Bテストの検証に慣れていないメンバーでも Pitfalls を避けつつ一定基準の質を保ちつつ検証を行うことができる。

37 Conﬁdential References • Trustworthy Online Controlled Experiments - A
Practical Guide to A/B Testing：A/Bテストについてはこの本を読めばOK • A/Bテスト実践ガイド真のデータドリブンへ至る信用できる実験とは：上記の日本語版 • Top Challenges from the ﬁrst Practical Online Controlled Experiments Summit：A/Bテスト関連の海外Tech企業の事例が豊富。特に7章が今回の話題に近い • 効果検証入門

38 Conﬁdential We’re hiring !! • シニアデータアナリスト • データアナリスト (アーキテクト)
• データアナリスト (マーケット・リサーチャー) 詳細は mercari careers から Data Analytics で絞り込み！

39 Conﬁdential おしまいありがとうございました！この辺りの話、気になる方いらっしゃいましたらぜひ後ほどお話しましょう！

メルカリにおけるA/Bテスト標準化への取り組み

メルカリにおけるA/Bテスト標準化への取り組み

More Decks by yaginuuun

Other Decks in Technology

Featured

Transcript