1000~ tests / year • テスト集計が自動化されている • ほぼ全ての変更時に A/Bテストが行われている Run 03 • ~250 tests / year • 評価基準が合意され、システマチックに意思決 定することができている Walk 02 • ~50 tests / year • 標準的な指標の定義ができている • A/Bテスト結果の信頼性が確立されている Crawl 01 • ~10 tests / year • 統計値を計算できる基盤が整っている。 Kohavi, R., Tang, D., & Xu, Y. (2020). Experimentation Platform and Culture. In Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (pp. 58-78). Cambridge: Cambridge University Press.
/ year • テスト集計が自動化されている • ほぼ全ての変更時に A/Bテストが行われている Run 03 • ~250 tests / year • 評価基準が合意され、システマチックに意思決 定することができている Walk 02 • ~50 tests / year • 標準的な指標の定義ができている • A/Bテスト結果の信頼性が確立されている Crawl 01 • ~10 tests / year • 統計値を計算できる基盤が整っている。 Kohavi, R., Tang, D., & Xu, Y. (2020). Experimentation Platform and Culture. In Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (pp. 58-78). Cambridge: Cambridge University Press.
tests / year • テスト集計が自動化されている • ほぼ全ての変更時に A/Bテストが行われている Run 03 • ~250 tests / year • 評価基準が合意され、システマチックに意思決 定することができている Walk 02 • ~50 tests / year • 標準的な指標の定義ができている • A/Bテスト結果の信頼性が確立されている Crawl 01 • ~10 tests / year • 統計値を計算できる基盤が整っている。 Kohavi, R., Tang, D., & Xu, Y. (2020). Experimentation Platform and Culture. In Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (pp. 58-78). Cambridge: Cambridge University Press.
の確認 • 各指標の分母となる数値が variant 間で割り当て比率からズレていないかの確認 • 適合度のカイ二乗検定などでチェックする Kohavi, R., Tang, D., & Xu, Y. (2020). Sample Ratio Mismatch and Other Trust-Related Guardrail Metrics. In Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (pp. 219-225). Cambridge: Cambridge University Press.
control: ネットワーク状況によらず固定のバッファリングパラメータ ◦ treatment: 使用者のネットワーク状況に応じてバッファリングパラメータを自動調節 • しかし、音質の悪化、再生遅延の増加というネガティブな結果に • 通話単位でランダマイズ。結果集計で treatment では control と比較して30%もサン プルサイズが少ないことがわかった。→ SRMの発生 Aleksander Fabijan, Jayant Gupchup, Somit Gupta, Jeff Omhover, Wen Qin, Lukas Vermeer, and Pavel Dmitriev. 2019. Diagnosing Sample Ratio Mismatch in Online Controlled Experiments: A Taxonomy and Rules of Thumb for Practitioners.
id が実際にアサインされたものから変わってしまうというバグが混入し ており、結果として、本当は treatment に割り当てられているはずの群がそのように記録され て いなかった。 Aleksander Fabijan, Jayant Gupchup, Somit Gupta, Jeff Omhover, Wen Qin, Lukas Vermeer, and Pavel Dmitriev. 2019. Diagnosing Sample Ratio Mismatch in Online Controlled Experiments: A Taxonomy and Rules of Thumb for Practitioners. SRM check を行うことで、このような効果検証をする上で致命的な問題に気づける可能性を格 段に上げることができる。
Action をあらかじめ合意しておく • Good scenario: 基本的に Treatment を開放 ◦ Goal metrics: Up ◦ Guardrail metrics: Up or Flat • Bad scenario: 基本的に Close ( = Control を開放) ◦ Guardrail metrics: Down • ... 終了した後になって試行錯誤してしまったり、 cherry picking してしまうことを防ぐ