Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Ad-DS Paper Circle #8

Yusuke Kaneko
March 30, 2025
1.3k

Ad-DS Paper Circle #8

広告輪読会第八回スライド

Yusuke Kaneko

March 30, 2025
Tweet

Transcript

  1. A/B Testing Intuition Busters Common Misunderstandings in Online Controlled Experiments

    AI事業本部 協業リテールメディアディビジョン プリズムパートナーカンパニー 桂川 大輝 1
  2. 概要 • 今回の論文:「A/B Testing Intuition Busters: Common Misunderstandings in Online

    Controlled Experiments(Kohavi et al., 2022)」 • 「A/Bテスト実践ガイド 真のデータドリブンへ至る信用で る実験とは」の著者 4
  3. 概要 •A/Bテストは企業の意思決定に広 活用 れている 、多 の誤解 存在 特に「直感的に正し 思える 実は誤った統計解釈(直感的誤解)」

    問題 •統計の誤用は長年批判 れて た 依然として蔓延 誤解により、誤った結論 導 れ、実験の信頼性 損なわれる •A/Bテストに る代表的な誤解を整理 直感的誤解の背景を説明し、それらを打破する方法を解説 誤解を防 ための実験プラットフォームの設計指針も提案 A/Bテストの誤解を減らし、より正確な意思決定を支援 ※内容の共有を重視するため数式による証明の多 は省略 5
  4. 導入 •A/Bテスト(オンライン制御実験)は新しいアイデアを評価するために広 活用 大手企業では100件/営業日以上の実験処理を実施 •統計理論は十分に文書化 れて り、一部の落とし穴についても共有 •し し、統計の誤った適用や誤解 依然として多発

    書籍、論文、ソフトウェアに いても散見 特に「直感的に正し 思える 実は誤った統計解釈(直感的誤解)」 問題 •そのため、「直感的誤解」を事例に基づいて解説 6
  5. 意外な結果には強力な証拠が必要 • p値の誤解(ベルヌーイの誤謬) p値 0.05=5%の確率で誤検出 信頼度=(1-p値)×100% Optimizelyのドキュメントではp値0.10を「10%のエラー率」と誤解 A/Bテスト関連の書籍や専門家でも誤解 広まっている 謝罪をする事例も

    • p値の正しい理解 帰無仮説 正しいと仮定した場合、観測 れた結果以上に極端な統計量 得られる確率 設定した有意水準よりもp値 低い場合に、帰無仮説 棄却 れ有意差 あると判断 10
  6. 意外な結果には強力な証拠が必要 • FPRとは? p値 ら有意な差 ある と わ っても、それ 誤検出(偽陽性)である確率(リスク)

    統計的有意性≠本当に効果 ある と 特に成功率 低いとFPR 増加 • 誤検出への対策 p値だ でな 、FPRも表示 意外な結果(新たな発見)には 必ず再現実験を実施 有意水準として0.01や0.005(厳しい値)を設定 11
  7. 検出力の低い実験は信頼性が低い •検出力とは? 本当に効果差(δ) 存在する場合にそれを検出で る確率 (帰無仮説を棄却で る確率) •適切な検出力の確保 A/Bテストでは十分な検出力を確保するために、適切なサンプル数 必要

    業界標準 検出力:80%(1-β=0.8) 有意水準(p値の閾値):0.05(α=0.05) サンプル数の計算式: •検出力 低いと… 有意な結果 出に い(効果 あっても見逃す) 有意な結果 出ても誤検出の可能性 高まる 14
  8. 検出力の低い実験は信頼性が低い • GuessTheTestの例 • (実務で扱う題材に いて) 統計的に意味のある結果を得るには数千~数万のサンプル 必要 15 検出率は業界標準の80%に対して低い

    CVR 3.7% 検出すべき最小変化( δ) 10% 必要なサンプル数 ? 実際のサンプル数 82人(75人) 必要な検出力 80% 実際の検出力 3%(97%ではない) 必要なサンプル数:41,642人
  9. 事後検出力の計算は不安定 •なぜ問題 ? p値に大 依存し、変動 激しい p値はサンプル数やデータのばらつ によって大 変動するため、事後検出力も不安定 特に検出力

    低い場合、p値のばらつ 激し 、事後検出力の計算は正確な指標にはならない(ほぼ意味をな ない) 「効果 本当にない」場合でも、低い事後検出力を「小 いサンプル数のせい」と誤解 実験結果 「有意でない」と 、「サンプル数 小 いせいで効果を検出で な った」と考える ともある 、 それは誤った推論で単に「効果 ない」可能性もある 検出力を事後的に計算するのではな (事後検出力を用いず)、事前に適切なサンプル数を設定すべ p値と有意水準αのみで決まる 検出力は本来、サンプル数、効果量、ばらつ によって決まる検出力とは異なる(事後検出力≠実際の検出力) 21
  10. 実験環境での自由度を最小限に •事例1:外れ値除去の落とし穴 あるA/Bテストで「統計的に有意」と報告 れた 、 実サンプルでの検定に いてp値は有意ではな った 実は極端な外れ値を除去するという操作 行われた

    外れ値除去は仮説に依存せずに行うべ 特にバリアント とに独立した外れ値除去をすると、FPR 上昇する とも •事例2:リアルタイムA/Bテストの落とし穴 Optimizelyの初期のA/Bテストではリアルタイムのp値を確認で た 運用者はp値 有意になった瞬間に実験を停止するようになった の手法は第一種過誤を増大 せる 25
  11. 不均等なバリアントに注意 •不均等なバリアントの理論上のメリット コントロールを大 すると、トリートメントとの比較で分散 小 なる と ら、 検出力 向上(最大10%程度)

    具体的に考えると、1つのコントロールを複数のトリートメントと共有すると検出力 向上 (例:コントロール:50%、トリートメント×5:各10%) 28
  12. 不均等なバリアントに注意 •不均等なバリアントの採用による実務的な環境での問題(技術的・運用的リスク) トリガー型実験(特定の条件を満たすユーザーのみ対象)での実現 大変(考慮 必要) 期待通りにするためにはど で制御 せないとい ない Cookie

    Churnで不均等になる ユーザー粒度での分割に対して、再割り当て 発生する 特に大 いバリアントに再割り当て れてしまう確率 高い( らに不均等に) LRU(Least Recently Used)キャッシュの影響により、大 なバリアント 有利になる レスポンス 早 なるなど •実務的な環境では均等なバリアント 推奨 29