$30 off During Our Annual Pro Sale. View Details »

KDD論文読み会2024: False Positive in A/B Tests

Ryoto Ogawa
October 21, 2024

KDD論文読み会2024: False Positive in A/B Tests

Ryoto Ogawa

October 21, 2024
Tweet

Other Decks in Research

Transcript

  1. © LY Corporation 4 p値の定義とは Dr. Steve Goodman スタンフォード大学医学部の重鎮 (ドヤ)

    「p値の定義について、 キャリアのすべてを 費やしてきた」 https://fivethirtyeight.com/features/not-even-scientists-can-easily-explain-p-values/
  2. © LY Corporation 8 本論文の選定理由 • 多くのA/Bテストを実施・分析しており、実務に活かせると感じたから • 統計的有意性だけでなく、 「偽陽性リスク(FPR:False

    Positive Rate)」という実務的に有用な 指標を導入し、意思決定の質の向上を目指しているところが面白い • 現地での質疑応答が盛り上がっており、 多くのデータサイエンティストが関心を寄せる内容だと感じたから 有意水準α=0.1とした検定(片側検定の場合α=0.05)をした場合、 有意となった結果の“1/3以上”のテストが偽陽性であるという衝撃的事実
  3. © LY Corporation 9 論文サマリ • モチベーション • A/Bテストは、多くの実験が失敗しており、成功率は10-20%程度である •

    業界標準のα=0.05を使用すると、偽陽性のリスクが高くなる • 多くの人がp値を誤解しており、統計的に有意な結果の解釈を誤っている • 評価 • Optimizelyの実験データを分析、α=0.1での実験の1/3以上が偽陽性である可能性を提示 • Expediaの実験データを用いて、高いp値が得られるほどFPRも上昇 • 提案手法による実験では、検出力を維持しつつFPRを低減させることに成功 • 解決手法 • 真の実験成功率を推定するために複数の手法を提案 • 偽陽性リスク(FPR)の計算方法を提示
  4. © LY Corporation 12 偽陽性と偽陰性のコスト • 偽陽性は誤った知識の獲得に繋がりコストとなる • A/Bテストで検証された仮説が正しかったとして、施策をリリース 誤った結果が、実行・蓄積・共有されるコスト

    • 偽陰性にもコストはある • 素晴らしいアイデアが見逃されるコスト • 一方で、アイデアが偽陰性である場合、その効果はMDE(最小検出効果)に近いもので あり、画期的でない可能性が高い 偽陽性 偽陰性 > 多くの組織でコストは
  5. © LY Corporation • p値は、「処置効果がないにもかかわらず、観測された差が偶然によるものではないと結論 づけてしまう確率」として誤解されがち。 13 偽陽性リスク(FPR)の推定 • SS:統計的に有意な結果

    • α:有意水準 • β:1-検出力 • π:帰無仮説の事前確率。P(H 0 ) 1-「組織のテスト成功確率」 • この確率は偽陽性リスク(FPR)であり、ベイズの定理を使って計算できる。 • 計算には重要なパラメータとして「組織のテスト成功確率」が必要。
  6. © LY Corporation 14 FPR:有意となった結果が偽陽性である確率 • 多くのA/Bテストは失敗、成功率は10~20% • 成功確率が低い場合、業界水準のα=0.05を使用すると、 FPRは想像以上に高くなる

    FPRの計算イメージ 100マスあり、全てのマスの合計が実験回数を表す 1. 本当に効果があった9.3%の実験(緑マス) 2. 本当は効果がなかった90.7%の実験(白マス) • 偽陽性:90.7% × 0.05(α)= 4.5% 3. +マークのマスは有意差が検出された11.9%の実験 偽陽性リスク(FPR)は 4.5/11.9=0.378, 37.8% となりとても大きい!
  7. © LY Corporation 15 真の成功確率の推定 論文では3つの推定アプローチを紹介している 1. 「真の成功確率=観測された成功確率」とする • 偽陽性・偽陽性の可能性を無視しているため非推奨

    2. 再現実験し、Stouffer’s methodなどを利用した補正を行う • Airbnbはこの方法で、「真の成功確率<観測された成功確率」に気づいた
  8. © LY Corporation 16 真の成功率の推定 論文では3つの推定アプローチを紹介している 1. 「真の成功率=観測された成功率」とする • 偽陽性・偽陽性の可能性を無視しているため非推奨

    2. 再現実験し、Stouffer’s methodなどを利用した補正を行う • Airbnbはこの方法で、「真の成功率<観測された成功率」に気づいた 3. 条件付き確率による推定(推奨手法) • 成功率𝜋を、検出力と𝛼に基づいて推定
  9. © LY Corporation 17 適切な有意水準(α)とは • 業界水準のα=0.1は高すぎる。著者らは0.05, 0.01を推奨。 • Expediaでは、成功率15.6%でFPR=27.5%だったことが判明

    。 この結果を受けて、Expediaはα=0.1→0.05に下げた。 True success rate(%) 30 20 15 Alpha (two-tailed) 0.2 0.1 0.05 0.01 0.2 0.1 0.05 0.01 0.2 0.1 0.05 0.01 Power(%) 94 88 80 59 94 88 80 59 94 88 80 59 False positives(%) 7.0 3.5 1.8 0.4 8.0 4.0 2.0 0.4 8.5 4.3 2.1 0.4 False negatives (%) 1.9 3.7 6.0 12.3 1.3 2.5 4.0 8.2 1.0 1.9 3.0 6.2 1:1 cost(%) 8.9 7.2 7.8 12.7 9.3 6.5 6.0 8.6 9.5 6.1 5.1 6.6 3:1 cost(%) 22.9 14.2 11.3 13.4 25.3 14.5 10.0 9.4 26.5 14.6 9.4 7.4 True success rate(%) 12 10 8 Alpha (two-tailed) 0.2 0.1 0.05 0.01 0.2 0.1 0.05 0.01 0.1 0.05 0.01 Power(%) 94 88 80 59 94 88 80 59 88 80 59 False positives(%) 8.8 4.4 2.2 0.4 9.0 4.5 2.3 0.5 4.6 2.3 0.5 False negatives (%) 0.8 1.5 2.4 4.9 0.6 1.2 2.0 4.1 1.0 1.6 3.3 1:1 cost(%) 9.6 5.9 4.6 5.4 9.6 5.7 4.3 4.6 5.6 3.9 3.8 3:1 cost(%) 27.2 14.7 9.0 6.3 27.6 14.7 8.8 5.5 14.8 8.5 4.7 各組織の成功率ごとの適切なα。 ※論文中図表を発表者が編集
  10. © LY Corporation 18 FPR低減のために • 実験の結果、p値がα周辺の値になった場合 • 「実験時間を延長」、「再現実験の実施」を推奨。 •

    多重検定を避けるために補正が必要である点には注意。 • αが0.05で、p値が[0.01, 0.10]の範囲で得られた場合 • テスト成功率の中央値が10%でα=0.05の場合、 • 標準的な単一の実験はFPRが22%。 • 上記の方法では、FPRを5.9%(-16.1%)に下げ、検出力に影響を与えなかった。 • コスト:平均実験期間が20%長くなる。 実験時間の延長 再現実験の実施
  11. © LY Corporation 19 まとめ 現地であがっていた質問 • 頻度論的なA/Bテストは辞め、ベイズ論的なA/Bを採用すべきではないか? • 再現実験する場合に、対照群・処置群のユーザーをシャッフルするか否かの判断基準

    どこに設けるか? • 真の成功率を推定する方法を提示し、偽陽性リスク(FPR)を計算。 • 統計的に有意な結果の3分の1以上が偽陽性(Expedia: 28%, Optimizely: 38% ) • 多くの組織がαを0.05または0.01に設定すべき。 • 推定成功率と偽陽性および偽陰性のコストに基づいて決定すべき • FPRを低減させる手法を提案し、FPRを22%から5.9%に減少させることに成功、 検出力を失うことなく、平均実験期間が20%増加するだけ