KDD論文読み会2024: False Positive in A/B Tests

© LY Corporation LINEヤフー株式会社小川遼人 False Positive in A/B Tests
KDD2024論文読み会

© LY Corporation 2 小川遼人メディア広告データサイエンティスト 2022年新卒入社 LINE Newsやスマートチャネル
分析担当テニス・麻雀が好きです KDD2024現地参加しました

© LY Corporation 4 p値の定義とは Dr. Steve Goodman スタンフォード大学医学部の重鎮（ドヤ）
「p値の定義について、キャリアのすべてを費やしてきた」 https://fivethirtyeight.com/features/not-even-scientists-can-easily-explain-p-values/

© LY Corporation 5 https://fivethirtyeight.com/features/not-even-scientists-can-easily-explain-p-values/ Dr. Steve Goodman スタンフォード大学医学部の重鎮 p値を説明するのは難しい
「でも、p値の意味を説明することはできないよ！」

© LY Corporation 8 本論文の選定理由 • 多くのA/Bテストを実施・分析しており、実務に活かせると感じたから • 統計的有意性だけでなく、「偽陽性リスク（FPR：False
Positive Rate）」という実務的に有用な指標を導入し、意思決定の質の向上を目指しているところが面白い • 現地での質疑応答が盛り上がっており、多くのデータサイエンティストが関心を寄せる内容だと感じたから有意水準α=0.1とした検定（片側検定の場合α=0.05）をした場合、有意となった結果の“1/3以上”のテストが偽陽性であるという衝撃的事実

© LY Corporation 9 論文サマリ • モチベーション • A/Bテストは、多くの実験が失敗しており、成功率は10-20%程度である •
業界標準のα=0.05を使用すると、偽陽性のリスクが高くなる • 多くの人がp値を誤解しており、統計的に有意な結果の解釈を誤っている • 評価 • Optimizelyの実験データを分析、α=0.1での実験の1/3以上が偽陽性である可能性を提示 • Expediaの実験データを用いて、高いp値が得られるほどFPRも上昇 • 提案手法による実験では、検出力を維持しつつFPRを低減させることに成功 • 解決手法 • 真の実験成功率を推定するために複数の手法を提案 • 偽陽性リスク（FPR）の計算方法を提示

© LY Corporation 10 背景 • 多くのA/Bテストは失敗、成功率は10~20% • 成功確率が低い場合、業界水準のα=0.05を使用すると、 FPRは想像以上に高くなる
• 偽陽性を正しく検知できない間違った方向への投資リソースが無駄になる

© LY Corporation 11 背景 • 多くのA/Bテストは失敗、成功率は10~20% • 成功確率が低い場合、業界水準のα=0.05を使用すると、 FPRは想像以上に高くなる
• 偽陽性を正しく検知できない間違った方向への投資リソースが無駄になる

© LY Corporation 12 偽陽性と偽陰性のコスト • 偽陽性は誤った知識の獲得に繋がりコストとなる • A/Bテストで検証された仮説が正しかったとして、施策をリリース誤った結果が、実行・蓄積・共有されるコスト
• 偽陰性にもコストはある • 素晴らしいアイデアが見逃されるコスト • 一方で、アイデアが偽陰性である場合、その効果はMDE（最小検出効果）に近いものであり、画期的でない可能性が高い偽陽性偽陰性＞多くの組織でコストは

© LY Corporation • p値は、「処置効果がないにもかかわらず、観測された差が偶然によるものではないと結論づけてしまう確率」として誤解されがち。 13 偽陽性リスク（FPR）の推定 • SS：統計的に有意な結果
• α：有意水準 • β：1-検出力 • π：帰無仮説の事前確率。P(H 0 ) 1-「組織のテスト成功確率」 • この確率は偽陽性リスク（FPR）であり、ベイズの定理を使って計算できる。 • 計算には重要なパラメータとして「組織のテスト成功確率」が必要。

© LY Corporation 14 FPR:有意となった結果が偽陽性である確率 • 多くのA/Bテストは失敗、成功率は10~20% • 成功確率が低い場合、業界水準のα=0.05を使用すると、 FPRは想像以上に高くなる
FPRの計算イメージ 100マスあり、全てのマスの合計が実験回数を表す 1. 本当に効果があった9.3%の実験（緑マス） 2. 本当は効果がなかった90.7%の実験（白マス） • 偽陽性：90.7% × 0.05(α)= 4.5% 3. ＋マークのマスは有意差が検出された11.9%の実験偽陽性リスク（FPR）は 4.5/11.9=0.378, 37.8% となりとても大きい！

© LY Corporation 15 真の成功確率の推定論文では3つの推定アプローチを紹介している 1. 「真の成功確率＝観測された成功確率」とする • 偽陽性・偽陽性の可能性を無視しているため非推奨
2. 再現実験し、Stouffer’s methodなどを利用した補正を行う • Airbnbはこの方法で、「真の成功確率＜観測された成功確率」に気づいた

© LY Corporation 16 真の成功率の推定論文では3つの推定アプローチを紹介している 1. 「真の成功率＝観測された成功率」とする • 偽陽性・偽陽性の可能性を無視しているため非推奨
2. 再現実験し、Stouffer’s methodなどを利用した補正を行う • Airbnbはこの方法で、「真の成功率＜観測された成功率」に気づいた 3. 条件付き確率による推定（推奨手法） • 成功率𝜋を、検出力と𝛼に基づいて推定

© LY Corporation 17 適切な有意水準（α）とは • 業界水準のα=0.1は高すぎる。著者らは0.05, 0.01を推奨。 • Expediaでは、成功率15.6%でFPR=27.5%だったことが判明
。この結果を受けて、Expediaはα=0.1→0.05に下げた。 True success rate（％） 30 20 15 Alpha (two-tailed) 0.2 0.1 0.05 0.01 0.2 0.1 0.05 0.01 0.2 0.1 0.05 0.01 Power（％） 94 88 80 59 94 88 80 59 94 88 80 59 False positives（％） 7.0 3.5 1.8 0.4 8.0 4.0 2.0 0.4 8.5 4.3 2.1 0.4 False negatives （％） 1.9 3.7 6.0 12.3 1.3 2.5 4.0 8.2 1.0 1.9 3.0 6.2 1:1 cost（％） 8.9 7.2 7.8 12.7 9.3 6.5 6.0 8.6 9.5 6.1 5.1 6.6 3:1 cost（％） 22.9 14.2 11.3 13.4 25.3 14.5 10.0 9.4 26.5 14.6 9.4 7.4 True success rate（％） 12 10 8 Alpha (two-tailed) 0.2 0.1 0.05 0.01 0.2 0.1 0.05 0.01 0.1 0.05 0.01 Power（％） 94 88 80 59 94 88 80 59 88 80 59 False positives（％） 8.8 4.4 2.2 0.4 9.0 4.5 2.3 0.5 4.6 2.3 0.5 False negatives （％） 0.8 1.5 2.4 4.9 0.6 1.2 2.0 4.1 1.0 1.6 3.3 1:1 cost（％） 9.6 5.9 4.6 5.4 9.6 5.7 4.3 4.6 5.6 3.9 3.8 3:1 cost（％） 27.2 14.7 9.0 6.3 27.6 14.7 8.8 5.5 14.8 8.5 4.7 各組織の成功率ごとの適切なα。 ※論文中図表を発表者が編集

© LY Corporation 18 FPR低減のために • 実験の結果、p値がα周辺の値になった場合 • 「実験時間を延長」、「再現実験の実施」を推奨。 •
多重検定を避けるために補正が必要である点には注意。 • αが0.05で、p値が[0.01, 0.10]の範囲で得られた場合 • テスト成功率の中央値が10%でα=0.05の場合、 • 標準的な単一の実験はFPRが22%。 • 上記の方法では、FPRを5.9%（-16.1%）に下げ、検出力に影響を与えなかった。 • コスト：平均実験期間が20%長くなる。実験時間の延長再現実験の実施

© LY Corporation 19 まとめ現地であがっていた質問 • 頻度論的なA/Bテストは辞め、ベイズ論的なA/Bを採用すべきではないか？ • 再現実験する場合に、対照群・処置群のユーザーをシャッフルするか否かの判断基準
どこに設けるか？ • 真の成功率を推定する方法を提示し、偽陽性リスク（FPR）を計算。 • 統計的に有意な結果の3分の1以上が偽陽性（Expedia: 28%, Optimizely: 38% ） • 多くの組織がαを0.05または0.01に設定すべき。 • 推定成功率と偽陽性および偽陰性のコストに基づいて決定すべき • FPRを低減させる手法を提案し、FPRを22%から5.9%に減少させることに成功、検出力を失うことなく、平均実験期間が20%増加するだけ

KDD論文読み会2024: False Positive in A/B Tests

KDD論文読み会2024: False Positive in A/B Tests

Ryoto Ogawa

Other Decks in Research

Featured

Transcript

© LY Corporation LINEヤフー株式会社小川遼人 False Positive in A/B Tests

© LY Corporation 2 小川遼人メディア広告データサイエンティスト 2022年新卒入社 LINE Newsやスマートチャネル

© LY Corporation p値が何を意味するか、説明できますか？

© LY Corporation 4 p値の定義とは Dr. Steve Goodman スタンフォード大学医学部の重鎮（ドヤ）

© LY Corporation 5 https://fivethirtyeight.com/features/not-even-scientists-can-easily-explain-p-values/ Dr. Steve Goodman スタンフォード大学医学部の重鎮 p値を説明するのは難しい

© LY Corporation 6 頻度論ベイズ論データサイエンティストこういう話をすると…

© LY Corporation 7 頻度論ベイズ論データサイエンティストこういう話をすると… 今回の論文・発表のスコープ外

© LY Corporation 8 本論文の選定理由 • 多くのA/Bテストを実施・分析しており、実務に活かせると感じたから • 統計的有意性だけでなく、「偽陽性リスク（FPR：False

© LY Corporation 9 論文サマリ • モチベーション • A/Bテストは、多くの実験が失敗しており、成功率は10-20%程度である •

© LY Corporation 10 背景 • 多くのA/Bテストは失敗、成功率は10~20% • 成功確率が低い場合、業界水準のα=0.05を使用すると、 FPRは想像以上に高くなる

© LY Corporation 11 背景 • 多くのA/Bテストは失敗、成功率は10~20% • 成功確率が低い場合、業界水準のα=0.05を使用すると、 FPRは想像以上に高くなる

© LY Corporation 12 偽陽性と偽陰性のコスト • 偽陽性は誤った知識の獲得に繋がりコストとなる • A/Bテストで検証された仮説が正しかったとして、施策をリリース誤った結果が、実行・蓄積・共有されるコスト

© LY Corporation • p値は、「処置効果がないにもかかわらず、観測された差が偶然によるものではないと結論づけてしまう確率」として誤解されがち。 13 偽陽性リスク（FPR）の推定 • SS：統計的に有意な結果

© LY Corporation 14 FPR:有意となった結果が偽陽性である確率 • 多くのA/Bテストは失敗、成功率は10~20% • 成功確率が低い場合、業界水準のα=0.05を使用すると、 FPRは想像以上に高くなる

© LY Corporation 15 真の成功確率の推定論文では3つの推定アプローチを紹介している 1. 「真の成功確率＝観測された成功確率」とする • 偽陽性・偽陽性の可能性を無視しているため非推奨

© LY Corporation 16 真の成功率の推定論文では3つの推定アプローチを紹介している 1. 「真の成功率＝観測された成功率」とする • 偽陽性・偽陽性の可能性を無視しているため非推奨

© LY Corporation 17 適切な有意水準（α）とは • 業界水準のα=0.1は高すぎる。著者らは0.05, 0.01を推奨。 • Expediaでは、成功率15.6%でFPR=27.5%だったことが判明

© LY Corporation 18 FPR低減のために • 実験の結果、p値がα周辺の値になった場合 • 「実験時間を延長」、「再現実験の実施」を推奨。 •

© LY Corporation 19 まとめ現地であがっていた質問 • 頻度論的なA/Bテストは辞め、ベイズ論的なA/Bを採用すべきではないか？ • 再現実験する場合に、対照群・処置群のユーザーをシャッフルするか否かの判断基準

© LY Corporation Thank you!