Upgrade to Pro — share decks privately, control downloads, hide ads and more …

A/A test and samplesize

Masayukeeeee
December 06, 2024
0

A/A test and samplesize

Japan.R 2024のLTの登壇資料です

Masayukeeeee

December 06, 2024
Tweet

Transcript

  1. Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 酒井 優行(Masayuki

    Sakai) 2
 自己紹介 これまで 仕事 私事 学部→SIerで法人営業→大学院→新聞社でデータ活用 データ基盤開発・分析部署でDSやってます 2歳の子どもの育児に奔走中・テニス始めたい
  2. Copyright ⓒ 2024 Nikkei Inc. All rights reserved. Point A/AテストはA/Bテストの分割の品質評価に用いる

    A/Aテストでt検定を用いるケースを例に、サンプルサイズも考慮した 方が良いよ、という点を実験結果を交えて紹介 A/Aテストするときには、サンプルサイズにも気をつけよう 3
 今日の発表で伝えたいこと 発表の流れ 1. A/Aテストの概要 2. A/Aテストとサンプルサイズ 3. まとめ
  3. Copyright ⓒ 2024 Nikkei Inc. All rights reserved. A/Bテストの流れ 5


    A/Aテスト概要 AとBのKPIの差を検証 A: 施策を当てる B: 何もしない ユーザーを分割 ※理想はランダム 施策を実施 効果検証
  4. Copyright ⓒ 2024 Nikkei Inc. All rights reserved. A/Aテスト=A/Bテストの分割の品質確認 6


    A/Aテスト概要 A: 施策を当てる B: 何もしない 分割は適切か? 施策を実施 効果検証 AとBのKPIの差を検証
  5. Copyright ⓒ 2024 Nikkei Inc. All rights reserved. A/Bのグループに対する期待 7


    A/Aテスト概要 AとBのグループのKPIが期待値の意味で同じことを期待 A/Aテストでここを確かめたい
  6. Copyright ⓒ 2024 Nikkei Inc. All rights reserved. A/Aテストの流れ 8


    A/Aテスト概要 AとA’の差を検証 A: 何もしない A’: 何もしない 分割は適切か? 施策を実施 しない 検証
  7. Copyright ⓒ 2024 Nikkei Inc. All rights reserved. KPIに対して検定を行った時のp値が一様分布しているか? 9


    A/Aテストで確認したいこと ※「同じ分布から得られた2群の平均に対するt検定のp値は一様分布に従う」の理論的な背景は本発表では割愛します。 やりたいこと 利用する性質 方法 AとBのグループのKPIが期待値の意味で同じことを確かめたい 同一分布から得た2群の平均のt検定のp値は一様分布に従う ブートストラップでp値の分布を確認
  8. Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 標準正規分布    からMサンプルのグループを2つ生成 シミュレーション用のデータを生成し、A/Aテストを実行するまで

    11
 A/Aテストのシミュレーションの流れ データ生成 リサンプリング t検定 各グループからサンプルサイズKでリサンプリング リサンプリングした2群のデータを利用してt検定を行なう
  9. Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 2グループのデータを用いて ブートストラップにより繰り返しt検定を行い、p値をサンプリングする

    以下をI回繰り返す 1. データからサンプルサイズNでサンプリング 2. t検定を行なう 3. p値を得る 12
 A/Aテストの実行 → ブートストラップでp値の分布を確認 【分布を確認】  p値のサンプルを用いてヒストグラムを描く
  10. Copyright ⓒ 2024 Nikkei Inc. All rights reserved. ほぼ一緒の分布にも関わらずp値の分布が偏るケースが確認される →

    サンプルサイズが大きく微小な差に過敏に反応していた 13
 A/Aテストの結果:サンプルサイズを調整しない場合 😢 p値が0に偏るケースがある ✍ サンプルサイズが大きいケースで発生 🤔 微小な差に敏感になっている 💡 適切なサンプルサイズを決める必要 N=100 N=1,000 N=10,000
  11. Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 2グループのデータを用いて ブートストラップにより繰り返しt検定を行い、p値をサンプリングする

    以下をI回繰り返す 1. データからサンプルサイズNでサンプリング 2. t検定を行なう 3. p値を得る 14
 A/Aテストの実行 → ブートストラップでp値の分布を確認 【分布を確認】  p値のサンプルを用いてヒストグラムを描く
  12. Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 検出したい効果量  ・検出力 ・有意水準 を決め、

    適切なサンプルサイズN’を計算する 必要なサンプルサイズを見積もるステップを追加する 15
 A/Aテストの実行 ※ サンプルサイズの詳細については参考文献[2]を御覧ください 「2群の平均のt検定」のサンプルサイズ近似 以下をI回繰り返す 1. データからサンプルサイズN’でサンプリング 2. t検定を行なう 3. p値を得る
  13. Copyright ⓒ 2024 Nikkei Inc. All rights reserved. サンプルサイズを調整することで、 意味のある効果量に着目したA/Aテストを行なうことができる

    16
 A/Aテストの実行:サンプルサイズを調整した場合 😎 適切なサンプルサイズでテストを実行 👍 分布が一様分布に近いことを確認 Δ=0.1 N=1,570 Δ=0.5 N=63 Δ=1 N=16
  14. Copyright ⓒ 2024 Nikkei Inc. All rights reserved. A/Aテストするときには、サンプルサイズにも気をつけよう A/Aテストやってみよう!

    検定を行なう場合は、サンプルサイズにも気をつけよう! 18
 今日の発表で伝えたいこと ※サンプルコードはこちら(GitHubリポジトリ)
  15. Copyright ⓒ 2024 Nikkei Inc. All rights reserved. Future Work

    • Covariate Balancing Test → 重要な共変量のバランスをチェック • Bayesian A/A Test → ベイズ的な方法の方が扱いやすい?? • A/B Testing Tool → そもそもA/Bテストツールも欲しい? 19
 展望
  16. Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 参考文献 [1]

    Kohavi, Ron, et al. "Trustworthy online controlled experiments: Five puzzling outcomes explained." Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. 2012. [2] 永田靖. "サンプルサイズの決め方". 朝倉書店, 2003年. [3] なぜAAテストにおけるp値は一様分布になるのか?. Zenn [4] Microsoft. "p-Values for Your p-Values: Validating Metric Trustworthiness by Simulated A/A Tests". 2020. 20
 Appendix