Upgrade to Pro — share decks privately, control downloads, hide ads and more …

A/BテストにおけるVariance reduction

A/BテストにおけるVariance reduction

yaginuuun

May 28, 2021
Tweet

More Decks by yaginuuun

Other Decks in Technology

Transcript

  1. 今日の話の元論文 • Improving the Sensitivity of Online Controlled Experiments: Case

    Studies at Netflix • NetflixによるKDD’16の論文 • カバ本でも参照されている ◦ Trustworthy Online Controlled Experiments - A Practical Guide to A/B Testing
  2. Sensitivityを上げたい 大きく3つの方策がある ① A/Bテストに割り当てるサンプルサイズを増やす ② Boldな変更を行う ③ Variance reductionを行う それ以外にも:分散の小さい指標を用いる

    , cappingする, ... 常に可能なわけではない • サンプルサイズはサービス規模やダウンサイドリスクの制約を受ける。 • A/Bテストされるもの全てをBoldにはできない
  3. 各手法を適用した場合の分散* • 単純無作為抽出: • Stratified sampling: • Post stratification: •

    CUPED: Stratified samplingの方がPost stratificationよりも分散削減効果が大きい。 一方で、サンプルサイズが大きい時はほとんど差がなくなる。
  4. 実験条件 • 単純無作為抽出を基準として、各手法による分散低減量を比較する。 • 対象とする指標は以下の2種類 ◦ Retention rate: 契約継続率 ◦

    Streaming thresholds: ある一定の閾値よりも動画を視聴したかどうかを示す 2値変数。7個thresholdを変えたものを使う。 • 新規 / 既存 の2種類のセグメントで比較を行う。 • A/Aテストを想定し、ランダムな分割を各手法において100k回行い分散低減量の 点推定値を得た。
  5. 共変量 • 新規 / 既存で異なる ◦ 新規の場合、割り当てが登録時に行われるのでサービス上での行動を用いた 指標を共変量とすることができない。 • 手法間でも異なる

    ◦ 新規の場合、手法間では同じ ◦ 既存の場合、 ▪ Stratified samplingとPost stratificationは同じ ▪ CUPEDは異なる(実際にNetflixで用いているものを用いた)
  6. References • Improving the Sensitivity of Online Controlled Experiments: Case

    Studies at Netflix • Improving the Sensitivity of Online Controlled Experiments by Utilizing Pre-Experiment Data: CUPEDの元論文 • Power, minimal detectable effect, and bucket size estimation in A/B tests by twitter engineering blog