KDD2022 paper (Non-stationary AB Tests)

Non-stationary A/B Tests KDD22 関連有志読み会株式会社ビズリーチ中江俊博 2022-11-24

自己紹介中江俊博 (なかえとしひろ) 株式会社ビズリーチリクルーティングプロダクト本部プラットフォーム開発部 AI1グループ Mgr
経歴 NTTデータ数理システム(-2018) データ分析コンサルタント TripleW(2018-2019) 排尿予測モデル実装ビズリーチ (2019-現職) 推薦モデルなどの機械学習関連の実装の統括担当 KDD22 関連有志読み会 / Non-stationary A/B Tests 2

今回対象となる論文 Non-stationary A/B Tests (KDD 2022) Yuhang Wu, Zeyu Zheng+
University of California, Berkeley と Amazon の混成チーム要旨 A/Bテストの対象となるmetricsが、定常性を満たさない場合に、 A/Bテストの推定値の分散が大きくなるケースがある。非定常であるmetricsに対して、A/Bテストの推定値の分散を低減させる方法を提案 KDD22 関連有志読み会 / Non-stationary A/B Tests 3

問題意識 A/Bテスト対象のメトリクスの時系列変動が非定常である場合 A/Bごとにメトリクスの平均の差を出すと分散が著しく大きくなる。図(論文Figure1)のように日内変動、曜日変動をするようなケース変動要素が曜日などに依存することが既知であれば層別化/回帰すればよいでは、単純な周期性に還元できない非定常の場合どうしたらよい？時系列を等間隔に分割して層別化すればよい！(今回の提案) KDD22 関連有志読み会 /
Non-stationary A/B Tests 4

前提(1) 対象となるサンプルは平均の Poisson で到着 Treatment/Control の割り当ては、確率の Bernoulli
で決める。このようにして集められたサンプルが手元にあると考える。 KDD22 関連有志読み会 / Non-stationary A/B Tests 5

前提(2) Treatment/Control の時刻でのメトリクスは、時刻に依存して平均/分散が変動しているとする。 A/Bテストにおける推定値 KDD22 関連有志読み会
/ Non-stationary A/B Tests 6

サンプル事後層別化 Treatmentへの割り当て確率が、時刻に依存せず固定である前提で、サンプルを個集めた後で、均等に個の区間に分割そのあとで、層別平均の差の重み付き和をとる (Sample-based Post Stratification
; SPS) KDD22 関連有志読み会 / Non-stationary A/B Tests 7

サンプル事後層別化の分散 Theorem 3.1 もしでかつならここで、分散についてはちなみに、naiveなA/B比較(サンプル平均の差)の分散と比較する SPSは
の差の分散、naiveは分散の重み付き和になっている KDD22 関連有志読み会 / Non-stationary A/B Tests 8

何を言っているのか？ naiveの分散は、それぞれの時系列の分散の和 + の分散 SPSの分散は、その時点における平均の差の分散 + の分散 KDD22 関連有志読み会 /
Non-stationary A/B Tests 9

具体例線形に変化するような場合 ( も同様に線形を仮定) 推定値の分散に起因する分散に起因する分散が大きく、かつ値が非常に近い場合は、 sps は
naive に対する改善が非常に大きい KDD22 関連有志読み会 / Non-stationary A/B Tests 10

もっと一般的な状況 Treatment への割り当て確率が時刻によって異なる場合もし、各時点における到着密度が正確にわかるのであればは、サンプル数増加で真の推定値に(確率)収束する。 dps =
De-biased Post Stratification dpsでは、各時点でA/Bテストに含める確率もバラバラでもよいらしい。ただし、が正確にわかるという前提を一般の状況で仮定するのは難しいと思われるこのdpsについては、論文での記載はややあいまい。もう少しちゃんと書いてほしい (掘り下げる余地ありとみるべきか) KDD22 関連有志読み会 / Non-stationary A/B Tests 11

別の発想 : 到着順に割り当てる工夫で割り当てるのであれば、到着順にA/B/A/B/.. と割り当てるのもよさそう！ほぼ同一時刻で対になるサンプルを生成しているのと同じとみることができるから。この発想で、Treatmentへの割り当て確率が有理数で、
出現する個ごとに Treatment を個割り当てた場合の A/Bテストの平均の差についても sps と同程度の分散になる！ tr : Time-grouped Randomization KDD22 関連有志読み会 / Non-stationary A/B Tests 12

実験結果 7日間で時刻/曜日変動があるようなダミーデータを Eコマースの実績データをもとに生成 A/B比率とする。手法 naive : A/B群の平均の差 psf
: 曜日ごと平均の差の平均 sps, tr : 提案法結果 KDD22 関連有志読み会 / Non-stationary A/B Tests 13

まとめ一般的な非定常の時系列となるA/Bテストで分散が小さくなるサンプル事後層別化 sps = Sample-based Post Stratification を考案単なる層別化と比較しても分散が小さくなる
A/B群への割り当てを到着順に割り当てるような方法 (tr = Time-grouped randomization)でも sps と同等の分散となる KDD22 関連有志読み会 / Non-stationary A/B Tests 14

KDD2022 paper (Non-stationary AB Tests)

KDD2022 paper (Non-stationary AB Tests)

Toshihiro NAKAE

More Decks by Toshihiro NAKAE

Featured

Transcript

Non-stationary A/B Tests KDD22 関連有志読み会株式会社ビズリーチ中江俊博 2022-11-24

自己紹介中江俊博 (なかえとしひろ) 株式会社ビズリーチリクルーティングプロダクト本部プラットフォーム開発部 AI1グループ Mgr

今回対象となる論文 Non-stationary A/B Tests (KDD 2022) Yuhang Wu, Zeyu Zheng+

前提(1) 対象となるサンプルは平均の Poisson で到着 Treatment/Control の割り当ては、確率の Bernoulli

前提(2) Treatment/Control の時刻でのメトリクスは、時刻に依存して平均/分散が変動しているとする。 A/Bテストにおける推定値 KDD22 関連有志読み会

サンプル事後層別化 Treatmentへの割り当て確率が、時刻に依存せず固定である前提で、サンプルを個集めた後で、均等に個の区間に分割そのあとで、層別平均の差の重み付き和をとる (Sample-based Post Stratification

サンプル事後層別化の分散 Theorem 3.1 もしでかつならここで、分散についてはちなみに、naiveなA/B比較(サンプル平均の差)の分散と比較する SPSは

何を言っているのか？ naiveの分散は、それぞれの時系列の分散の和 + の分散 SPSの分散は、その時点における平均の差の分散 + の分散 KDD22 関連有志読み会 /

具体例線形に変化するような場合 ( も同様に線形を仮定) 推定値の分散に起因する分散に起因する分散が大きく、かつ値が非常に近い場合は、 sps は

もっと一般的な状況 Treatment への割り当て確率が時刻によって異なる場合もし、各時点における到着密度が正確にわかるのであればは、サンプル数増加で真の推定値に(確率)収束する。 dps =

実験結果 7日間で時刻/曜日変動があるようなダミーデータを Eコマースの実績データをもとに生成 A/B比率とする。手法 naive : A/B群の平均の差 psf

まとめ一般的な非定常の時系列となるA/Bテストで分散が小さくなるサンプル事後層別化 sps = Sample-based Post Stratification を考案単なる層別化と比較しても分散が小さくなる