Upgrade to Pro — share decks privately, control downloads, hide ads and more …

適応的実験計画と逐次検定: 効率的なA/Bテストのために

MasaKat0
May 30, 2020

適応的実験計画と逐次検定: 効率的なA/Bテストのために

昨年度のノーベル経済学賞がランダム化比較実験を用いたアプローチに関する功績に与えられ、近年では企業においてA/Bテストが普及しているように、データと実験に基づく処置や政策の評価が一般化してきています。本発表では、A/Bテストなどにも応用可能な、機械学習や経済学における逐次的にデータが手に入る状況での実験計画の最新の研究動向を紹介します。

MasaKat0

May 30, 2020
Tweet

More Decks by MasaKat0

Other Decks in Research

Transcript

  1. 自己紹介 加藤 真大 AdEcon • 経歴 ◦ 2013.4 - 2017.3

    ▪ 東大経済学部 ◦ 2017.4 - 2017.9 ▪ 東大経済学研究科 ◦ 2017.9 - 2020.3 ▪ 東大情報理工コンピュータ科学専攻 ◦ 2020.4 - ▪ CyberAgent AI事業本部 AdEconチーム • その他 ◦ 甘いものが大好きです.お酒が飲めません. 2
  2. Rubinによる因果効果の定義 n 因果効果の数理的枠組み:Rubin(1974)が定義. ◦ ある個人に処置 ∈ {0,1} を与えた結果:(). ◦ 因果(処置)効果:(1)

    − (0). ◦ 因果(処置)効果() − ()は直接観測できない. 同じ人間は二人以上存在しない → 平均処置効果 [() − ()] を推定する. 6
  3. 平均処置効果 n 平均処置効果 − : () − () の期待値. n

    この平均処置効果の推定が因果推論のゴールの一つ. → 二つのアプローチ: ◦ すでに観測されたデータを用いて推定する方法. ◦ 実験によってデータを集めて推定する方法. ↑ 堅実だが実験コストが大きい.倫理的問題も. 7
  4. 処置割り当てのランダム化の種類 どのように処置を割り当てればいいのか? n ランダム化割当実験(RCT): ◦ とにかくランダムに処置(製品)を割り当て. ◦ サンプル選択バイアスを除去. n 適応的実験計画:

    ◦ 過去の情報を参考にしながら割り当て方策を最適化. → 近年,多腕バンディットアルゴリズムからのアプローチが盛んに. (最適腕識別) 12
  5. 適応的実験計画の良し悪し ( + ) より少ないサンプルで実験するためにはRCTに拘る必要はない. ◦ 適応的実験計画で実験を効率化. ( - )

    but RCTは適応的実験計画と比べて公平で倫理的かもしれない. ◦ RCTがそもそも公平で倫理的でない可能性はあるが. ◦ 適応的実験計画では実験者が意図的に割り当てを操作する. ( - ) 適応的実験計画ではサンプル選択バイアスが発生する場合がある. 13
  6. A/Bテスト n 倫理的問題: ◦ 医学などでは重要. ◦ しかし,企業の実験ではあまり考えなくていい状況もある. n サンプル選択バイアス: ◦

    逆確率重み付け推定量などである程度は対処可能. → とりあえず民間企業のA/Bテストに適応的実験計画は適している? * 倫理・公平性と実験の効率性のトレードオフが存在する. 14
  7. 仮説検定 n 実験を通じて意思決定を行いたい=仮説検定. n 仮説検定では帰無仮説ℋ と対立仮説ℋ を比較. ◦ ℋ# が間違っていれば帰無仮説を棄却してℋ

    を受け入れる. n 第一種の過誤と第二種の過誤の制御が大事. ◦ 第一種の過誤: ℋ# が正しいのにℋ# を棄却する. ◦ 第二種の過誤: ℋ# が正しくないのにℋ# を棄却しない. 16
  8. 逐次検定 n 逐次的に訪れるデータと仮説検定: ◦ 通常の仮説検定ではサンプルサイズは固定. ◦ 広告配信などの設定ではサンプルが逐次的に訪れる. - サンプルサイズが未知(少しずつ=逐次的に増えていく). n

    逐次検定: ◦ サンプルが訪れるたびに仮説検定を実行. ◦ 適当なところで実験を停止したい. ◦ 決められたサンプルサイズが溜まるまで待ちたくない. 18
  9. 例:おみくじ n 占い好きの加藤くん ◦ 彼の経済合理性は怪しく何事も占いで決める. n 今日の加藤くんの運勢は大凶. n 大凶の時はおみくじが95%で大凶,5%で大吉になる. n

    加藤くんは1回目におみくじを引いた時は大凶だった. n 加藤くんは諦めずにおみくじを引き続けた. n 10回目で大吉が出た → 「やったー!今日の運勢は大吉だ〜」??? 20
  10. 多重検定に基づく逐次検定 n 多重検定:医学統計などで用いられている古典的な手法. ◦ 例:Bonferroni法,Benjamini-Hochberg法 n Bonferroni法. ◦ サンプルサイズが =

    1,2, … の値を$ , % , … , & とする. ◦ Bonferroni法では,$ /1, % /2, … , & /とする. n Bonferroni法は第一種の過誤を制御するが非常に保守的. = 間違った帰無仮説を棄却しない問題が発生する. 21
  11. 適応的集中不等式に基づく逐次検定 n 任意の時刻において推定量に対して成立する不等式を考える. ◦ 関心のあるパラメータを# とし, = 1,2, …ごとに逐次的にデータ入手. ◦

    期に得られる# の推定量を 9 ' とする(帰無仮説を# = とする). ◦ 任意ので 9 ' − ≤ ' が少なくとも確率1 − で成立する' を探す. ◦ この不等式のことを適応的集中不等式と呼ぶ(Zhao et al. 2016). n この を信頼区間とみなして仮説検定を行う. ◦ 適応的集中不等式は色々知られている(Balsubramani et al. 2016). ◦ 多重検定のような過剰な保守性の問題を回避できる. 22
  12. 3. 効率的な実験計画 25 Kato, Ishihara, Honda, and Narita, Adaptive Experimental

    Design for Efficient Treatment Effect Estimation, on arXiv.
  13. データ生成過程 n データ生成過程を以下のように定義する. ◦ ある個人に与える行動:' ∈ {0,1}. - ' =

    1:効果を調べたい処置(処置群). - ' = 0:比較のための処置(対称群). ◦ ある個人の特徴:' . ◦ ある個人に処置1を与える確率を(' = 1|')とする. ◦ 行動によって個人が得られる結果:'(). 27
  14. 下界を最小化する( = | ) n 推定量の分散の下界を確率 ' = 1 ')]の関数とみなす.

    n 推定量の分散の下界を最小化する ' = 1 ')を探す. ◦ ∗ ' = 1 ' = *+, -! $ .!) *+, -! $ .!)0*+, -! # .!) . ◦ Std('()|')はで条件付けた'()の標準偏差. n 確率∗(' = 1|')で処置1を割り当てる時に分散が最小. ◦ Std('()|')は未知なので推定する必要あり. → Std('()|')を逐次的に推定しながら処置を割り振る. 29
  15. 効率的な処置効果推定のための実験方法 各期 = 1,2, . .において, 1. 最適な確率∗ ' =

    1 ' を推定(逐次的に更新). 2. 特徴' と推定された確率に基づく ' = 0|' を用い処置' を割り振る. 3. 結果' = 1 ' = 1 ' 1 + 1 ' = 0 ' 0 を観測する. 4. 推定量 9 ' を構築(具体的な形は次ページで紹介). を繰り返す. n 通常の検定:適当な時点で実験をやめて仮説検定. n 逐次検定:毎期仮説検定を行い,適当な時点で停止する. 30
  16. 分散の下界を達成する平均処置効果の推定量 期間 = 1,2, … , において得られたサンプルの組 ', ', '

    '1$ & . n 以下の平均処置効果の推定量 9 & は平均処置効果に不偏かつ一致性. ! " = $ #$% " 1 # = 1 # − ) # 1, # (# = 1|#) + ) # 1, # − 1 # = 0 # − ) # 0, # # = 0|# − ) # (0, # ) ◦ 1[ ・ ]は指示関数. ◦ 9 ' , ' はt-1期までのサンプルを用いた['()|']の推定量. ◦ さらにその分散はセミパラメトリック下界と一致する. ◦ いわゆるdoubly robust推定量と同じような形. 31
  17. マルチンゲールと適応的集中不等式 n (' = 1|')が過去の観測値によって更新. → (' = 1|')は少しずつ∗ '

    = 1 ' に近づく. ◦ ', ', ' '1$ & はi.i.d.ではない. But 推定量の構成要素がマルチンゲール階差数列の性質を満たす. 漸近正規性の証明が可能に. n 前のページで提示された推定量 9 & は漸近正規性を持つ. n 適応的集中不等式も簡単に得ることができる(Balsubramani 2014). ◦ 集中不等式に基づいて逐次検定を行うことができる. 32
  18. 33 実験の設定 n 500期間の逐次アルゴリズムを1000回試行して平均を計算. n 150期と300期にそれぞれ平均二乗誤差の計算と検定の実行. ◦ 検定の結果には棄却した回数の%を計算. n 加えて,任意の時間で停止する逐次検定を500期まで実行.

    ◦ 多重検定と集中不等式の二つの方式で実施. ◦ 多重検定ではBonferroni法を用い, = 150,250,350,450で評価. ◦ 棄却するまでに必要とした期の平均を計算. ◦ 帰無仮説を棄却しなければ500.
  19. 34 擬似データの設定 n ['(1)]= 0.8 n ['(0)]= 0.3 n '(1)の標準偏差=

    0.8 n '(0)の標準偏差= 0.3 となるような適当な5次元の共変量からなる線形モデルを仮定. 帰無仮説は棄却されるべき. 帰無仮説は「効果なし」,つまり, [' (1) − ' (0)] = 0.
  20. 35 擬似データでの実験結果1 n = 150での平均二乗誤差(推定量-真値の二乗の平均) ◦ ランダム化比較実験 : 0.145 ◦

    効率的な実験計画 : 0.062 n = 300での平均二乗誤差 ◦ ランダム化比較実験 : 0.073 ◦ 効率的な実験計画 : 0.023 最小二乗誤差の減少.
  21. 36 擬似データでの実験結果2 n = 150で仮説検定を行った場合 ◦ ランダム化比較実験 : 総試行の25%の帰無仮説を棄却. ◦

    効率的な実験計画 : 総試行の53%の帰無仮説を棄却. n = 300での仮説検定を行った場合 ◦ ランダム化比較実験 : 総試行の45%の帰無仮説を棄却. ◦ 効率的な実験計画 : 総試行の90%の帰無仮説を棄却. 正しく棄却できている割合が⼤幅に増⼤.
  22. 37 擬似データでの実験結果3 n 多重検定に基づく逐次検定の平均停止時刻 ◦ ランダム化比較実験 : 370 ◦ 効率的な実験計画

    : 236 n 集中不等式に基づく逐次検定の平均停止時刻 ◦ ランダム化比較実験 : 455 ◦ 効率的な実験計画 : 303 実験に必要なサンプルサイズを35%削減!!
  23. 参考文献 • Hahn, J., Hirano, K., and Karlan, D. (2011).

    Adaptive experimental design using the propensity score. Journal of Business and Economic Statistics, 29(1):96–108. • Imbens and Rubin. Causal Inference for Statistics, Social, and Biomedical Sciences, 2015. • Rubin, D. B. (1974). Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology, 66(5):688. • Neyman, J. (1923). Sur les applications de la theorie des probabilites aux experiences agricoles: Essai des principes. Statistical Science, 5:463–472. • Hamilton, J. (1994). Time series analysis. Princeton Univ. Press, Princeton, NJ. • Chow, S.-C. and Chang, M. (2011). Adaptive Design Methods in Clinical Trials. Chapman and Hall/CRC, 2 edition. • Yang, Y. and Zhu, D. (2002). Randomized allocation with nonparametric es- timation for a multi-armed bandit problem with covariates. Ann. Statist., 30(1):100–121. 39
  24. 参考文献 • Hadad, Hirshberg, Zhan, Wager, and Athey (2019). Confidence

    Intervals for Policy Evaluation in Adaptive Experiments, arXiv. • Kato, Ishihara, Honda, and Narita (2020). Adaptive Experimental Design for Efficient Treatment Effect Estimation: Randomized Allocation via Contextual Bandit Algorithm, arXiv. • Delyon and Portier (2018). Asymptotic optimality of adaptive importance sampling, NeuIPS. • Johari, R., Pekelis, L., and Walsh, D. J. Always valid inference: Bringing sequential analysis to a/b testing, arXiv. • Zhao, S., Zhou, E., Sabharwal, A., and Ermon, S. Adaptive concentration inequalities for sequential decision problems, NeurIPS. • Balsubramani, A. and Ramdas, A. Sequential nonparametric testing with the law of the iterated logarithm, UAI. • Balsubramani, A. Sharp finite-time iterated-logarithm martingale concentration. arXiv 40