Upgrade to Pro — share decks privately, control downloads, hide ads and more …

バンディットと因果推論

 バンディットと因果推論

バンディットアルゴリズムを用いて意思決定の自動化を行う事は近年様々なビジネスで適応されるようになってきました。 しかし、バンディットアルゴリズムから生まれたログデータがどのような性質を持ち、どのような分析を行う事が出来るのかはあまり知られていません。この発表ではバンディットアルゴリズムのログデータを利用したPolicyの学習や因果推論への応用などについて解説します。

Shota Yasui

July 10, 2019
Tweet

More Decks by Shota Yasui

Other Decks in Research

Transcript

  1. 自己紹介
 名前:安井翔太(31) 職業:Economic Research Scientist 経歴: 2011年 立教大学 経済学部卒業 2013年

    Norwegian School of Economics MSc in Economics 2013年 Cyberagent 入社(総合職, 微妙な分析の量産) 2015年 アドテク部門へ異動(専門職, MLの応用) 2017年 AILabへ異動(研究職, ML + CI回りの応用) 2 @housecat442

  2. Thompson Sampling MAB
 6 model for 26 model for 75

    ベータ分布
 α:5
 β:35
 ベータ分布
 α:3
 β:12
 0.2 0.4 sampling
 sampling
 arg max slot_1 slot _2 template_id: 75 clickされたらα=α+1 
 clickされなければβ=β+1 
 と更新する

  3. Thompson Sampling Contextual Bandit
 8 model for 26 model for

    75 特徴量xから予測する(ex. logistic regression 
 y = f(x)
 特徴量xから予測する 
 y = g(x)
 0.2 0.4 sampling
 sampling
 arg max slot_1 slot _2 template_id: 75 yを観測したらgを更新
 都度更新ではなく1日1回のケースも
 男性には26だけど女性には75が良いといった傾向が汲み取れる

  4. Thompson Sampling Contextual Bandit
 9 model for 26 model for

    75 特徴量xから予測する 
 y = f(x)
 特徴量xから予測する 
 y = g(x)
 0.2 0.4 sampling
 sampling
 arg max slot_1 slot _2 template_id: 75 yを観測したらgを更新
 都度更新ではなく1日1回のケースも
 Policy
 男性には26だけど女性には75が良いといった傾向が汲み取れる

  5. バンディットがそもそも面白い点
 • 意思決定までを意識した機械学習の応用
 ◦ 予測がゴールでは無い
 ◦ 意思決定して報酬がもらえてなんぼ
 • それ自体で因果効果を大きくする
 ◦

    RCTの拡張
 ◦ 因果推論→意思決定 の流れを自動化している
 • ログデータを実験データとして捉えられる
 ◦ 今日のお話
 15
  6. ここでの前提
 • Batched Contextual Bandit
 ◦ Policyの学習はバッチで行われる
 ◦ 数時間/1日ごとに学習が行われる
 


    • Policyの意思決定は確率的
 ◦ Thompson Sampling
 ◦ Epsilon-Greedy
 ◦ etc...
 17 この辺の仮定は研究が進めばいらなくなりそう 

  7. AD Template Selection
 18 x candidates a,b,c,d b Y •

    ユーザーに対して見せる広告を決定する • ユーザーの情報Xを得て、選択肢{a,b,c,d}に対してCTRの予測を行う。 • 予測値が最大の選択肢を選ぶ (上の例ではb) • Clickを観測する(Y) Predict + decision (Contextual Bandit) slot _1 slot _2 slot _3 slot_1 slot _2
  8. model update
 19 x candidates A = {a,b,c,d} b Y_b

    Predict + decision dataset X, A, Y x candidates A = {a,b,c,d} b Y_b Predict + decision モデルの学習と更新 1日この仕組みを回す 更新したモデルで回す データの蓄積 new system c Y_c ex)線形回帰→DNN counterfactual!
  9. 評価データの特徴
 23 X Y X1 1 a b X2 1

    c c X3 0 b b X4 1 a a X5 1 b c • 得られているデータは 
 ◦ X:特徴量
 ◦ Y:報酬(click)
 ◦ A:選択された腕
 ◦ A以外の腕を選んだ時のYは未知 
 
 • 新規のPolicyを走らせる 
 ◦ Xを入力するとA’が得られる 
 ◦ A’ = AならYがわかる
 ◦ それ以外ではYは欠損 

  10. ここでやりたいこと
 24 X Y X1 1 a b X2 1

    c c X3 0 b b X4 1 a a X5 1 b c • 全データでYを観測した時の評価をしたい 
 
 
 • 実際にYを観測できるのは A’=Aの時のみ
 
 
 • 得られたデータから全体をどう推測するか? 
 ◦ Importance Sampling 
 ◦ Propensity Score
 A’=Aなら1になる
  11. Inverse Propensity Score, IPS
 ←本当に欲しい評価 
 ←Unbiasdnessをもつ 
 既存のPolicyにおいて 


    aが選ばれる確率で割る 
 評価の算出を行う時に傾向スコアの逆数で重みをつければ良い 
 25
  12. 26 傾向スコア = 既存のPolicyが選ぶ確率
 x candidates a,b,c,d {a = 0.2,

    b = 0.3, c = 0.1, d = 0.4}
 Thompson Sampling/ Epsilon Greedy 
 ではここの確率は決まっている。 
 X, Aのデータから確率予測を行う →傾向スコア / Importance Weight シミュレーションでEmpiricalな確率を得る →いわゆる真の傾向スコア
  13. どっちでやる?
 真の傾向スコアを使うケース 
 • 文脈付きバンディットでは面倒 
 • ログの設計も面倒
 • 計算量多いけど分析者が考える事が少ない

    
 ◦ BQ+JavaScriptで出来る 
 傾向スコアを推定するケース
 • 選択肢が増減すると使えない 
 • チューニングが面倒 
 • 分散は小さくなる
 27 Narita, Yusuke, Shota Yasui, and Kohei Yata. "Efficient Counterfactual Learning from Bandit Feedback." AAAI 2019.
  14. 因果推論とオフライン評価
 X Y_A X1 1 a c X2 1 c

    c X3 0 b c X4 1 c c X5 1 b c • 常にcを選ぶPolicyを評価する ◦ cが選ばれた部分から全体の期待値を考える ◦ 別の選択肢の結果との差分は ATE • 因果推論のIPW(Holvitz Thompson Estimator)は オフライン評価のIPSの特殊な形? 28
  15. Doubly Robustも使われる
 30 何かしらのモデルでの報酬予測 
 モデルの誤差
 • 傾向スコアと予測モデルを使ったアプローチ 
 •

    報酬予測/傾向スコア どちらかがあっていれば良いという評価方法 
 Dudík, Miroslav, et al. "Doubly robust policy evaluation and optimization." Statistical Science 29.4 (2014): 485-511.
  16. More Robust Doubly Robust, MRDR
 • Yをどの様なモデルで学習するか?
 • Doubly Robustの分散が最小になる様に学習する


    31 Farajtabar, Mehrdad, Yinlam Chow, and Mohammad Ghavamzadeh. "More Robust Doubly Robust Off-policy Evaluation." International Conference on Machine Learning. 2018. 分散の制御可能な部分 

  17. Unconfoundedness / CIAが成立する
 • 確率的に腕を選択しているので・・・
 ◦ Xの値が固定されている時
 ◦ Potential Outcomeと腕の選択は独立


    
 • XはPolicyで使われている特徴量なので既知
 ◦ 因果推論ではどの変数を使うか悩むケースが多い
 ◦ ここではバンディットで使うものを使えば良い
 腕の選択
 33
  18. 模索しながらCAでやっている事
 • Off-Policy Evaluation
 ◦ アドテクにおけるBandit Algorithm by Fujita Komei


    ◦ Efficient Counterfactual Learning from Bandit Feedback
 (AAAI2019) with Yusuke Narita, Kohei Yata
 
 • 選択肢のATE/HTEの推定
 ◦ Bandit with Causality by Shota Yasui
 36
  19. 理想的にはこんな感じにしたい
 Policy log state
 action
 off-policy
 evaluation
 Interpretation
 Incentive Design


    Causal Inference
 報酬を最大化する
 MLエンジニアなみなさん 
 事後的な分析に従事する 
 データアナリスト/社会科学なみなさん 
 reward
 38
  20. 参考資料
 42 • SIGIR 2016 Tutorial: Counterfactual Evaluation and Learning


    • Cornell University CS7792: Counterfactual Machine Learning
 • KDD 2018 Tutorial: Real World Interactive Learning