Predict + decision dataset X, A, Y x candidates A = {a,b,c,d} b Y_b Predict + decision モデルの学習と更新 1日この仕組みを回す 更新したモデルで回す データの蓄積 new system c Y_c ex)線形回帰→DNN counterfactual!
c c X3 0 b b X4 1 a a X5 1 b c • 得られているデータは ◦ X:特徴量 ◦ Y:報酬(click) ◦ A:選択された腕 ◦ A以外の腕を選んだ時のYは未知 • 新規のPolicyを走らせる ◦ Xを入力するとA’が得られる ◦ A’ = AならYがわかる ◦ それ以外ではYは欠損
c c X3 0 b b X4 1 a a X5 1 b c • 全データでYを観測した時の評価をしたい • 実際にYを観測できるのは A’=Aの時のみ • 得られたデータから全体をどう推測するか? ◦ Importance Sampling ◦ Propensity Score A’=Aなら1になる
c X3 0 b c X4 1 c c X5 1 b c • 常にcを選ぶPolicyを評価する ◦ cが選ばれた部分から全体の期待値を考える ◦ 別の選択肢の結果との差分は ATE • 因果推論のIPW(Holvitz Thompson Estimator)は オフライン評価のIPSの特殊な形? 28