a,b,c,d,e c c eval NA 1 click 0 1 old logic new logic 既存ロジックと新ロジックの選択が異なる 場合,クリック有無は観測不可能 一致した場合,クリック有無を観測可能 Biased!!! 選択が一致したものだけで評価を行う ...? 配信データ シミュレーション 既存ロジックのログのデータの分布 ≠ 実際のデータの分布
a,b,c,d,e c c X3 a,b,c,d,e d d X4 f,g,h f f X5 f,g,h g f eval NA 1 0 1 NA click 0 1 0 1 1 評価に使う 新ロジックをオフラインで評価した際の クリック率は2/3 評価に使わない 評価に使わない 配信データ シミュレーション
Random Forest 真のPSを用いるより推定されたPSを用いることで,オフライン評価の分散が小さくなる 詳しくは https://www.slideshare.net/shotayasui/l-05-bandit-with-causality feature click X1 1 a b X2 1 c c X3 0 b b X4 1 a a X5 1 b c eval NA 1 0 1 NA
Categories” ◦ Rob Donnelly, Francisco R. Ruiz, David Blei, and Susan Athey • スーパーで同時に複数カテゴリの商品を買うようなケースの分析 ◦ 例: バナナと洗剤とヨーグルトと肉のそれぞれから1 or 0 個買う • 既存研究では1つのカテゴリ内での購買行動に注目していた • カテゴリ横断したutility functionの推定に機械学習の手法が使わ れている 78
既存モデルと新モデルのRCTでの ビジネスKPIの比 (CVRなど) 150 successful Machine Learning models: 6 lessons learned at Booking.com, KDD2019 “OFFLINE MODEL PERFORMANCE IS JUST A HEALTH CHECK”
and empirical results. The problem itself is grounded in a real-world issue without being overly specific to a single narrow area, and is beneficial in practice.” 遅れCV論文のレビュワーコメントより抜粋