Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Tech企業におけるA/B test

Tech企業におけるA/B test

日本評価学会社会実験分科会 2020 年研究報告会にて行われた発表です。

Shota Yasui

May 16, 2020
Tweet

More Decks by Shota Yasui

Other Decks in Science

Transcript

  1. 自己紹介
 名前:安井翔太(32) 職業:Economic Research Scientist web: https://yasui-salmon.github.io/ 経歴: 2011年 立教大学

    経済学部卒業 2013年 Norwegian School of Economics MSc in Economics 2013年 Cyberagent 入社(総合職, 微妙な分析の量産) 2015年 アドテク部門へ異動(専門職, MLの応用) 2017年 AILabへ異動(研究職, ML + CI回りの応用) 良く使う言語: R, SQL, Python 2
  2. Thompson Sampling MAB
 25 model for 26 model for 75

    ベータ分布
 α:5
 β:35
 ベータ分布
 α:3
 β:12
 0.2 0.4 sampling
 sampling
 arg max slot_1 slot _2 template_id: 75 clickされたらα=α+1 
 clickされなければβ=β+1 
 と更新する

  3. Thompson Sampling Contextual Bandit
 27 model for 26 model for

    75 特徴量xから予測する(ex. logistic regression 
 y = f(x)
 特徴量xから予測する 
 y = g(x)
 0.2 0.4 sampling
 sampling
 arg max slot_1 slot _2 template_id: 75 yを観測したらf or gを更新
 都度更新ではなく1日1回のケースも
 男性には26だけど女性には75が良いといった傾向が汲み取れる

  4. Thompson Sampling Contextual Bandit
 28 model for 26 model for

    75 特徴量xから予測する 
 y = f(x)
 特徴量xから予測する 
 y = g(x)
 0.2 0.4 sampling
 sampling
 arg max slot_1 slot _2 template_id: 75 yを観測したらf or gを更新
 都度更新ではなく1日1回のケースも
 Policy
 男性には26だけど女性には75が良いといった傾向が汲み取れる

  5. バンディットの利点
 29 • Regretが一定のバウンドに収まる
 ◦ 意思決定の質がある程度担保される
 
 • 分析→意思決定のフローが自動
 ◦

    意思決定者としては楽
 ◦ ちゃんと動作しているか?という運用コストが発生
 ◦ この辺りはデータサイエンティストが頑張る?

  6. 分析・評価の必要性
 • 広告主に対するレポート
 ◦ 次にどんな広告画像を作るべきなのか?
 ◦ 配信した広告画像は何が良かったのか?
 
 • バンディットの操作には分析が必要


    ◦ バンディットの選択肢を増減させたい
 ◦ 今ある選択肢の中でいらないものはどれか?
 
 →効果の推定が必要になる
 31
  7. Heterogeneity
 • interstitial ◦ 1: 全画面で見せる ◦ 0: 記事の中で見せる •

    interstitial=0では26が良い • interstitial=1では75が良い 36 • ATEで悪くとも、あるXでは良い腕も存在しているかもしれない。 
 • ATEにしたがった意思決定をしても、改善出来ない可能性がある。 

  8. 広告オークションにおける機械学習の役割
 38 X
 何かしらの
 機械学習モデル
 予測値を元に
 入札額を計算
 入札
 落札費用
 購買


    • オークションで落札すると広告が表示出来る 
 • 落札するとコストが発生する 
 • 広告をクリックして物が買われると嬉しい 
 →機械学習は購買確率やクリック確率を予測している 

  9. 何が難しいか?
 • 費用の側面と収益の側面がある
 ◦ 薬であれば効果と副作用?
 • どの様に意思決定すればよいか?
 ◦ 収益と費用が同じ単位ではない場合が多い
 ▪

    収益 vs ユーザー体験など 
 ◦ 収益も増えるけど、費用も増えるモデルは良いモデルなのか?
 
 →実験が出来ても意思決定が難しい
 40
  10. 取り敢えずの対処
 • 以下の結果以外では結論が出る
 ◦ 費用が変わらないけど、収益が増える。
 ◦ 収益が変わらないけど、費用が減る。
 
 • 何かしらの重みを決めてスコアを出す


    ◦ Overall Evaluation Criteria(OEC)と呼ばれるもの
 ▪ Google, Amazon, Microsoft, etcはOECを決めるチームが存在する 
 ◦ スコアに差があれば結論を出す
 41
  11. 42 Yasui, Shota, Gota Morishita, Komei Fujita, Masashi Shibata. “A

    Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedback.” The Web Conference (WWW), Taipei, Apr. 2020 ある実験結果
 • 機械学習におけるデータのバイアスを除去してABテスト 
 • CPA: 購買を1件獲得するあたりの平均コスト 
 • Cost: 広告費用
 
 →平均コストは有意な差が無いが、広告費用は有意に増加。 
  広告配信ビジネス的には嬉しい結果。