Upgrade to Pro — share decks privately, control downloads, hide ads and more …

IT事業をグロースさせるRCT (ABテスト) / How to Grow Our IT Bu...

Komei Fujita
November 28, 2020

IT事業をグロースさせるRCT (ABテスト) / How to Grow Our IT Business with Randomized Controlled Trials

日本評価学会第21回全国大会「ITの利用と評価」セッションで、『IT事業をグロースさせるRCT (A/Bテスト)』というタイトルで発表しました。
http://evaluationjp.org/activity/index21.html

Komei Fujita

November 28, 2020
Tweet

More Decks by Komei Fujita

Other Decks in Technology

Transcript

  1. 自己紹介 藤田 光明 Data Scientist • 経歴 ◦ 2018.04 -

    2020.10 ▪ サイバーエージェント AI事業本部 Dynalyst ▪ 広告配信アルゴリズムの開発 ▪ RCTシステム基盤の設計・実装 ◦ 2020.11 - ▪ データワン事業部 • 興味 ◦ RCTを用いたプロダクトグロース ◦ ビジネス x 経済学 / 機械学習 2
  2. 今日話すこと • IT企業におけるRCTの活用と課題 ◦ RCT: Randomized Controlled Trial, ランダム化比較試験 •

    その課題にどう対処するか について,Dynalystで直面した課題 / 取り組んだ事例を中心 に紹介します. 3
  3. IT企業ではRCTが日常的に行われている over 20000 test / year over 500 test /

    year 数字の一部は[Kohavi et al. 2020]より 6 over 20000 test / year
  4. 日常的にRCTを行うための重要な要素 • トラフィック(取引量)の多さ ◦ 実験に必要なサンプルサイズが容易に手に入る • 実験コストの低さ ◦ トリートメントを簡単に作成できる ◦

    実験の開始や停止が簡単にできる 多くのITサービスが二つの要素を持っている 以下ではReal Time BiddingにおけるDynalystを例に説明する 7
  5. RTB: 数10ms内の広告オークション 9 ネットに広告を 出したい会社 DSP SSP User / Site

    a b c B C 広告リクエスト 入札リクエスト 広告画像 入札額,広告画像 予算,広告素材 100円 80円 50円 サイト収益を最大 化するためにオー クションを開催
  6. 大量のトラフィック 10 ネットに広告を 出したい会社 DSP SSP User / Site a

    b c B C 広告リクエスト 入札リクエスト 広告画像 入札額,広告画像 予算,広告素材 100円 80円 50円 数十万回/秒を超える広告リクエストが 送られてくる
  7. さまざまな場所でRCTが行われる 11 ネットに広告を 出したい会社 DSP SSP User / Site a

    b c B C 広告リクエスト 入札リクエスト 広告画像 入札額,広告画像 予算,広告素材 100円 80円 50円 入札額の決定する... 入札戦略のRCT, クリック率, 購入率の予測モデルのRCT より効果の高い広告画像を出す... 広告画像のRCT, 画像の選択アルゴリズムのRCT
  8. さまざまな場所でRCTが行われる 12 ネットに広告を 出したい会社 DSP SSP User / Site a

    b c B C 広告リクエスト 入札リクエスト 広告画像 入札額,広告画像 予算,広告素材 100円 80円 50円 入札額の決定する... 入札戦略のRCT, クリック率, 購入率の予測モデルのRCT より効果の高い広告画像を出す... 広告画像,画像の選択ロジックのRCT より効果の高い広告画像を出す... 広告画像のRCT, 画像の選択アルゴリズムのRCT これらのRCTはプロダクトを構成する ソースコードの書き換えのみで実現可能
  9. 機械学習も多く使われる 13 ネットに広告を 出したい会社 DSP SSP User / Site a

    b c B C 広告リクエスト 入札リクエスト 広告画像 入札額,広告画像 予算,広告素材 100円 80円 50円 入札額の決定する... 入札戦略のRCT, クリック率, 購入率の予測モデルのRCT より効果の高い広告画像を出す... 広告画像,画像の選択ロジックのRCT より効果の高い広告画像を出す... 広告画像のRCT, 画像の選択アルゴリズムのRCT
  10. RCTを使ってKPIを最大化するには? たくさんのことに注意を払う必要がある.例えば... 16 RCTのコストを抑える • ビジネス上の悪影響を抑えつつ, できるだけ早く実験の結論を得る • 複数の実験を同時並行できる状態 にする

    • 事前にA/Aテストを行う RCTによるリターンを最大化する • ビジネス要件に即して注目するKPI を設計する • 組織のいかなる職種のメンバーでも 実験結果を解釈できる状態にする • ランダム化する単位(ユーザ,ウェブ ページなど)を適切に選ぶ ☆については次の章で紹介する
  11. SQR Ramping Frameworkの導入 • [Xu et al. 2018]で提案された • SQRはそれぞれSpeed,

    Quality, Riskの頭文字 • 実験のスピードとビジネスリスクのトレードオ フを考慮しながら,トリートメントの適用範囲 を増やしていくフレームワーク • いくつかのフェーズから構成される 図は[Xu et al. 2018]より 24
  12. 第一フェーズ: Pre-Max Power Ramp • 主目的: 実験によるリスクの緩和 • 実験によってビジネス指標が悪化しないかを確認 •

    トリートメントの適用は1~10%で短期間で行う ◦ もし問題が起きても影響が小さい ◦ また,実験の時間もかからない • これをクリアすれば次のフェーズに移行する 25
  13. 第二フェーズ: Max Power Ramp • 主目的: 実験で最も興味ある指標を測る • トリートメントの適用は検出力最大(Max Power)と

    なる50%で1週間以上行う • 実験の結果,トリートメントが良いとわかれば適用 を100%にして実験を終了する 26
  14. DynalystでのRamping Frameworkの導入 • 機械学習モデルのRCTにてフレームワークを導入した ◦ 3 stepほどに実験フェーズを分け,フローチャート化 • 導入前の課題 ◦

    ビジネスリスクを考慮しすぎて,低い適用比率でのテストをダラダラ続けてしまう ◦ 適用比率を上げる場合にその比率ごとに似たような分析がされるので,分析コストが高い • 導入後 ◦ 各フェーズでの実験目的が明確になることで,実験が早く完了するようになった ◦ 特にPre-MPRフェーズでは,見る指標をあらかじめ洗い出してモニタリングすることで,ア ドホックな分析のコストが減った 27
  15. Single-Layer Method • 複数実験の同時並行を実現できるシンプルな割当手法 • ユーザIDのハッシュ値を用いてユーザを各バケットに割り当てて実験を行う • 問題点: 同時に実施できる実験数に限りがある ◦

    例) ユーザ全体の60%をある実験に使うと,他の実験で使えるのは40%になってしまう ◦ 同時並行で行う実験の数が増えるほど各実験に割けるユーザ数が少なくなり検出力が下がる というトレードオフが存在 30
  16. DynalystでのOverlapping Methodの導入例: 入札額決定 • オークションでの入札額はさまざまな予測値から決まる ◦ 入札額 = f(クリック率,購入率,XX率,YY率, ....)

    • 以前の予測モデルのRCTはSingle-Layer Methodで行われていた • チームのデータサイエンティストが増えるに連れ,実験の待ちが発生 購入率予測の実験をしたいの にあと20%しか使えない... 他の実験が終わるのを待とう 32
  17. 広告画像自動評価システム導入のbefore/after 37 A B 自分でデータを抽出して加工する 抽出したデータは正しいの だろうか...? データが少ない気がするけ どなんとなくAが良さそうか な...?

    広告IDと期間を指定 自動評価システム A B システムが 自動で評価 クリエイター クリエイター 簡単に正しいデータを抽出 できた.いまのところAが良 いけど,まだサンプルサイ ズが少ないから実験を続け るぞ! あとn日実験を続 けてください
  18. 機械学習を用いた意思決定とデータの分布 • 意思決定に機械学習を用いる場合,異なるモデルは異なる分布のデータを生む ◦ 例) レコメンド: アルゴリズムがどのアイテムを選ぶかによって,得られるデータの分布が変わる ◦ 例: Real

    Time Biddingにおける入札額決定のための予測モデル(後で説明) • このRCTでは,各モデル間の比較が難しい ◦ 学習データと予測するデータの分布が異なってしまうケースがある ◦ 一般的な教師付き機械学習は学習と予測のデータの分布が同じことを仮定しているので,モデルの精 度が下がる ◦ => 正確なモデルのパフォーマンスが測れない • ベストな対処法はまだなく,マシなやり方を試行錯誤している状態 39
  19. Real Time Biddingにおける入札額決定のための予測モデルのRCT • 入札額をより良く決めたいケースを考える ◦ 入札額を決める要素の一つにクリック率があり,この精度を上げたい ▪ 精度が上がることで最適な入札額に近づくため,ビジネス指標が改善しうる ◦

    既存クリック率予測モデル(Old)と新クリック率予測モデル(New)をRCTしたい • このRCTの問題点: モデル間で落札(予測)データの分布が異なる ◦ モデルOldとNewは,同じ特徴量xに対しての予測値が異なる ◦ 予測値が異なると入札額も異なる ◦ 入札額が異なると落札できるリクエストも異なる => 落札データの分布が変わる 40 T 全リクエスト モデルOldが落札したデータ モデルNewが落札したデータ
  20. Real Time Biddingにおける入札額決定のための予測モデルのRCT • Ramping Frameworkに従い,まずNewを1%で適用する • 学習データをモデル間で共有する場合,Newの学習データのほとんどがOld • しかし,前述の通りOldとNewの落札データの分布は異なる

    • 学習データと落札データの分布が異なることで,モデルNewの精度が下がる • このときのOldとNewの精度の差は本当に知りたい差ではない ◦ 本来知りたいのは100%自分の落札データで学習できたときのモデルの精度の差 41 Oldが落札したデータ(99%) Newが落札したデータ(1%) 
 Newの学習データ

  21. マシな比較をするためのいくつかの方法 • 最もシンプルな方法: 学習データをモデル間で分ける ◦ だが,学習データのサイズとモデルの精度が独立でないケースでは,正確な比較にならない ◦ 例) Old:New =

    99%:1% => Newモデルの学習データが少ないので不利 ◦ 例) Old:New = 1%:1% => おそらく1%適用時のパフォーマンス差 ≠ 100%適用時のパフォーマンスの差 ◦ また,導入開始時点でNewモデルの落札データは存在しないという問題もある • 比較的良い方法 ◦ 1%:1%のPre-MPRフェーズではリスクサイドのみに注目する ◦ 50%:50%のMPRフェーズでNewモデルの評価を行う • 落札バイアス自体を補正する方法 ◦ 傾向スコアやDomain Adaptationを用いる(Zhang 2016),(谷口 2019). 42
  22. DXによって行政のRCT利用がどう変わるか? • DXによってRCTを実施できる機会が増える ◦ 重要になるのは,「RCTによって何が改善されたか」 ▪ RCTそのものやその分析が最上位の優先順位ではない ◦ RCTをうまく活用して,行政の現状を大きく改善できる専門家が求められる ◦

    2章で紹介した技術を使う必要性も出てくる • DXによって機械学習の導入やそのRCTを実施する機会が増える ◦ DXによって大量のデータが貯まる仕組みができることやAI技術への注目が背景に ◦ 3章で紹介したような機械学習のRCT特有の問題に直面する 44
  23. 参考文献 • [Kohavi et al. 2020] Kohavi, R., Tang, D.,

    & Xu, Y. (2020). Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press. • [Xu et al. 2018] Xu, Y., Duan, W., & Huang, S. (2018). SQR: balancing speed, quality and risk in online experiments. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp. 895-904). • [Xu et al. 2015] Xu, Y., Chen, N., Fernandez, A., Sinno, O., & Bhasin, A. (2015). From infrastructure to culture: A/B testing challenges in large scale social networks. In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 2227-2236). • [Zhang et al. 2016] Zhang, W., Zhou, T., Wang, J., & Xu, J. (2016). Bid-aware gradient descent for unbiased learning with censored data in display advertising. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 665-674). • [谷口 et al. 2019] 谷口和輝・安井翔太(2019)『Domain Adaptation Neural Networkを用いた広告クリック予 測』,人工知能学会全国大会論文集 (pp. 4O2J202-4O2J202). 46