Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Tech企業におけるA/B test
Search
Shota Yasui
May 16, 2020
Science
4
830
Tech企業におけるA/B test
日本評価学会社会実験分科会 2020 年研究報告会にて行われた発表です。
Shota Yasui
May 16, 2020
Tweet
Share
More Decks by Shota Yasui
See All by Shota Yasui
事業の役に立つ 「因果推論」
housecat442
4
1.7k
効果検証入門から見直す 「データサイエンス」
housecat442
38
15k
機械学習を用いた自動的な意思決定と反実仮想
housecat442
4
3.9k
バンディットと因果推論
housecat442
14
7.9k
Other Decks in Science
See All in Science
(2024) Livres, Femmes et Math
mansuy
0
110
マクロ経済学の視点で、財政健全化は必要か
ryo18cm
1
110
深層学習を利用して 大豆の外部欠陥を判別した研究事例の紹介
kentaitakura
0
250
拡散モデルの概要 −§2. スコアベースモデルについて−
nearme_tech
PRO
0
710
2024-06-16-pydata_london
sofievl
0
550
Pericarditis Comic
camkdraws
0
1.5k
Introduction to Graph Neural Networks
joisino
PRO
4
3.6k
重複排除・高速バックアップ・ランサムウェア対策 三拍子そろったExaGrid × Veeam連携セミナー
climbteam
0
140
科学で迫る勝敗の法則(名城大学公開講座.2024年10月) / The principle of victory discovered by science (Open lecture in Meijo Univ. 2024)
konakalab
0
230
機械学習を支える連続最適化
nearme_tech
PRO
1
190
LIMEを用いた判断根拠の可視化
kentaitakura
0
380
240510 COGNAC LabChat
kazh
0
160
Featured
See All Featured
StorybookのUI Testing Handbookを読んだ
zakiyama
28
5.4k
The Invisible Side of Design
smashingmag
299
50k
A designer walks into a library…
pauljervisheath
205
24k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
365
25k
Site-Speed That Sticks
csswizardry
2
200
Into the Great Unknown - MozCon
thekraken
34
1.5k
Fireside Chat
paigeccino
34
3.1k
Docker and Python
trallard
42
3.2k
The World Runs on Bad Software
bkeepers
PRO
66
11k
Building Applications with DynamoDB
mza
91
6.1k
Speed Design
sergeychernyshev
25
690
Transcript
Tech企業における A/B test(公開用) 2020/5/16 @日本評価学会社会実験分科会 Shota Yasui
自己紹介 名前:安井翔太(32) 職業:Economic Research Scientist web: https://yasui-salmon.github.io/ 経歴: 2011年 立教大学
経済学部卒業 2013年 Norwegian School of Economics MSc in Economics 2013年 Cyberagent 入社(総合職, 微妙な分析の量産) 2015年 アドテク部門へ異動(専門職, MLの応用) 2017年 AILabへ異動(研究職, ML + CI回りの応用) 良く使う言語: R, SQL, Python 2
Tech企業とA/Bテスト 3
テック企業とABテスト 4
テック企業で行われるABの量 5 +1000 test /day +200 test /day +??? test
/day
学会もある 6 Conference on Digital Experiment( Link)
Computer Scienceでの研究も盛ん 7 • sequential experiment • efficient adaptive
experiment • best arm identification
なぜそんなにABテストしているか? 8 長期的な利益につながるから
テック企業におけるRCT(A/Bテスト)の現実 9 一部のグローバルトップ企業 その他弱小ローカルテック企業
テック企業のABテストの考え方はこれ読むべき 10 Ron kohavi テック企業でABテスト文化を作り上げた人 Computer Scienceのトップ会議でABテストのチュートリ アルや研究発表を続けて啓蒙活動を行ってきた人。
CyberAgentでのA/Bテスト 11
ABテストの基本的なプロセス 12 logging 分析 ランダムにアサイン Treatment ランダムにアサイン Control 意思決定
CAでどんな実験をしているか? 13 例:広告画像のABテスト • どちらの画像の方がクリックされやすいだろうか? • 数十~百程度のABテストが回っている
• 広告画像を作るクリエイターや営業の人が実施する
ABテストが始まるまでの流れ 14 バナーを作成 クリエイター エンジニア ABテストの依頼 クリエイター 結果の分析
CAでどんな実験をしているか? 15 例:広告の配信アルゴリズムのABテスト • どちらのアルゴリズムの方が売上に貢献するだろうか? • 月10回程度
ABテストが始まるまでの流れ 16 データサイエンティスト エンジニア データサイエンティスト ABテストの依頼 若しくは自分で実装 データサイエンティスト 結果の分析 1%
vs 99% でスタート 結果が良ければ割り振り を増やす
社会科学的な設定と異なる点 17 • 意思決定者=分析者 ◦ クリエイターがABを依頼して、自分で結果を見る。 ◦ データサイエンティストがABを始め、自分で結果をみる。 • 分析と意思決定のサイクルが短い
◦ 通常業務に加え、大量の分析と意思決定の日々。 • 検証したい介入の種類が多い ◦ 改善しうるものはなんでも試したい
ここから生まれる需要 18 • 分析として正しい < 意思決定として正しい ◦ 最後の意思決定の質が重要 • 自動化の重要性 ◦ 実験が多くなるとより面倒に・・・
• 複雑な設定の実験を簡素にする ◦ より多くの設定で実験を使える状態にしたい →これにこたえたい
より効率的な意思決定の導入 19
意思決定する立場になると・・・ 20 分析における 検出力の最大化? 意思決定における Regretの最小化? 一体どちらがゴールなのか? 最適な選択との乖離=Regret
考えるお題 あるユーザーに対してどちらの広告テンプレートを見せるべきか? 21 slot_1 slot_2 slot_3 slot_1 slot _2
template_id: 26 template_id: 75
Regretという観点で実験を考え直す 1. トータルで1000万回広告を表示する 2. より多くのクリックを集めたい 3. 最初の200万回でABテストを行う 4. 良かった選択肢を選び続ける
実験では最適な選択との乖離が出来る=Regret →ビジネスにおける損失 22
Regretという観点で実験を考え直す 1. トータルで1000万回広告を表示する 2. より多くのクリックを集めたい 3. 最初の200万回でABテストを行う←ここに無駄がある 4. 良かった選択肢を選び続ける
実験では最適な選択との乖離が出来る=Regret →ビジネスにおける損失 23
Adaptiveな実験としてのバンディット あるユーザーに対してどちらの広告テンプレートを見せるべきか? →クリックがより起きそうな方を都度選ぶべき (クリックを増やしたいなら 24 slot_1 slot_2 slot_3 slot_1 slot
_2 template_id: 26 template_id: 75
Thompson Sampling MAB 25 model for 26 model for 75
ベータ分布 α:5 β:35 ベータ分布 α:3 β:12 0.2 0.4 sampling sampling arg max slot_1 slot _2 template_id: 75 clickされたらα=α+1 clickされなければβ=β+1 と更新する
Adaptiveな実験としてのバンディット あるユーザーに対してどちらの広告テンプレートを見せるべきか? →クリックがより起きそうな方を選ぶべき(クリックを増やしたいなら →機械学習で予測して、予測値が大き方を選べば良いのでは? 26 slot_1 slot_2 slot_3 slot_1 slot
_2 template_id: 26 template_id: 75
Thompson Sampling Contextual Bandit 27 model for 26 model for
75 特徴量xから予測する(ex. logistic regression y = f(x) 特徴量xから予測する y = g(x) 0.2 0.4 sampling sampling arg max slot_1 slot _2 template_id: 75 yを観測したらf or gを更新 都度更新ではなく1日1回のケースも 男性には26だけど女性には75が良いといった傾向が汲み取れる
Thompson Sampling Contextual Bandit 28 model for 26 model for
75 特徴量xから予測する y = f(x) 特徴量xから予測する y = g(x) 0.2 0.4 sampling sampling arg max slot_1 slot _2 template_id: 75 yを観測したらf or gを更新 都度更新ではなく1日1回のケースも Policy 男性には26だけど女性には75が良いといった傾向が汲み取れる
バンディットの利点 29 • Regretが一定のバウンドに収まる ◦ 意思決定の質がある程度担保される • 分析→意思決定のフローが自動 ◦
意思決定者としては楽 ◦ ちゃんと動作しているか?という運用コストが発生 ◦ この辺りはデータサイエンティストが頑張る?
バンディットのログから 評価を行う 30
分析・評価の必要性 • 広告主に対するレポート ◦ 次にどんな広告画像を作るべきなのか? ◦ 配信した広告画像は何が良かったのか? • バンディットの操作には分析が必要
◦ バンディットの選択肢を増減させたい ◦ 今ある選択肢の中でいらないものはどれか? →効果の推定が必要になる 31
バンディットフィードバック • Thompson Samplingの特徴 ◦ ある確率にしたがって腕を選択する=ABテスト ◦ X毎に選択確率が異なる=X毎に異なる確率でAB • 因果推論からの観点
◦ 腕の選択確率=真の傾向スコア ◦ Xは全て既知 →IPWで因果効果が推定できる状況 32
Biased Result • template_id毎にCTRを計算する • template_id:26のCTRが高そう →Biasを含んだ結果 営業や事業責任者の方が見るデータ 33 26以外いら
ないね!!
IPW result • バイアスがある程度減っているはず。 • 26がよかったというのは幻想だった。 • CTRはどれも大差ないという結果。 34
ATEベースで意思決定して良いのか? 35
Heterogeneity • interstitial ◦ 1: 全画面で見せる ◦ 0: 記事の中で見せる •
interstitial=0では26が良い • interstitial=1では75が良い 36 • ATEで悪くとも、あるXでは良い腕も存在しているかもしれない。 • ATEにしたがった意思決定をしても、改善出来ない可能性がある。
複雑な状況での効果検証 37
広告オークションにおける機械学習の役割 38 X 何かしらの 機械学習モデル 予測値を元に 入札額を計算 入札 落札費用 購買
• オークションで落札すると広告が表示出来る • 落札するとコストが発生する • 広告をクリックして物が買われると嬉しい →機械学習は購買確率やクリック確率を予測している
機械学習のABテスト 39 39 X 何かしらの 機械学習モデル 予測値を元に 入札額を計算 入札 落札費用
購買 ランダムに選んだユーザーに 別のモデルを使う
何が難しいか? • 費用の側面と収益の側面がある ◦ 薬であれば効果と副作用? • どの様に意思決定すればよいか? ◦ 収益と費用が同じ単位ではない場合が多い ▪
収益 vs ユーザー体験など ◦ 収益も増えるけど、費用も増えるモデルは良いモデルなのか? →実験が出来ても意思決定が難しい 40
取り敢えずの対処 • 以下の結果以外では結論が出る ◦ 費用が変わらないけど、収益が増える。 ◦ 収益が変わらないけど、費用が減る。 • 何かしらの重みを決めてスコアを出す
◦ Overall Evaluation Criteria(OEC)と呼ばれるもの ▪ Google, Amazon, Microsoft, etcはOECを決めるチームが存在する ◦ スコアに差があれば結論を出す 41
42 Yasui, Shota, Gota Morishita, Komei Fujita, Masashi Shibata. “A
Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedback.” The Web Conference (WWW), Taipei, Apr. 2020 ある実験結果 • 機械学習におけるデータのバイアスを除去してABテスト • CPA: 購買を1件獲得するあたりの平均コスト • Cost: 広告費用 →平均コストは有意な差が無いが、広告費用は有意に増加。 広告配信ビジネス的には嬉しい結果。
おしまい 43