Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OR学会2024秋_短期収益と将来のオフ方策評価性能を考慮したクーポン割当方策混合比の決定
Search
Recruit
PRO
September 09, 2024
Technology
5
750
OR学会2024秋_短期収益と将来のオフ方策評価性能を考慮したクーポン割当方策混合比の決定
2024/09/10-11に、オペレーションズ・リサーチ学会2024年秋季研究発表会で発表した、西村の資料です。
Recruit
PRO
September 09, 2024
Tweet
Share
More Decks by Recruit
See All by Recruit
Azure Functions HTTPトリガーにおけるタイムアウトでハマったこと
recruitengineers
PRO
2
150
実務につなげる数理最適化
recruitengineers
PRO
6
690
うちにも入れたいDatadog
recruitengineers
PRO
2
370
リクルートのデータ基盤 Crois 年3倍成長!1日40,000コンテナの実行を支える AWS 活用とプラットフォームエンジニアリング
recruitengineers
PRO
2
330
Splunk Enterpriseで S3のデータを直接検索してみた!
recruitengineers
PRO
2
150
Looker APIを使い倒す ユーザーフィードバックを基にした継続的改善サイクル
recruitengineers
PRO
3
57
Kaggleふりかえり会〜LLM 20 Questions & ISIC 2024
recruitengineers
PRO
2
230
Balancing Revenue Goals and Off-Policy Evaluation Performance in Coupon Allocation
recruitengineers
PRO
2
51
Flutterによる 効率的なAndroid・iOS・Webアプリケーション開発の事例
recruitengineers
PRO
0
390
Other Decks in Technology
See All in Technology
権威ドキュメントで振り返る2024 #年忘れセキュリティ2024
hirotomotaguchi
2
730
podman_update_2024-12
orimanabu
1
260
社外コミュニティで学び社内に活かす共に学ぶプロジェクトの実践/backlogworld2024
nishiuma
0
250
Oracle Cloudの生成AIサービスって実際どこまで使えるの? エンジニア目線で試してみた
minorun365
PRO
4
270
10分で学ぶKubernetesコンテナセキュリティ/10min-k8s-container-sec
mochizuki875
3
320
【re:Invent 2024 アプデ】 Prompt Routing の紹介
champ
0
140
Password-less Journey - パスキーへの移行を見据えたユーザーの準備 @ AXIES 2024
ritou
3
1.4k
ガバメントクラウドのセキュリティ対策事例について
fujisawaryohei
0
520
watsonx.ai Dojo #5 ファインチューニングとInstructLAB
oniak3ibm
PRO
0
160
AIのコンプラは何故しんどい?
shujisado
1
190
Oracle Cloud Infrastructure:2024年12月度サービス・アップデート
oracle4engineer
PRO
0
160
2024年にチャレンジしたことを振り返るぞ
mitchan
0
130
Featured
See All Featured
Practical Orchestrator
shlominoach
186
10k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Build The Right Thing And Hit Your Dates
maggiecrowley
33
2.4k
We Have a Design System, Now What?
morganepeng
51
7.3k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
111
49k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
127
18k
Navigating Team Friction
lara
183
15k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
810
Documentation Writing (for coders)
carmenintech
66
4.5k
For a Future-Friendly Web
brad_frost
175
9.4k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
169
50k
Bash Introduction
62gerente
608
210k
Transcript
© Recruit Co., Ltd. All Rights Reserved 短期収益と将来のオフ方策評価性能を 考慮したクーポン割当方策混合比の決定 株式会社リクルート
西村 直樹* 東京工業大学 小林 健 東京工業大学 中田 和秀 オペレーションズ・リサーチ学会 2024年秋季研究発表会 2024年9月10、11日 @ 南山大学
© Recruit Co., Ltd. All Rights Reserved 発表の構成 • 背景と研究目的
• オフ方策評価(OPE)の既存手法 • 提案手法 • 数値実験 • まとめと課題 2
© Recruit Co., Ltd. All Rights Reserved 背景 • クーポン施策の目的
◦ サービスに対する顧客行動を促し事業収益を増加させる • クーポン施策におけるモデル開発の流れ ◦ 初期:ルールベースや一様ランダムなどによる割当でデータ収集 ◦ 中期:収集したデータをもとにモデル学習し、初期より効果改善 するかオフ方策評価・オンラインテストにより確認 ◦ 後期:モデル運用により収集されたデータをもとに、さらなる モデル改善を試みる データ収集 (ルールベースや 一様ランダムなど) モデル学習 オフ方策評価 (オフラインテスト) オンラインテストパターン ごとの混合比決定 オンラインテスト データ収集 3
© Recruit Co., Ltd. All Rights Reserved データ活用の取り組み:モデル学習 • よい性能を達成するためのモデル学習
→ モデル性能向上は収益増加に直結するため盛んに取り組まれている ◦ 定額のインセンティブ付与における予算制約を考慮したアップリフトモデリング, 松井諒生, 吉住宗朔, 西村直樹, 小林健, 中田和秀, OR学会2023年春季研究発表会 ◦ 長期報酬に対する逐次的オフ方策学習, 池田春之介, 吉住宗朔, 西村直樹, 齋藤優太, OR学会2024年春季研究発表会 データ収集 (ルールベースや 一様ランダムなど) モデル学習 オフ方策評価 (オフラインテスト) オンラインテストパターン ごとの混合比決定 オンラインテスト データ収集 4
© Recruit Co., Ltd. All Rights Reserved データ活用の取り組み:オフ方策評価とオンラインテストパターンごとの混合比の決定 • オフ方策評価とオンラインテストパターンごとの混合比の決定
→ モデル学習に比べて取り組みは少ないが適切な決定による収益改善白地が大きいのでは • クーポン施策でオンラインテストする方策の組合せの例 ◦ モデルに基づく割当方策 ▪ 過去の最良のモデルにより割当する顧客群 ◦ ランダム割当方策 ▪ モデルの効果を評価するためにランダムに割当する顧客群 データ収集 (ルールベースや 一様ランダムなど) モデル学習 オフ方策評価 (オフラインテスト) オンラインテストパターン ごとの混合比決定 オンラインテスト データ収集 5
© Recruit Co., Ltd. All Rights Reserved 混合比の決定にあたりランダム割当方策を増加させることの利点・欠点 モデルに基づく割当 ランダム割当
モデルによる 割当優先度 クーポン割当顧客 クーポン非割当顧客 6 利点:将来のモデル改善のためのデータ収集 • ランダム割当が存在しないと、特定の 顧客群のみに偏った割当がされる • 将来のモデル改善のために、顧客全体の データ収集が可能に 欠点:データ収集期間中の短期の収益を毀損 • モデルに基づく割当とランダム割当の性能差が大 きいほど短期の収益を毀損
© Recruit Co., Ltd. All Rights Reserved 本研究の目的 モデルに基づく割当 ランダム割当
7 短期の収益と将来のモデル改善のための データ収集のトレードオフを考慮して 方策混合比を定量的に決定したい モデルによる 割当優先度 クーポン割当顧客 クーポン非割当顧客 利点:将来のモデル改善のためのデータ収集 • ランダム割当が存在しないと、特定の 顧客群のみに偏った割当がされる • 将来のモデル改善のために、顧客全体の データ収集が可能に 欠点:データ収集期間中の短期の収益を毀損 • モデルに基づく割当とランダム割当の性能差が大 きいほど短期の収益を毀損
© Recruit Co., Ltd. All Rights Reserved 発表の構成 • 背景と研究目的
• オフ方策評価(OPE)の既存手法 • 提案手法 • 数値実験 • まとめと課題 8
© Recruit Co., Ltd. All Rights Reserved OPEの既存手法 (1/3):素朴な評価方策の推定量 OPE:
過去のログデータをもとに新しい方策 (評価方策) の意思決定の性能を評価 素朴な方策 の推定量:方策 により 選択された行動 がデータ収集方策に 選択された行動 と一致した部分の 報酬 の平均 データ収集方策で選択される可能性の 高い行動に偏った評価をしてしまう データ収集方策での クーポン割当顧客 クーポン非割当顧客 9 データ収集方策で 選択されやすい顧客に 評価方策でも割当 評価方策 での クーポン割当顧客 データ収集方策で選択 されずらい顧客に評価 方策で割当されない
© Recruit Co., Ltd. All Rights Reserved OPEの既存手法 (2/3):Inverse propensity
score (IPS) 推定量 (1/2) IPS推定量: データ収集方策による選択確率 の逆数で、評価方策での行動確率 に重み付けした報酬の平均 評価方策がデータ収集方策で選択される 行動確率 が0でない → 不偏な推定量となる データ収集方策で 選択されやすい行動は 重みを減らす データ収集方策で 選択されずらい行動は 重みを増やす 10 データ収集方策での クーポン割当顧客 クーポン非割当顧客 評価方策 での クーポン割当顧客
© Recruit Co., Ltd. All Rights Reserved OPEの既存手法 (2/3):Inverse propensity
score (IPS) 推定量 (2/2) 実務上は運用単純化のため優先度の 高い順に決定的に割当することも多い 決定的方策に基づくデータ収集方策で 選択確率 が0になりうる → 不偏推定量でなくなりOPE性能※が悪化 ※バイアスとバリアンスで表される推定誤差 データ収集方策にて 確率0だった行動は 重みが計算できない 11 データ収集方策での クーポン割当顧客 クーポン非割当顧客 評価方策 での クーポン割当顧客
© Recruit Co., Ltd. All Rights Reserved OPEの既存手法 (3/3):Balanced inverse
propensity score (BIPS) 推定量 BIPS推定量: 複数のデータ収集方策の 平均化方策をもとに重み付け モデル割当方策π 1 混合比α 1 ランダム割当π 2 混合比α 2 複数のデータ収集方策のいずれかで評価方策の 選択する行動確率が0でない → 不偏推定量 決定的なモデル割当方策と確率的なランダム割当 方策を混合することでOPE性能が向上 ランダム割当方策と混合 することでモデル割当方策 に依らずデータ収集方策 の選択確率が正に 12 データ収集方策での クーポン割当顧客 クーポン非割当顧客 評価方策 での クーポン割当顧客
© Recruit Co., Ltd. All Rights Reserved 本研究の位置づけ BIPS推定量により、データ収集方策の混合比を 定めたもとでのOPE性能が定量評価が可能
実務での混合比の決定はOPE性能だけでなく 収益とのトレードオフをもとに意思決定される 本研究 収益指標とOPE性能指標の2目的最適化問題として 定式化することで定量的な混合比の決定を可能に 13 モデル割当方策π 1 混合比α 1 ランダム割当π 2 混合比α 2 データ収集方策での クーポン割当顧客 クーポン非割当顧客 評価方策 での クーポン割当顧客
© Recruit Co., Ltd. All Rights Reserved 発表の構成 • 背景と研究目的
• オフ方策評価(OPE)の既存手法 • 提案手法 • 数値実験 • まとめと課題 14
© Recruit Co., Ltd. All Rights Reserved 収益指標とOPE性能指標 収益指標: データ収集方策の収益指標として
は オンラインテストで対象母集団に対して実際に割り当て して得られた結果のため不偏推定量に OPE性能指標: 実践的には評価方策の真値と推定量の誤差は算出できない ログデータからの復元抽出に基づき算出したBIPS推定量の 分散や標準偏差などのばらつきを用いてバリアンス部分を評価 モデル割当方策π 1 混合比α 1 ランダム割当π 2 混合比α 2 15 評価方策 での クーポン割当顧客 データ収集方策での クーポン割当顧客 クーポン非割当顧客
© Recruit Co., Ltd. All Rights Reserved 収益指標とOPE性能指標のトレードオフを考慮した2目的最適化問題の定式化 収益指標 OPE性能指標
混合比の和が1 混合比は0以上1以下 データ収集方策数が2つの場合 → グリッドサーチなどで評価が可能 データ収集方策数が3つ以上存在する場合 → ブラックボックス最適化ソルバーを用いて 近似パレート解集合を計算 方策π 1 方策π 2 方策π 3 16 評価方策 での クーポン割当顧客 データ収集方策での クーポン割当顧客 クーポン非割当顧客
© Recruit Co., Ltd. All Rights Reserved 発表の構成 • 背景と研究目的
• オフ方策評価(OPE)の既存手法 • 提案手法 • 数値実験 • まとめと課題 17
© Recruit Co., Ltd. All Rights Reserved • 実験目的:提案手法により方策混合比ごとの収益、OPE性能を定量評価できるか確認 •
データ生成:顧客 (10,000件) にクーポンを割当、非割当としたときの収益を以下の設定で生成 ◦ 4次元の特徴量をもつ顧客データを生成 クーポン非割当の収益 クーポン割当の収益 • データ収集方策 ◦ (1)ランダム方策: の確率で割当 ◦ (2)決定的方策: で割当 ◦ (3)決定的方策: で割当 └ 収益とそれぞれ正の相関 • 評価指標 ◦ 収益指標 :各混合比でのデータ収集方策の収益の合計 ◦ OPE性能指標 :各混合比でのBIPSによる推定値と真値の2乗誤差 • 最適化ソフトウェア ◦ Optuna v3.6.0 NSGA-II アルゴリズムを利用(試行数1,000) 数値実験:人工データの設定 • 評価方策 ◦ (1)確率的方策:データ収集方策と正の相関 で0.8、 で0.2の確率で割当 ◦ (2)確率的方策:データ収集方策と負の相関 で0.8、 で0.2の確率で割当 18
© Recruit Co., Ltd. All Rights Reserved 数値実験:人工データの実験結果(方策混合比のパレートフロント) • 収益:ランダム方策の混合比が大きくなるほど収益低下
• OPE性能:ランダム方策の混合比が大きくなるほど性能向上 • データ収集方策と評価方策の近さの影響:評価方策がデータ収集方策と近い (相関が強い)場合はランダム方策の混合比が小さくてもOPEの性能がよい OPE性能指標(誤差) OPE性能指標(誤差) 収 益 指 標 収 益 指 標 データ収集方策と正の相関の評価方策 データ収集方策と負の相関の評価方策 ラ ン ダ ム 方 策 混 合 比 19 左上ほど良 ランダム 方策混合比 ラ ン ダ ム 方 策 混 合 比
© Recruit Co., Ltd. All Rights Reserved • 実験目的:実データでも方策混合比ごとの収益、OPE性能を定量評価できるか確認 •
利用データ:ホットペッパーグルメでのある月のポイント割当履歴とその後の予約履歴 • データ収集方策:ユーザを事前に以下の2つのいずれかの方策の対象者として割当 ◦ (1) ランダム方策:ユーザ特徴量に依存せず一定確率でポイント割当 ◦ (2) 決定的方策:ユーザ特徴量に基づいて機械学習モデルに基づくポイント割当 • 評価方策 ◦ データ収集方策とは異なる機械学習モデルに基づく決定的方策 • 評価指標 ◦ 収益指標:データ収集方策の費用あたり予約数 ◦ OPE性能指標:復元抽出して算出したBIPSの収益推定値の標準偏差 • データ収集方策のサンプルサイズ ◦ あるサンプルサイズを基準に (1) と (2) ともに1%、100%で復元抽出 → サンプルサイズの違いよる結果の差異を検証 • データ収集方策の混合比の決定:グリッドサーチにて決定 数値実験:実データの設定 20
© Recruit Co., Ltd. All Rights Reserved • 収益とOPE性能:ランダム方策の混合比が増えるほどOPE性能は向上するが収益は減 •
サンプルサイズ:同じランダム方策の混合比でもサンプルサイズは大きいほどOPE性能は向上、 今回は費用一定のもとで検証としたため母集団が大きいほど収益増 • 意思決定の例:評価方策と過去の最良方策の性能差を考慮しつつ、評価結果のばらつきが 性能差よりも小さくなりつつ、最も収益が得られるように方策の混合比を決定 → 性能差が小さい場合には、ランダム方策混合比を増やし信頼性を高める 数値実験:実データの実験結果(方策混合比のパレートフロント) 収 益 指 標 収 益 指 標 データ収集方策のサンプルサイズ1% データ収集方策のサンプルサイズ100% ※縦軸、横軸はランダム方策100%を1とした値にそれぞれスケーリング 21 左上ほど良 OPE性能指標(標準偏差) OPE性能指標(標準偏差) ランダム 方策混合比 決定的方策は混合比が減り 費用が少なくなるほど費用対 効果が増加するため収益指標 は線形には減らない
© Recruit Co., Ltd. All Rights Reserved 発表の構成 • 背景と研究目的
• オフ方策評価(OPE)の既存手法 • 提案手法 • 数値実験 • まとめと課題 22
© Recruit Co., Ltd. All Rights Reserved まとめと今後の課題 • まとめ
◦ クーポン割当における短期の収益と将来のOPE性能のトレードオフを調整 する問題を、複数方策間の混合比を決定する2目的最適化問題として定式化 ◦ 2目的最適化問題のパレート最適解を用いた混合比決定法について実証 • 今後の課題 ◦ BIPSよりも高度なOPE手法の適用 ◦ クーポン割当以外の方策の探索と活用のトレードオフが存在する課題へ適用 • 詳細 ◦ Naoki Nishimura, Kobayashi Ken, and Nakata Kazuhide. Balancing immediate revenue and future off-policy evaluation in coupon allocation. arXiv preprint arXiv:2407.11039, 2024. (PRICAI2024 採択済み) 23