Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Ad-DS Paper Circle #5

Yusuke Kaneko
March 30, 2025
1.6k

Ad-DS Paper Circle #5

広告輪読会第五回スライド

Yusuke Kaneko

March 30, 2025
Tweet

Transcript

  1. Budget Constrained Bidding by Model-free Reinforcement 
 Learning in Display

    Advertising 
 
 アドテクDS勉強会 第5回 
 AI事業本部アプリ運用カンパニー
 石原 佳明 / Ishihara Yoshiaki

  2. イントロダクション 
 ディスプレイ広告
 • 2017年上半期で176億ドルの市場規模 
 • RTBにおける予算制約下でのKPI最大化を目指した入札アルゴリズムが発展 
 ◦

    セカンドプライスオークションでは最適入札がv/λ の形式をとる 
 (v: インプレッション価値, λ: スケーリングパラメータ) 
 
 セカンドプライスオークションにおける難しさ 
 多数の異質な入札者が同じ広告機会を争うため 市場が極めて動的で最適なλの取得が困難
 3
  3. 既存のアプローチ 
 予算制約付き入札問題を解決する既存の研究は大きく2つのカテゴリーに分けられる 
 
 1. 最適入札式を活用しλを動的に調整 
 a. ex.

    λ= f(予算) の形式で予算消化速度を調整の指標として使用(FLB、BSLB) 
 b. 🧩 最適な予算消化速度を決定する方法は依然として未解決 
 2. オークションプロセスをマルコフ決定過程(MDP)として定式化 
 a. ex. 強化学習(RL)アルゴリズムを使用した予算制約付き入札(RLB) 
 b. 🚧 モデルベースのRLアプローチは、計算コストが高すぎるという課題 
 4
  4. 提案: Deep Reinforcement Learning to Bid (DRLB) 
 モデルフリー強化学習を活用した新しい予算制約付き入札手法を提案 


    
 提案手法が解決する課題 
 • 提案1: RewardNet
 ◦ 解決したい課題: 即時報酬ではエージェントが簡単に局所最適解に収束してしまう 
 ◦ 提案: 長期的報酬を考慮した新しい報酬を設計し予測 
 • 提案2: Adaptive ϵ-greedy Policy
 ◦ 解決したい課題: 減衰率が高すぎる場合における探索不足 
 ◦ 提案: (状態, アクション値)のQ値の分布に基づき、探索確率を動的に調整 
 5
  5. Background: 予算制約付き入札 
 予算制約付き入札の目標 
 xはインプしたか、vはインプごとの価値を表現 
 
 
 


    
 
 セカンドプライスオークションでの最適入札戦略 
 λはスケーリングパラメータ
 リアルタイムかつ非定常な環境では最適なλを得ることが困難 
 
 
 
 
 6
  6. Background: 強化学習と制約付きマルコフ決定過程 
 エージェントが環境と相互作用する 
 順次アクションと結果の観察を繰り返し累積報酬の最大化を目指す 
 
 マルコフ決定過程(Markov Decision

    Process, MDP)としてモデル化されることが多く 
 コストCの制約条件下で割引報酬関数Rを最大化させるような最適ポリシーπを学習する 
 
 
 
 
 
 
 
 7
  7. Adaptive ϵ-greedy Policy 
 解決したい課題: 適切な減衰速度が困難 
 非定常な環境において固定の原則速度で収束するような値設定を行うことが難しい 
 


    Q値の分布に合わせた探索確率の動的変化 
 分布が異常(多峰性やランダム性)なら探索確率を一時的に増加 
 
 10 Figure 2: Distribution examples of action-value Q during training. (a) Normal distribution. (b) Abnormal distribution. 
 (a)
 (b)
 ✍各ステップで最適なλが保証されているため
 収束していればを単峰性であると仮定している

  8. 深層強化学習による入札(DRLB) 
 前述の設計を組み合わせてDeep Reinforcement Learning to Bid(DRLB)を構築 
 1. Adaptive

    ϵ-greedy Policyを用いて状態sからアクションaを選択しλを計算 
 2. 1.で得られたλを用いて入札額を決定 
 3. 入札結果から報酬と次の状態を取得し1.に戻る 
 🤖 状態-アクションに基づく累積報酬は深層学習で予測(RewardNet) 
 11 Figure 3: Illustration of Deep Reinforcement Learning to Bid. 

  9. 実験設定
 使用データと評価指標 
 • Dataset A: 実世界のeコマース広告ログ(10日間、20億インプレッション) 
 ◦ 累積予測CTR


    • Dataset B: iPinYouデータセット
 ◦ 実際のクリック数
 比較手法
 • Fixed Linear Bidding (FLB)
 ◦ 固定されたλを使用して線形的に入札 
 • Budget Smoothed Linear Bidding (BSLB) 
 ◦ 予算消化率を考慮して動的にλを調整 
 • Reinforcement Learning to Bid (RLB) 
 ◦ オークションプロセスをMDPとして形式化したモデルベースRL 
 12
  10. 実験結果: 即時報酬関数との収束比較 
 RewardNetとImmediate Reward(即時報酬)を使用した2つのモデルで収束挙動を比較 
 (a): RewardNetは短いステップで最適な報酬付近(R/R^* = 0.893)に収束

    
 (b): 即時報酬が前半で予算を使い果たすがRewardNetでは継続して報酬獲得 
 
 16 Figure 4: Comparison between RewardNet and immediate R/R∗ reward. (a) The R/R∗ of two models over steps. 
 (b) Reward distribution of two models along with the ideal one in an episode. display adverti 
 (a)
 (b)

  11. 実験結果: Adaptive ε- Greedy Policyの有効性 
 2つの異なるεの減衰率で通常のε- Greedy Policyと比較 


    減衰率が高い設定ほど提案手法と通常の収束率で差が大きくなった 
 
 
 17 Figure 5: Performance of adaptive ϵ-greedy and original ϵ- greedy. (a) rϵ=2e-5. (b) rϵ=1e-5.
 (a)
 (b)

  12. まとめ
 貢献
 • 予算制約付き入札問題を線形入札方程式に基づく λ制御問題 として再定式化 
 • 即時報酬の代わりに RewardNet

    を設計し、長期的な目標に適した報酬を生成 
 • Adaptive ε- Greedy Policyを導入し、探索不足を緩和 
 
 成果
 • 提案モデルは迅速に収束し、既存の入札手法を大幅に上回る性能を実現 
 • RewardNetの汎用性により、他の長期的最適化問題への応用も期待できる。 
 
 18
  13. 実験設定
 1. ネットワーク構造:
 a. 状態-アクション値関数 Q とRewardNet: 
 i. 構造:

    全結合ニューラルネットワーク、3隠れ層、各層100ノード。 
 2. ハイパーパラメータ設定: 
 a. ミニバッチサイズ: 32 
 b. リプレイメモリサイズ: 100,000 
 3. λ調整率:
 a. 候補: -8%、-3%、-1%、0%、1%、3%、8% 
 4. ε -greedyポリシー: 
 a. 初期値: 0.9
 b. 最終値: 0.05
 c. 減衰式: ε = max(0.95 - r_ε* t, 0.05) 
 d. 適応型ポリシー:
 i. アクション値分布が単峰型でない場合: \epsilon = \max(\epsilon, 0.5) 
 5. 学習設定:
 a. ターゲットネットワークの更新: C = 100 ステップごとにθを更新 
 b. 学習率: 0.001
 c. モーメント: 0.95
 22
  14. 関連研究と課題 
 関連研究の概要
 • 静的手法: 固定スケールでの入札調整(例: FLB、BSLB) 
 • モデルベース強化学習

    (例: RLB) 
 
 問題点
 • 静的手法: 環境の動的変化に対応できない 
 • モデルベース: 状態遷移をモデル化する必要があり計算コストが高い 
 
 
 24