Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Ad-DS Paper Circle #6

Yusuke Kaneko
March 30, 2025
1.5k

Ad-DS Paper Circle #6

広告輪読会第六回スライド

Yusuke Kaneko

March 30, 2025
Tweet

Transcript

  1. Real-Time Bidding with 
 Multi-Agent Reinforcement Learning in Display Advertising

    
 
 アドテクDS勉強会 第6回 
 AI事業本部 協業DX Div. モビリティカンパニー
 徳住 友稜 / Tokusumi Tomoro

  2. 自己紹介
 徳住 友稜 / Tomoro Tokusumi 
 
 所属:AI事業本部 協業DX

    Div. モビリティカンパニー ANAX局 
 職種:データサイエンティスト
 入社:2023年4月中途入社
 業務:配信DSPの入札ロジック設計や効果検証等 
 趣味:旅行✈、サウナ🧖
 
 2
  3. タイトル
 • Real-Time Bidding with Multi-Agent Reinforcement Learning in Display

    Advertising 
 著者
 • DSPをやっているJunqi Jinら (Alibabaグループ)とReinforcement Learning (RL) を専門としている Jun Wang (University College London), Weinan Zhang (上海交通大学) 
 題材
 • RTB
 • 複数の広告主や複数のキャンペーンが存在する環境下での入札最適化問題 
 結論
 • 競合をAgentとするMulti-Agent RLの問題としてBID最適化を定式化した 
 • clustering methodであるA practical Distributed Coordinated Multi-Agent Bidding (DCMAB) を提 案し、産業規模の実データでSingle-Agentの最適化手法と比較し、有効性を示した 
 論文紹介
 5
  4. TaoBao Display Ad System 
 • e-commerce system
 • RTBと同等な戦略をとっている


    ◦ 各ad (商品) がDSPに対応
 ◦ 予算に応じて応札可否を決定
 ◦ 各adごとにeCPMを算出しそれに 応じて掲載ad・請求額を決定 (2nd price オークション)
 ◦ CPC課金
 • 消費者、広告主、プラットフォーマー3者 の全体最適を目指している
 
 8
  5. 関連研究 (RTBにおけるBid最適化) 
 • 定常
 ◦ 線形アプローチ (Perlich et al.)


    ◦ 非線形アプローチ (Zhang et al.)
 • 非定常 (budget allocationを考慮する) 
 ◦ Single-Agent Reinforcement Learning 
 ▪ Markov Decision Process (Cai et al.), DQN (Wang et al.) 
 ▪ 欠点: 競合を環境の一部分として考慮するが1広告主のBID最適化に止まる 
 ◦ Pacing Algorithm
 ▪ 欠点: 競合の影響を顕にモデリングできていない 
 
 9
  6. 本研究の意義と新規性 
 • Multi-Agent Reinforcement Learning 
 ◦ 非定常なオークションを仮定 (budget

    allocationを考慮) 
 ◦ 複数広告主の全体最適化
 • Clustering method
 ◦ 大量な広告主 (agent) を考慮可能に 
 • 現実的な産業データを使った検証 
 ◦ TaoBao Ad Systemのデータ
 10
  7. MARLの設定 
 • state
 ◦ 全てのagentの (cost, revenue)
 • action


    ◦ a i : agent iのaction
 ◦ bratio k : impression-level feature
 ◦ bid k : ベースの入札額
 
 
 
 
 
 • reward
 ◦ revenue (予算制約あり)
 13
  8. MARLの設定 
 Critic (Q関数): すべてのagentのactionを入力する 
 
 
 
 deterministic

    policy gradientを採用 
 a i = μ i (s) : actor μ を導入する
 ここで、bidding actionがナッシュ均衡となる場合を考える。 
 
 
 
 
 
 上記の制約のもとで最適なμ (actor) を求める。 
 これを、alternative gradient descentアプローチで解いた。 
 14
  9. Agent Clusters 
 
 計算コスト削減のため、
 独立にclusterを形成させる
 • Merchants cluster 


    ◦ feature: revenue
 • Consumers cluster
 ◦ feature: revenue
 
 actionのみcluster単位
 
 ただし、clusterサイズは
 ハイパーパラメータ
 17
  10. 実験設定 (データセット) 
 TaoBao Display Ad Systemのデータセットを利用する 
 
 


    19 training data test data registered consumers 150,134 150,134 imp count 203,195 212,910 log num 1/20 uniformly sampled 1/20 uniformly sampled term 3 hours in 2018/01/10 3 hours in 2028/01/11 registered merchants 294,768 294,768
  11. 評価方法
 以下の、offline simulatorを用いる 
 1. 該当Episode内のオークションを改めて行う (actionの更新により入札額が変更) 
 2. 提案アルゴリズムにしたがってstate、actionを更新する

    
 a. 現実的なフィードバックは受け取れないので、以下の値を学習・評価に使う 
 i. expected CPC :=        where   
 ii. expected revenue := 
 3. 次のEpisodeに進む (1に戻る) 
 
 注: Episode Length
 • 1回/h
 • 本データセットは3時間分のデータなので上記のstateの遷移は3ステップ 
 21
  12. 比較手法
 以下の手法をベースラインとして比較する 
 • Manually Set Bids
 • Contextual Bandit


    ◦ 他のagentのactionを特徴量に加えた。主な相違点は時間に応じてbudgetのアロケーショ ンを最適化していないこと
 • Advantageous Actor-critic (A2C) 
 ◦ memory replayなし・on-policyのactor-criticアルゴリズム。critic function Qは他のagent のactionが入力されない 
 • DDPG
 ◦ memory replayあり・off-policyの学習アルゴリズム。critic function Qは他のagentのaction が入力されない 
 • (提案手法) DCMAB
 ◦ critic function Qは他のagentのactionが入力される 
 
 22
  13. 実験結果 (Hyperparameter Tuning) 
 23 2種類の報酬に対して、clusterサイズと評価指標 (total traffic revenue) の関係を調べた。

    
 • “Coord”: 各clusterの報酬はtotal traffic revenue 
 • “Self-Interest”: 各clusterの報酬はそのclusterのrevenue 
 
 
 
 
 
 
 実線: episodeごとの獲得報酬の平均値 
 色付け領域: episodeごとの獲得報酬の標準偏差 
 いずれの報酬に対して以下の理由で、 clusterサイズ=3が最適と判断した。
 - (a) total revenueが最大
 - (b) budgetが小さいagentでも高いtotal revenueを獲得 
 clusterサイズ=3の”Coord” rewardとManual Set Bidsの 比較

  14. 実験結果 (Coordination vs Self-Interest Bidding) 
 • Coordination reward (各agentの報酬はtotal

    traffic revenue) が性能がよい 
 • つまり、各agentが自身の最適化のみ目指すよりも、全体最適化を目標とした方が全体の評価 指標がよくなった
 25 (b) Manual Set Bids, 1partially Coord 
 2partially Coord, Fully Coordの比較 
 (a) Self-InterestとFully Coordの比較 

  15. 結論と今後の展望 
 • 競合をAgentとするMulti-Agent RLの問題としてBID最適化を定式化した 
 • clustering methodであるA practical

    Distributed Coordinated Multi-Agent Bidding (DCMAB) を 提案し、産業規模の実データでSingle-Agentの最適化手法と比較し、有効性を示した 
 • TaoBao ad platform (特にモバイル) でのオンラインA/Bテストを計画している 
 27