Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Ad-DS Paper Circle #2

Yusuke Kaneko
March 30, 2025
2k

Ad-DS Paper Circle #2

広告輪読会第二回スライド

Yusuke Kaneko

March 30, 2025
Tweet

Transcript

  1. Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click

    Conversion Rate AI事業本部 協業DXディビジョン 石川喬之
  2. •論文タイトル Entire Space Multi-Task Model: An Effective Approach for Estimating

    Post-Click Conversion Rate •著者情報 Alibaba グループの人々 論文情報
  3. •CVR 予測はランキングシステムにおいて重要な役割をもっている •CVR モデリングにはタスク固有の問題がある 1. セレクションバイアス クリックされたアイテムのみを学習データとする 2. データのスパース性 CTR

    タスクに比べて学習データが少ない •Entire Space Multi-task Model (ESMM) を提案する → 空間全体に対して CVR を直接モデル化している → 特徴表現の転移学習戦略を利用している •Taobao のデータを利用した実験によって、ESMM の有効性を検証できた 要旨
  4. •セレクションバイアス問題に対するアプローチ - All Missing As Negative (AMAN) クリックされてないインプレッションを負例として選択するサンプリング戦略。未観測のサンプルを導入することでセレク ションバイアスは排除できるが、予測値は常に過小評価される -

    Unbiased method Rejection sampling によって観測値から得られる真の分布に対してモデル化する方法。棄却率の除算で重み付けを行う場合に 不安定になることがある。 •データのスパース性問題に対するアプローチ - hierarchical estimators - オーバーサンプリング 少数クラスのサンプルを増やす手法。サンプリング率に敏感 → それぞれの問題は CVR モデリングのシナリオでは上手く対処されておらず、上記 の方法はいずれも時系列データの情報を利用していない 先行研究
  5. •ESMM の概要 - CVR を予測する主タスクに CTR と CTCVR (ImpCVR) を

    予測する 2 つの補助タスクを導入したマルチタスクを解く - pCTCVR は pCTR * pCVR として算出する - インプレッションベースのデータセットから pCTR と pCTCVR を推定し、 pCVR を pCTCVR / pCTR として算出することも可能 - ただし、一般的に小さな値の pCTR で除算すると値が不安定になりがちな ので、ESMM では乗算 (pCTR * pCVR) で pCTCVR を求めることで安定性を 確保する(値が 0 ~ 1 の範囲に収まるようにもなる) - 損失関数は CTR と CTCVR の予測誤差を組み合わせたも のになっていて、クリックと CV の時系列性を考慮したもの になっている ESMM (Entire Space Multi-task Model)
  6. ESMM (Entire Space Multi-task Model) •ESMM の特性により、CVR 固有の問題を解決でき る -

    セレクションバイアス問題 pCTR, pCTCVR はともに全インプレッションのサンプルを 用いて空間全体にわたって推定される - データのスパース性問題 CVRネットワークの特徴表現のパラメータはCTRネットワー クと共有され、より豊富なサンプル (クリックされてないインプレッ ション含めて) で学習される
  7. •データセット Public Dataset : Taobao の特定期間のトラフィックログから 1 % ランダムサンプリング Product

    Dataset : 上記のランダムサンプリングされていないもの 有効性の検証 (実験設定)
  8. •比較モデル BASE: シンプルな CVR 予測モデル(図 2 の左側) AMAN: All Missing

    As Negative OVERSAMPLING : 少数クラスのサンプルを増やす手法 UNBIASED : 観測値から得られる真の分布に対してモデル化する手法 DIVISION : CTR と CTCVR のネットワークを個別に訓練して除算で算出する ESMM-NS : 軽量版 ESMM(埋め込み層の共有を行わない) ESMM: 今回提唱されたモデル ※ モデル構造は BASE と同じ ReLU, 埋め込み層は 18 次元, MLP の次元数は 360 × 200 × 80 × 2, 最適化手法は Adam 有効性の検証 (実験設定)
  9. •評価方法 以下の 2 つのタスクに関して AUC で評価する(データは時系列で 2 分割) 1. 従来の

    CVR 予測タスク 2. CTCVR 予測タスク pCVR は各モデルで予測、pCTR は BASE モデルと同じモデル構造のモデルで予測し、pCTR × pCVR で算出 有効性の検証 (実験設定)
  10. •パブリックデータセットで評価した 1. BASE モデルを使った 3 モデルの中ではランダムサンプリング の敏感さのためか AMAN のみが悪化した。OVERSAMPLING, UNBIASED

    はともに僅かに改善した。 2. 全データを利用した DIVISION, ESMM-NS はともに BASE 比で 大きく改善した。除算による不安定さがない分、ESMM-NS の方が DIVISION より良かった。 3. 特徴表現の転移学習により未クリックデータから学習すること で、ESMM-NS よりもさらに性能改善した。 (ESMM は CVR タスクで BASE モデルよりも AUC で 2.56 ポイント改善) 有効性の検証 (結果)
  11. Conclusion •CVR モデリングタスクのための新しいアプローチ ESMM を提案した •ESMM は CTR と CTCVR

    の 2 つの補助タスクによって、CVR モデリングの実務で遭遇するセレク ションバイアスとデータのスパース性の課題にエレガントに対処する •実際のデータセットを用いた実験により、ESMM の優れた性能が実証された Future work •本手法は、時系列データにおけるユーザ行動予測に容易に一般化できる •将来的には、Request → Impression → Click → CV のような多段階のアクションを持つアプリ ケーションにおいて、大域的最適化モデルを設計する予定である まとめ