論文紹介：Unbiased Delayed Feedback Label Correction for Conversion Rate Prediction

© 2023 Wantedly, Inc. 論文紹介：Unbiased Delayed Feedback Label Correction for
Conversion Rate Prediction ウォンテッドリー社内勉強会 ~推薦論文読み会~ Y. Wang, P. Sun, M. Zhang, Q. Jia, J. Li and S. Ma https://dl.acm.org/doi/pdf/10.1145/3580305.3599536 Nov. 22 2023 - Presenter: Yudai Hayashi

© 2023 Wantedly, Inc. 自己紹介林　悠大 • 経歴： ◦ 東京大学工学系研究科でPh.D取得
◦ 2022年にウォンテッドリーにデータサイエンティストとして新卒入社 • Twitter(X): @python_walker • 趣味： ◦ 読書 ◦ 音楽聴くこと ◦ ウイスキー Twitter

© 2023 Wantedly, Inc. Short Summary • 文脈：CVR予測 • 課題：クリック→コンバージョンまでに遅延があるので学習データを収集した時点
では偽陰性サンプルが混ざり込む • 解決方法：偽陰性サンプルを検出してラベル修正を行うモデルを導入 • 結果：遅延問題に焦点を当てた他の先行研究と比べてより高い精度を得られた (AUC, PRAUC, LogLoss)

© 2023 Wantedly, Inc. 遅延フィードバックの問題点 Time 学習用データ取得期間 click conversion データ取得日
• クリックからコンバージョンするまでの間にはある程度のラグが存在 • コンバージョンに繋がらなかったクリックの中には偽陰性のサンプルが混ざり、モデル性能の低下を引き起こす

© 2023 Wantedly, Inc. 先行研究 • DFM ◦ コンバージョンまでの時間をモデリング •
FSIW ◦ 重要度サンプリングを利用して損失関数を補正 • nnDF ◦ 一定期間より前のデータは正しいと仮定して、そのデータを使って損失関数を補正

© 2023 Wantedly, Inc. 手法負例に対してコンバージョン確率を予測するモデルを作ってラベルを修正 Time データ取得日期間2 期間1
• 期間1でコンバージョンがないデータを学習データとする • 期間2でのコンバージョンを正解ラベルとして付与限定的なデータしか使わなくて精度が出ないのでは？

© 2023 Wantedly, Inc. 手法：Alternative Training … CVR予測モデル Embedding
特徴量 CVR予測値 … ラベル補正モデル経過時間転用真のラベル予測値学習データ全体ラベル補正用データ Step 1: 学習データ全体でCVR予測モデルを訓練する Step 2: CVRモデルのEmbeddingレイヤーを移植してラベル補正モデルの訓練を行う → 補正用データが少なさを補う

© 2023 Wantedly, Inc. 手法：Alternative Training Step 3: • ラベル補正モデルを固定
• 負例サンプルに重みをかけた損失関数を使ってCVRモデルを訓練 Step 4: CVRのEmbeddingレイヤーを移植してラベル補正モデルを訓練 (以下繰り返し) CVR予測モデルラベル補正モデル学習データ全体パラメータ固定 c w Weighted Log Loss: lLC

© 2023 Wantedly, Inc. 結果 • Criteoデータセットを利用して実験 ◦ 23日分のWeb広告のクリック、コンバージョンが含まれるパブリックデータ
• AUCで最大0.76 %の改善、PRAUCで最大 1.02 %の改善遅延フィードバックが無いとき (理想状態) 偽陰性サンプルに何も処理しないとき結果の抜粋

© 2023 Wantedly, Inc. 未コンバージョンデータに対してラベルを付与する期間による性能変化 time interval • time interval
が短すぎると遅延フィードバックの問題が解消されない • time interval が長すぎると学習データが古くなり最新データに対して性能が悪くなる

© 2023 Wantedly, Inc. Alternative training の有効性 • 論文で提案されたような構造でも、学習方法としてはほかに何通りか考えられる ◦
CVRモデルとラベル補正モデルを同時に訓練する (JL) ◦ ラベル補正モデルとCVRモデルを同じにする ▪ CVRモデルで偽陰性データかを0, 1で評価する(hard) ▪ CVRモデルで偽陰性データである確率を0~1で評価する(soft) ▪ CVRモデルで偽陰性データである確率が一定以上の未評価データを落とす (drop) 提案手法は上のどれと比較しても優れている

© 2023 Wantedly, Inc. フィードバックの遅延の長さと性能への影響コンバージョンまでの時間 • コンバージョンまでに時間がかかるデータの予測はそもそも難しい (Oracleでも性能が右肩
下がり) • 提案手法は時間が長いグループでより高い性能改善を示している

© 2023 Wantedly, Inc. まとめ • 偽陰性データのラベル補正をおこなうモデルを組み込んだCVR予測モデル ULC を提案 •
AUC, PRAUCといった指標でstate-of-the-artを達成 • CVR予測モデルと、ラベル補正のモデルを交互に訓練するAlternative Training が有効な訓練手法として得られた • コンバージョンまでの時間が長いデータにおいてより高い精度改善を実現

© 2023 Wantedly, Inc. 参考文献 • Yifan Wang, Peijie Sun,
Min Zhang, Qinglin Jia, Jingjie Li, and Shaoping Ma. 2023. Unbiased Delayed Feedback Label Correction for Conversion Rate Prediction. In Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD ’23), August 6–10, 2023, Long Beach, CA, USA. ACM, New York, NY, USA.

論文紹介：Unbiased Delayed Feedback Label Correction...

論文紹介：Unbiased Delayed Feedback Label Correction for Conversion Rate Prediction

Yudai Hayashi

More Decks by Yudai Hayashi

Featured

Transcript

© 2023 Wantedly, Inc. 論文紹介：Unbiased Delayed Feedback Label Correction for

© 2023 Wantedly, Inc. 自己紹介林　悠大 • 経歴： ◦ 東京大学工学系研究科でPh.D取得

© 2023 Wantedly, Inc. Short Summary • 文脈：CVR予測 • 課題：クリック→コンバージョンまでに遅延があるので学習データを収集した時点

© 2023 Wantedly, Inc. 遅延フィードバックの問題点 Time 学習用データ取得期間 click conversion データ取得日

© 2023 Wantedly, Inc. 先行研究 • DFM ◦ コンバージョンまでの時間をモデリング •

© 2023 Wantedly, Inc. 手法負例に対してコンバージョン確率を予測するモデルを作ってラベルを修正 Time データ取得日期間2 期間1

© 2023 Wantedly, Inc. 手法：Alternative Training … CVR予測モデル Embedding

© 2023 Wantedly, Inc. 手法：Alternative Training Step 3: • ラベル補正モデルを固定

© 2023 Wantedly, Inc. 結果 • Criteoデータセットを利用して実験 ◦ 23日分のWeb広告のクリック、コンバージョンが含まれるパブリックデータ

© 2023 Wantedly, Inc. 未コンバージョンデータに対してラベルを付与する期間による性能変化 time interval • time interval

© 2023 Wantedly, Inc. Alternative training の有効性 • 論文で提案されたような構造でも、学習方法としてはほかに何通りか考えられる ◦

© 2023 Wantedly, Inc. Alternative training の有効性 Q. 訓練のイテレーションを何回行えばよいか？ A.

© 2023 Wantedly, Inc. フィードバックの遅延の長さと性能への影響コンバージョンまでの時間 • コンバージョンまでに時間がかかるデータの予測はそもそも難しい (Oracleでも性能が右肩

© 2023 Wantedly, Inc. まとめ • 偽陰性データのラベル補正をおこなうモデルを組み込んだCVR予測モデル ULC を提案 •

© 2023 Wantedly, Inc. 参考文献 • Yifan Wang, Peijie Sun,