Off-Policy Evaluation and Learning for Matching Markets

© 2025 Wantedly, Inc. INTERNAL ONLY Off-Policy Evaluation and Learning
for Matching Markets RecSys 2025 論文読み会 Nov. 9 2025 - Yudai Hayashi, Shuhei Goda and Yuta Saito

© 2025 Wantedly, Inc. INTERNAL ONLY 自己紹介林悠大 •
所属：ウォンテッドリー株式会社 • 経歴： ◦ 2022年にデータサイエンティストとして新卒入社 • 趣味： ◦ 音楽を聞くこと ◦ ウイスキー

© 2025 Wantedly, Inc. INTERNAL ONLY マッチングプラットフォームにおける推薦システム企業求職者スカウト
返信購入 ECプラットフォームマッチングプラットフォームユーザー商品マッチング推薦の成功には、双方向の嗜好の一致が必要

© 2025 Wantedly, Inc. INTERNAL ONLY 方策価値が正しく推定できることのインパクト仮に既存の方策のデータからを推定することができれば、 •
A/B テストより低コストで方策評価が可能 → オフ方策評価 • 推定した方策価値を目的関数として学習することでより良いモデルを得ることができる → オフ方策学習

© 2025 Wantedly, Inc. INTERNAL ONLY 方策価値の代表的な推定量 ECプラットフォーム非マッチング文脈において様々な推定量が提案されてきた：重要度重み
• IPS や DR で不偏推定を実現 • 正解ラベルがスパースなときや行動空間が大きい時に、発散的に増大し推定値が不安定化 (バリアンスの増大)

© 2025 Wantedly, Inc. INTERNAL ONLY 方策価値の代表的な推定量非マッチング文脈において様々な推定量が提案されてきたマッチングプラットフォーム：重要度重み
• IPS や DR で不偏推定を実現 • 正解ラベルがスパースなときや行動空間が大きい時に、発散的に増大し推定値が不安定化 (バリアンスの増大) 双方向の嗜好が関連することにより、正解ラベルがスパースに

© 2025 Wantedly, Inc. INTERNAL ONLY 提案手法 - DiPS :
スカウト送信ラベル : 推定スカウト返信確率 IPS part DM part スカウト送信と返信を別々に分けて扱う • 比較的密なスカウト送信ラベルは IPS のように重要度重みを利用して低バイアスに推定 • 疎なスカウト返信は、DM のように予測モデルを利用して低バリアンスに推定

© 2025 Wantedly, Inc. INTERNAL ONLY 提案手法 - DPR :
推定マッチ確率スカウト送信と返信を別々に分けて扱う DiPS を DR 推定量と同じ形で拡張することで、さらにバリアンスを低減

© 2025 Wantedly, Inc. INTERNAL ONLY 評価指標推定の正しさの指標 : 方策選択の正しさの指標
:

© 2025 Wantedly, Inc. INTERNAL ONLY 合成データによる検証結果 • 候補者数が多く、重要度重みが不安定になりやすい設定でもバリアンスを低く抑えられている •
従来手法よりも低 MSE, 低 Selection Error を達成

© 2025 Wantedly, Inc. INTERNAL ONLY 合成データによる検証結果 • 正解ラベルがスパースな設定においてもバリアンスを低く抑えられている •
推定モデルを使っているためバイアスは増加するが、スカウト送信側は重要度重みを利用しているため、DM よりバイアスの増加を抑えられている

© 2025 Wantedly, Inc. INTERNAL ONLY 合成データによる検証 - オフ方策学習方策価値の推定値を最大化させるようにモデルを学習
既存方策の性能を示す基準線 (黒線) や、他の推定量を使って学習したときよりも高い性能を示している

© 2025 Wantedly, Inc. INTERNAL ONLY 実データによる検証 Wantedly Visit の過去のオンラインテストの結果を使って検証
• バリアンスの低減効果が実データにおいても見られた • 従来手法 (IPS, DR) と比較して、バイアスも低下するような振る舞い ◦ 返信確率の誤差 + α で説明できる (詳細は論文を参照してください)

© 2025 Wantedly, Inc. INTERNAL ONLY まとめ • マッチングプラットフォームにおいて、信頼度高く新しい方策の価値を推定するための 2つの推定
量 DiPS、DPR を提案 • 合成データと Wantedly Visit の実データの両方を使って提案手法の有効性を実証 • オフ方策学習においても、従来手法よりも高い性能のモデルを得ることができることを実証ブログ記事 arXiv

Off-Policy Evaluation and Learning for Matching...

Off-Policy Evaluation and Learning for Matching Markets

Yudai Hayashi

More Decks by Yudai Hayashi

Other Decks in Research

Featured

Transcript

© 2025 Wantedly, Inc. INTERNAL ONLY Off-Policy Evaluation and Learning

© 2025 Wantedly, Inc. INTERNAL ONLY 自己紹介林悠大 •

© 2025 Wantedly, Inc. INTERNAL ONLY マッチングプラットフォームにおける推薦システム企業求職者スカウト

© 2025 Wantedly, Inc. INTERNAL ONLY 方策価値：推薦システム(= 方策)の生み出す価値の定量化 ECプラットフォームマッチングプラットフォーム

© 2025 Wantedly, Inc. INTERNAL ONLY 方策価値：推薦システム(= 方策)の生み出す価値の定量化 ECプラットフォームマッチングプラットフォーム

© 2025 Wantedly, Inc. INTERNAL ONLY 方策価値：推薦システム(= 方策)の生み出す価値の定量化 ECプラットフォームマッチングプラットフォーム

© 2025 Wantedly, Inc. INTERNAL ONLY 方策価値が正しく推定できることのインパクト仮に既存の方策のデータからを推定することができれば、 •

© 2025 Wantedly, Inc. INTERNAL ONLY 方策価値の代表的な推定量 ECプラットフォーム非マッチング文脈において様々な推定量が提案されてきた

© 2025 Wantedly, Inc. INTERNAL ONLY 方策価値の代表的な推定量 ECプラットフォーム非マッチング文脈において様々な推定量が提案されてきた：重要度重み

© 2025 Wantedly, Inc. INTERNAL ONLY 方策価値の代表的な推定量非マッチング文脈において様々な推定量が提案されてきたマッチングプラットフォーム：重要度重み

© 2025 Wantedly, Inc. INTERNAL ONLY 提案手法 - DiPS :

© 2025 Wantedly, Inc. INTERNAL ONLY 提案手法 - DPR :

© 2025 Wantedly, Inc. INTERNAL ONLY 評価指標推定の正しさの指標 : 方策選択の正しさの指標

© 2025 Wantedly, Inc. INTERNAL ONLY 合成データによる検証結果 • 候補者数が多く、重要度重みが不安定になりやすい設定でもバリアンスを低く抑えられている •

© 2025 Wantedly, Inc. INTERNAL ONLY 合成データによる検証結果 • 正解ラベルがスパースな設定においてもバリアンスを低く抑えられている •

© 2025 Wantedly, Inc. INTERNAL ONLY 合成データによる検証 - オフ方策学習方策価値の推定値を最大化させるようにモデルを学習

© 2025 Wantedly, Inc. INTERNAL ONLY 実データによる検証 Wantedly Visit の過去のオンラインテストの結果を使って検証

© 2025 Wantedly, Inc. INTERNAL ONLY まとめ • マッチングプラットフォームにおいて、信頼度高く新しい方策の価値を推定するための 2つの推定