Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Off-Policy Evaluation and Learning for Matching...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Yudai Hayashi
November 09, 2025
Research
0
100
Off-Policy Evaluation and Learning for Matching Markets
RecSys 2025 論文読み会での発表資料です。
https://connpass.com/event/372676/
Yudai Hayashi
November 09, 2025
Tweet
Share
More Decks by Yudai Hayashi
See All by Yudai Hayashi
技術キャッチアップ効率化を実現する記事推薦システムの構築
yudai00
2
180
ジョブマッチングプラットフォームにおける推薦アルゴリズムの活用事例
yudai00
0
120
ユーザーのプロフィールデータを活用した推薦精度向上の取り組み
yudai00
0
700
MCP Clientを活用するための設計と実装上の工夫
yudai00
1
1.3k
人とシゴトのマッチングを実現するための機械学習技術
yudai00
1
90
MCPを理解する
yudai00
18
14k
データバリデーションによるFeature Storeデータ品質の担保
yudai00
1
250
「仮説行動」で学んだ、仮説を深め ていくための方法
yudai00
8
2k
相互推薦システムでのPseudo Label を活用したマッチ予測精度向上の取り組み
yudai00
1
1.1k
Other Decks in Research
See All in Research
Dwangoでの漫画データ活用〜漫画理解と動画作成〜@コミック工学シンポジウム2025
kzmssk
0
160
ペットのかわいい瞬間を撮影する オートシャッターAIアプリへの スマートラベリングの適用
mssmkmr
0
370
「なんとなく」の顧客理解から脱却する ──顧客の解像度を武器にするインサイトマネジメント
tajima_kaho
10
6.9k
討議:RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
0
570
SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing
satai
3
620
データサイエンティストをめぐる環境の違い2025年版〈一般ビジネスパーソン調査の国際比較〉
datascientistsociety
PRO
0
920
Φ-Sat-2のAutoEncoderによる情報圧縮系論文
satai
3
120
2026年3月1日(日)福島「除染土」の公共利用をかんがえる
atsukomasano2026
0
450
ForestCast: Forecasting Deforestation Risk at Scale with Deep Learning
satai
3
520
その推薦システムの評価指標、ユーザーの感覚とズレてるかも
kuri8ive
1
340
製造業主導型経済からサービス経済化における中間層形成メカニズムのパラダイムシフト
yamotty
0
510
20251023_くまもと21の会例会_「車1割削減、渋滞半減、公共交通2倍」をめざして.pdf
trafficbrain
0
190
Featured
See All Featured
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
64
53k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.6k
Principles of Awesome APIs and How to Build Them.
keavy
128
17k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.3k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
210
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
140
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.4k
We Have a Design System, Now What?
morganepeng
55
8k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
780
Deep Space Network (abreviated)
tonyrice
0
89
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
230
Why Our Code Smells
bkeepers
PRO
340
58k
Transcript
© 2025 Wantedly, Inc. INTERNAL ONLY Off-Policy Evaluation and Learning
for Matching Markets RecSys 2025 論文読み会 Nov. 9 2025 - Yudai Hayashi, Shuhei Goda and Yuta Saito
© 2025 Wantedly, Inc. INTERNAL ONLY 自己紹介 林 悠大 •
所属:ウォンテッドリー株式会社 • 経歴: ◦ 2022年にデータサイエンティストとして新卒入社 • 趣味: ◦ 音楽を聞くこと ◦ ウイスキー
© 2025 Wantedly, Inc. INTERNAL ONLY マッチングプラットフォームにおける推薦システム 企業 求職者 スカウト
返信 購入 ECプラットフォーム マッチングプラットフォーム ユーザー 商品 マッチング推薦の成功には、双方向の嗜好の一致が必要
© 2025 Wantedly, Inc. INTERNAL ONLY 方策価値:推薦システム(= 方策)の生み出す価値の定量化 ECプラットフォーム マッチングプラットフォーム
© 2025 Wantedly, Inc. INTERNAL ONLY 方策価値:推薦システム(= 方策)の生み出す価値の定量化 ECプラットフォーム マッチングプラットフォーム
© 2025 Wantedly, Inc. INTERNAL ONLY 方策価値:推薦システム(= 方策)の生み出す価値の定量化 ECプラットフォーム マッチングプラットフォーム
© 2025 Wantedly, Inc. INTERNAL ONLY 方策価値が正しく推定できることのインパクト 仮に既存の方策のデータから を推定することができれば、 •
A/B テストより低コストで方策評価が可能 → オフ方策評価 • 推定した方策価値 を目的関数として学習 することでより良いモデルを得るこ とができる → オフ方策学習
© 2025 Wantedly, Inc. INTERNAL ONLY 方策価値の代表的な推定量 ECプラットフォーム 非マッチング文脈において様々な推定量が提案されてきた
© 2025 Wantedly, Inc. INTERNAL ONLY 方策価値の代表的な推定量 ECプラットフォーム 非マッチング文脈において様々な推定量が提案されてきた :重要度重み
• IPS や DR で不偏推定を実現 • 正解ラベルがスパースなときや行動空間が 大きい時に、発散的に増大し推定値が不安 定化 (バリアンスの増大)
© 2025 Wantedly, Inc. INTERNAL ONLY 方策価値の代表的な推定量 非マッチング文脈において様々な推定量が提案されてきた マッチングプラットフォーム :重要度重み
• IPS や DR で不偏推定を実現 • 正解ラベルがスパースなときや行動空間が 大きい時に、発散的に増大し推定値が不安 定化 (バリアンスの増大) 双方向の嗜好が関連することにより、 正解ラベルがスパースに
© 2025 Wantedly, Inc. INTERNAL ONLY 提案手法 - DiPS :
スカウト送信ラベル : 推定スカウト返信確率 IPS part DM part スカウト送信と返信を別々に分けて扱う • 比較的密なスカウト送信ラベルは IPS のように重要度重みを利用して低バイアスに推定 • 疎なスカウト返信は、DM のように予測モデルを利用して低バリアンスに推定
© 2025 Wantedly, Inc. INTERNAL ONLY 提案手法 - DPR :
推定マッチ確率 スカウト送信と返信を別々に分けて扱う DiPS を DR 推定量と同じ形で拡張することで、さらにバリアンスを低減
© 2025 Wantedly, Inc. INTERNAL ONLY 評価指標 推定の正しさの指標 : 方策選択の正しさの指標
:
© 2025 Wantedly, Inc. INTERNAL ONLY 合成データによる検証結果 • 候補者数が多く、重要度重みが不安定になりやすい設定でもバリアンスを低く抑えられている •
従来手法よりも低 MSE, 低 Selection Error を達成
© 2025 Wantedly, Inc. INTERNAL ONLY 合成データによる検証結果 • 正解ラベルがスパースな設定においてもバリアンスを低く抑えられている •
推定モデルを使っているためバイアスは増加するが、スカウト送信側は重要度重みを利用している ため、DM よりバイアスの増加を抑えられている
© 2025 Wantedly, Inc. INTERNAL ONLY 合成データによる検証 - オフ方策学習 方策価値の推定値を最大化させるようにモデルを学習
既存方策の性能を示す基準線 (黒線) や、他の推定量を使って学習したときよりも高い性能を 示している
© 2025 Wantedly, Inc. INTERNAL ONLY 実データによる検証 Wantedly Visit の過去のオンラインテストの結果を使って検証
• バリアンスの低減効果が実データにおいても見られた • 従来手法 (IPS, DR) と比較して、バイアスも低下するような振る舞い ◦ 返信確率の誤差 + α で説明できる (詳細は論文を参照してください)
© 2025 Wantedly, Inc. INTERNAL ONLY まとめ • マッチングプラットフォームにおいて、信頼度高く新しい方策の価値を推定するための 2つの推定
量 DiPS、DPR を提案 • 合成データと Wantedly Visit の実データの両方を使って提案手法の有効性を実証 • オフ方策学習においても、従来手法よりも高い性能のモデルを得ることができることを実証 ブログ記事 arXiv