Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ユーザーのプロフィールデータを活用した推薦精度向上の取り組み
Search
Yudai Hayashi
June 19, 2025
Technology
0
610
ユーザーのプロフィールデータを活用した推薦精度向上の取り組み
白金鉱業 Meetup Vol.19@六本木 で発表した内容です
Yudai Hayashi
June 19, 2025
Tweet
Share
More Decks by Yudai Hayashi
See All by Yudai Hayashi
ジョブマッチングプラットフォームにおける推薦アルゴリズムの活用事例
yudai00
0
23
MCP Clientを活用するための設計と実装上の工夫
yudai00
1
1.1k
人とシゴトのマッチングを実現するための機械学習技術
yudai00
1
40
MCPを理解する
yudai00
16
11k
データバリデーションによるFeature Storeデータ品質の担保
yudai00
1
180
「仮説行動」で学んだ、仮説を深め ていくための方法
yudai00
8
1.9k
相互推薦システムでのPseudo Label を活用したマッチ予測精度向上の取り組み
yudai00
1
890
Wantedly Visitにおけるフリーワード検索時の推薦のオンライン化事例紹介
yudai00
1
280
RustとPyTorchで作る推論サーバー
yudai00
12
7.3k
Other Decks in Technology
See All in Technology
Mackerel in さくらのクラウド
cubicdaiya
1
310
Oracle Exadata Database Service on Cloud@Customer X11M (ExaDB-C@C) サービス概要
oracle4engineer
PRO
2
6.4k
生成AIによるデータサイエンスの変革
taka_aki
0
3.1k
事業特性から逆算したインフラ設計
upsider_tech
0
240
Observability for LLM Application lifecycle
ivry_presentationmaterials
0
110
Autonomous Database Serverless 技術詳細 / adb-s_technical_detail_jp
oracle4engineer
PRO
18
52k
夏休みWebアプリパフォーマンス相談室/web-app-performance-on-radio
hachi_eiji
1
270
Intro to Software Startups: Spring 2025
arnabdotorg
0
280
サイボウズフロントエンドの横断活動から考える AI時代にできること
mugi_uno
3
1.1k
アカデミーキャンプ 2025 SuuuuuuMMeR「燃えろ!!ロボコン」 / Academy Camp 2025 SuuuuuuMMeR "Burn the Spirit, Robocon!!" DAY 1
ks91
PRO
0
150
AIは変更差分からユニットテスト_結合テスト_システムテストでテストすべきことが出せるのか?
mineo_matsuya
5
2.6k
Telemetry APIから学ぶGoogle Cloud ObservabilityとOpenTelemetryの現在 / getting-started-telemetry-api-with-google-cloud
k6s4i53rx
0
160
Featured
See All Featured
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
110
20k
Designing for humans not robots
tammielis
253
25k
Java REST API Framework Comparison - PWX 2021
mraible
33
8.8k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
Imperfection Machines: The Place of Print at Facebook
scottboms
268
13k
Rebuilding a faster, lazier Slack
samanthasiow
83
9.1k
What’s in a name? Adding method to the madness
productmarketing
PRO
23
3.6k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Why You Should Never Use an ORM
jnunemaker
PRO
58
9.5k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.6k
4 Signs Your Business is Dying
shpigford
184
22k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.4k
Transcript
© 2025 Wantedly, Inc. ユーザーのプロフィールデータを活 用した推薦精度向上の取り組み 白金鉱業 Meetup Vol.19@六本木 Jun.19
2025 - Yudai Hayashi
© 2025 Wantedly, Inc. 自己紹介 林 悠大 • 経歴: ◦
2022年に応用物理分野で Ph.D取得 ◦ 2022年にウォンテッドリー株式会社に新卒入社。データサイ エンティストとして推薦システムの開発に従事 @python_walker @Hayashi-Yudai
© 2025 Wantedly, Inc. 今日話すこと:プロフィールデータを上手く活用してマッチング精度向上を実現した取り組み • ウォンテッドリーでは、採用担当者が魅力的なユーザーを見つけるのを手助けするために 推薦システ ムを活用している •
埋め込みモデルを高度化することで、採用担当者が興味を持つユーザーをより多く抽出できるように した話 大量のユーザー・ 企業 ランキング 並べ替え対象の 抽出 並べ替え 2ステージ推薦 ここの改善の話をします
© 2025 Wantedly, Inc. 背景:採用担当者が過去にスカウトを送ったユーザーと似ているユーザーには興味を持つはず ユーザーの「似ている」をプロフィールを使って定量化 ? ? Aさん プロフィール
Aさんのプロフィールと似てるから スカウト送られそう Aさんのプロフィールと似てないから スカウト送られなさそう ユーザープロフィールの類似度によって並び替え候補の抽出を実現
© 2025 Wantedly, Inc. 課題:プロフィール情報の文脈まで活用できていなかった ? ? Aさん プロフィール Embedding
w2v モデル コサイン類似度 word2vecベースの手法を利用していたため、プロフィールの文脈までは 活用できていなかった
© 2025 Wantedly, Inc. 解決策:より高度な埋め込みモデルの利用 • multilingual-e5-small という埋め込みモデルを利 用するように変更 ◦
文脈情報を埋め込みに反映 ◦ 日本語を含む多言語の文章に対応 ◦ トークン長は512 • ウォンテッドリーのプロフィールは文章量が多いケース が多い ◦ 各パートを分割して、それぞれで Embeddingを 計算し、平均を利用 Attentionベースの手法を利用することで、より ”似 ている”の解像度を上げられることを期待
© 2025 Wantedly, Inc. 解決策:なぜmultilingual-e5-smallか • よりトークン長の長いモデル (RoSEtta-base-ja; 1,024トークン)も試したが、E5系の方がRecallが高 かった
◦ プロフィールを分割して Embedding化したことで、短いトークン長でも十分だった可能性 ◦ 扱えるトークン長が長くなる点よりも、モデル自体の我々のタスクにおける性能差で E5の方が勝って いた可能性 • E5系の中でもモデルサイズごとの比較をしたが、 multilingual-e5-small のRecall性能が最も良かっ た ◦ JMTEBでは、STS (=Semantic Text Similarity) において large < base < small という性能に なっているので、これと整合性のある結果 https://github.com/sbintuitions/JMTEB /blob/main/leaderboard.md#sts 一言で言うと「色々試した中でこれが一番良かったから」 もう少し考察すると...
© 2025 Wantedly, Inc. 結果:定性的に文脈的に似ているユーザーを抽出できるようになった Input “データを解析することによってユーザーが求めていることを発見し、より良い体験を届けられるようなデータエ ンジニアになりたい” • データを駆使
してマーケティングを革新したい。データ分析から得られるインサイトを基に、 Web広告やチ ラシなど... • エンジニア として働きたい。アプリ開発をしたい 変更前 変更後 (E5) • データサイエンティストや機械学習エンジニア など、ユーザーにもっと近い立場 に立って仕事したい。 • ログなどのデータを使用 して、ユーザーにとって最適解 を見つけること。
© 2025 Wantedly, Inc. 結果:ランキング性能やプロダクト KPIにも良い方向の変化 大量のユーザー・ 企業 ランキング 並べ替え対象の
抽出 並べ替え Recallの改善 NDCGの改善 オフライン性能に加えて、オンラインテストでの主要 KPIの改善も実現 主要KPIの改 善
© 2025 Wantedly, Inc. まとめ • 埋め込みモデルを改善することで、推薦精度を高めることができた取り組みについて紹介 • 並べ替え候補の抽出ロジックの改善を、後段のランキング性能や主要 KPIの改善まで伝播させることがで
きた ◦ プロフィールをパートごとに分割して平均することで、広い範囲の情報を Embeddingに含められる ようにした ◦ これまでより文脈的に似ているユーザーが抽出できていることを定性的に確認 ◦ オンラインテストにより主要 KPIが改善していることを確認