Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Two-Tower モデルで実現する 検索リランキング / Shibuya_AI_2

Two-Tower モデルで実現する 検索リランキング / Shibuya_AI_2

2025年6月11日に開催された「渋谷 Biz × AI: ビジネスにおける AI 利活用 事例勉強会 第2回」の登壇資料です。
https://d-cube.connpass.com/event/354319/

▼関連資料
DEIM2025 参加レポート
https://engineering.visional.inc/blog/653/deim2025-report/

検索エンジニアが集う!「検索技術勉強会」レポート - Qdrant、Elasticsearch、Vespa 活用事例
https://engineering.visional.inc/blog/627/search-engineering-tech-talk-2024-summer/

検索ランキングの比較のためにInterleavingの導入と評価をした際の工夫
https://engineering.visional.inc/blog/615/implement-interleaving-for-search-evaluation/

-----
Visionalのエンジニアリングに関する最新情報はX、ブログで発信しています!📣

▼Visional Engineering Blog
https://engineering.visional.inc/blog/

▼VISIONAL ENGINEERING / X
https://twitter.com/VISIONAL_ENG

More Decks by Visional Engineering & Design

Other Decks in Technology

Transcript

  1. Two-Tower モデルで実現する
 検索リランキング
 渋谷 Biz × AI: ビジネスにおけるAI利活用 事例勉強会, 2025.06.11


    
 
 株式会社ビズリーチ(Visional グループ)
 プロダクト本部プラットフォーム統括部データプロダクト部
 検索基盤グループ
 渡會 恭平
 1
  2. 「ユーザー × アイテム」のマッチングではなく「クエリ × アイテム」のマッチングであることに注意する
 • ユーザーが検索しているのでマッチングの組み合わせはユーザー × アイテムにみえるが、実際はクエリを介して ユーザーが求めるアイテムを取得するため、クエリ

    × アイテムになる
 • 問題設計する際は、ユーザー・クエリ・アイテムの3要素を整理して施策を進めると良い
 検索の課題 2:クエリとアイテムのマッチング
 9 クエリを介して、
 候補者一覧を取得する 

  3. システム面で制約がある
 • 検索全体の処理で約1秒以内に完了することが求められる
 ◦ クエリ生成 → フィルタリング → スコアリング →

    リランキング、と処理が多い
 ◦ その中でも、リランキングはさらに短い時間で処理を完了させる必要があるため、軽量かつリアルタイム性が 求められる
 ◦ 言い換えれば、複雑&重いモデルの採用は厳しい(採用する場合、コストがかかる)
 リランキング導入にあたって注意すること
 12
  4. Two-Tower モデルを採用する
 • Two-Tower モデルは、検索クエリと候補者のデータをそれぞれ扱う2つの Encoder(Tower)で構成
 • 各 Tower で

    Embeddings を生成し、定義した関数でクエリと候補者のスコアを計算
 リランキングを実現する
 13
  5. Two-Tower モデル採用の決め手!
 1. マルチモーダルに対応
 ◦ テーブルデータに加え、ビズリーチにある豊富なレジュメ・求人のテキストデータなどを活用できる
 
 2. 各 Tower

    が独立しているので、プロダクション環境で分けて運用可能
 ◦ 求職者のデータに対しては、データベースに格納する際に処理するため、重めのモデルを採用できる
 ◦ 検索クエリに対しては、軽量なモデルを採用することでリアルタイム性を確保できる
 
 3. コールドスタート問題に強い
 ◦ 新規ユーザーに対しても適応できる
 
 Two-Tower モデル
 14
  6. 学習データセット作成に関するアプローチで、Negative Example 選択の戦略によって精度が大きく変わる
 • Easy Negative が多い → 細かな判別が難しい
 •

    Hard Negative が多い → 偏りが生まれるため精度影響に懸念がある
 Negative Sampling
 17 引用:https://www.mdpi.com/2073-8994/11/9/1066

  7. Embedding-based Retrieval in Facebook Search
 https://arxiv.org/pdf/2006.11632
 
 Embedding-based Product Retrieval

    Taobao Search
 https://arxiv.org/pdf/2106.09297
 
 Deep Metric Learning: A Survey
 https://www.mdpi.com/2073-8994/11/9/1066
 
 
 Appendix:参考文献
 27
  8. • Query Tower のモデルと Candidate Tower のモデルからベクトルを生成し、検索の過去ログのインタラクショ ンを元にそれぞれのモデルを学習する
 • リランキングでは

    Contrastive Learning を採用している
 ◦ 類似するものは近くに、異なるものは遠くにマッピングされるように学習する
 Appendix:Two-Tower モデル:学習
 引用:https://www.mdpi.com/2073-8994/11/9/1066
 29 類似度スコア(インタラクション)をもとに loss を算出