Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Relevance Filtering for Embedding-based Retrieval

Relevance Filtering for Embedding-based Retrieval

IR-READING 2025春

Avatar for Hiroki_Iida

Hiroki_Iida

May 24, 2025
Tweet

More Decks by Hiroki_Iida

Other Decks in Research

Transcript

  1. Relevance Filtering for Embedding-based Retrieval Authors: Nicholas Rossi, Juexin Lin,

    Feng Liu, Zhen Yang, Tony Lee, Alessandro Magnani, Ciya Liao CIKM '24: Applied Research Papers IR READING 2025春 紹介者: (株) UZABASE 飯田 大貴 特に断りがない限り、図表は本論文からの引用です 1
  2. 自己紹介 ▪ 名前:飯田 大貴(IR Readingには度々参加させてもらっています) ▪ 所属:(株) ユーザベース • 経済情報基盤を活用して、経営のスピードを上げる情報プラットフォーム

    「スピーダ」を提供 ▪ 業務内容:プロダクト横断の検索 /分類モデルの構築とサービスの構築・運用 ▪ インターン等興味あるかたはお声がけください https://www.uzabase.com/jp/ https://www.uzabase.com/jp/info/20241220-corp_jp/ 2
  3. スコアの変換方法 1. 変換関数F Θ (x)を用意する 2. クエリ毎にパラメータΘを変えられるように する a. パラメタΘをNNに出力させる

    b. 入力をクエリ埋め込みとする c. 対照学習時と同様な学習データを用いてNNを学 習する 正例:負例=1:31, 負例はBM25 5
  4. 実験:MSMARCO ▪ PR AUCとMRRが改善 ▪ K=1000でP@R95とFilter%改善 ▪ Null%*について • K=1000で改善し、K=10では改悪。一

    つも正例が登場しないクエリが、K=10 では30%だが、K=1000で1%であるた め • powerでnull、かつraw scoreがnullで はない場合において、70%は正例が top10にない ▪ 先行手法のChoppy#より良い。正 例が一つしかない場合が多いデー タであるため、削り過ぎている 提案手法 提案手法 *あるしきい値*で検索結果が返ってこなくなる度合い。しきい値は 5.2.3よりP@R95で決めたと推察 # Transformeベースの学習でしきい値を決める手法 7
  5. 分析 ▪ 本手法を適用することで、フィルタリ ングが改善している • raw scoreでは、全部表示するか、全部見 せない場合が多かった ▪ 本手法適用後に正例をフィルタしてし

    まうパターンとしては以下があった • 低頻度語がクエリに含まれている • クエリ中の単語がスペルを間違えている 全部表示 全部隠す 8
  6. 実験:WallMartデータ ▪ 提案手法により改善 ▪ Contrastive Lossの方が、Listwise Loss*よりも良い結果 • ListwiseLossの方が、検索結果内で相対 的なスコアを学習するため

    • 提案手法を適用することで差が縮まる ▪ Recallが低くなるクエリには以下の傾 向があった • レアブランド名 • 数字 • スペルミス *先行研究では、単純な精度は ListwiseLossのほうが良かった 9