Leveraging LLMs for Unsupervised Dense Retriever Ranking (SIGIR 2024)

Leveraging LLMs for Unsupervised Dense Retriever Ranking (SIGIR 2024) Ekaterina
Khramtsova, Shengyao Zhuang, Mahsa Baktashmotlagh, and Guido Zuccon 発表者：神⽥峻介（Cierpa ＆ Co., Inc.） @IR Reading 2024秋

想定するシナリオ検索したいデータベース（⽂書コレクション）があるある程度どんなクエリが投げられるかも想定できるベクトル検索のための埋め込みモデルのオプションもたくさんある 🚀 ただ訓練コーパスや評価コーパスは無い 😇 教師無しで何かしらの埋め込みモデルを使って検索システムを作りたいどの埋め込みモデルを使うべきか 🤔

論⽂の主張とアイデア最適な埋め込みモデルはコーパスによって⼤きく変わる • 訓練コーパスと評価コーパスに乖離があると性能がでない • 例えば MTEB 全体で最も性能がいい UAE-Large-V1 モデルは、FiQA
タスクに限れば all-mpnet-base-v2 モデルより 10% も nDCG@10 が低いその検索したいコレクションに適したモデルを選ぶ必要がある提案⼿法 • LLM を使って擬似的に評価セットを構築する • その評価セットで最も性能が良かったモデルを採⽤する

1. ⽂書について、LLMを使って疑似クエリを⽣成 2. 疑似クエリについて、LLMを使って適合⽂書を紐づけて評価セットを構築 3. その評価セットを使って検索モデルを評価提案⼿法の全体の流れ

検索対象の⽂書コレクションから⼀部をサンプリング実験では k = 100 件を設定している Step 1: ⽂書について疑似クエリを⽣成

個々の⽂書について、LLMを使って疑似クエリを L 件ずつ⽣成するある同じプロンプトを使い、クエリの多様性は Top-p サンプリングで担保どのようなクエリが期待されるか既知の前提でプロンプトを設計 Step 1: ⽂書について疑似クエリを⽣成

SciDocs クエリ⽣成のプロンプトの例 Generate a scientific paper title that is related
to the following paper.\nPaper: {title} {text}\n Generate a headline for the following news article.\nArticle: {title} {text}\n Generate a question that the following financial web article can answer. Avoid generating general questions.\nArticle: {title} {text}\n Trec-News FiQA

LLM を使って疑似クエリに適合⽂書を紐づけたいが、全通りのクエリ⽂書ペアに LLM を適⽤するのは⾟いので m 件ずつ候補がほしい ➔ 評価対象のモデルで似た⽂書を抽出 ➔ 任意の
Fusion アルゴリズムで Top-m 件を得る（和集合ではだめ？） Step 2: 疑似クエリに適合⽂書を紐づける a.k.a. プーリング

抽出した⽂書クエリペアについて、LLM を使ってアノテーションする 1. Pseudo-relevance judgments 2. Pseudo-reference lists Step 2:
疑似クエリに適合⽂書を紐づける

Step 2.1: Pseudo-relevance judgments LLM を使ってクエリと⽂書間の関連性を付与過去の研究を参考に三段階でラベル付け • Highly Relevant,
Somewhat Relevant, or Not Relevant

SciDocs Pseudo-relevance judgments のプロンプトの例 For the following paper title and
document, judge whether they are 'Highly Relevant', 'Somewhat Relevant', or 'Not Relevant'.\nTitle: {query}\nDocument: {title} {text} For the following headline and news article, judge whether they are 'Highly Relevant', 'Somewhat Relevant', or 'Not Relevant'.\nHeadline: {query}\nArticle: {title} {text} For the following query and document, judge whether they are 'Highly Relevant', 'Somewhat Relevant', or 'Not Relevant'.\nQuery: {query}\nDocument: {title} {text} Trec-News FiQA

LLM を使ってクエリについて⽂書のランキングを⽣成 ➔ 順位の⼀致度でモデルを評価する今年の SIGIR で LLM を使った Setwise
リランキングが提案されており、それを使⽤する ( https://github.com/ielab/llm-rankers ) Step 2.2: Pseudo-reference lists

LLM で作った評価セットを⽤いて個々のモデルの性能を評価 ➔ そのスコアに応じてモデルをランキングどちらかの評価セットを使ってもいいし、両⽅を使ってもいい両⽅使う場合は、最終的に任意の Fusion アルゴリズムでランキングをまとめる Step 3:
評価セットを使って検索モデルを評価

実験設定⽬的 • 提案⼿法で予測したモデルのランキングは真のランキングと近いか？ • i.e., そのコーパスに対して最適なモデルを選択できるか？⽐較対象のモデル • MTEB
のリーダーボードから性能が良いモデルを 47 個を選出評価コーパス • BEIR ベンチマークから 13 コーパスを選出 LLM • FLAN-T5 （細かいパラメータは論⽂を参照）

実験結果

実験結果各コーパスについて予測された埋め込みモデルのランキングの良さを評価 Δe = (予測されたベストモデルのnDCG) - (正解のベストモデルのnDCG) 値が⼩さいほどベストに選んだモデルが理想に近い

実験結果 MS MARCO で得られたモデルのランキングはあまり効果的では無い ➔ 他のベンチマークのランキングがそのコーパスに刺さるとは限らない

実験結果 Query Performance Prediction の⽂脈で提案された⼿法もあまり効果的では無い QPP はモデルを個々にスコアリングするタスク → ⽬的の差異が結果に影響？（Fusion
は結構効果的だがよくわかってない）

実験結果提案⼿法は全体的に良い結果 ArguAna と Trec-News では最も良いモデルを⼀致させた

Ablation Study: どのステップが効果的？

Ablation Study: どのステップが効果的？ LLMを使ったランキング（QFR）よりは、少なくともベストなモデルを当てるためにはLLMを使った関連性付与（QFJ）の⽅が平均して効果的

Ablation Study: どのステップが効果的？どちらの結果も Fusion して使った⽅が性能は改善する

感想 • シナリオは多くの新規開発で刺さる気がする • ⼀旦当たりを付けて⾛り始めるためには⼀つ⼿段として持っておくと良さそう疑問 • 教師無しの埋め込みモデルのセレクションを⽬指した論⽂だったが、⽣成したデータはモデルの Tuning
にも使える？ • ⽂書コレクションに効果的なモデルを選ぶのって実際そんなに難しい？🤔 • 例えば、⾦融系とか化学系とかある程度似たベンチマーク結果から⾒積もれそう • その⾒積もりと提案⼿法とのギャップが知りたいと思ったまとめ

Leveraging LLMs for Unsupervised Dense Retrieve...

Leveraging LLMs for Unsupervised Dense Retriever Ranking (SIGIR 2024)

Shunsuke Kanda

More Decks by Shunsuke Kanda

Other Decks in Research

Featured

Transcript