Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Leveraging LLMs for Unsupervised Dense Retrieve...

Shunsuke Kanda
November 08, 2024

Leveraging LLMs for Unsupervised Dense Retriever Ranking (SIGIR 2024)

Shunsuke Kanda

November 08, 2024
Tweet

More Decks by Shunsuke Kanda

Other Decks in Research

Transcript

  1. Leveraging LLMs for Unsupervised Dense Retriever Ranking (SIGIR 2024) Ekaterina

    Khramtsova, Shengyao Zhuang, Mahsa Baktashmotlagh, and Guido Zuccon 発表者:神⽥峻介(Cierpa & Co., Inc.) @IR Reading 2024秋
  2. 論⽂の主張とアイデア 最適な埋め込みモデルはコーパスによって⼤きく変わる • 訓練コーパスと評価コーパスに乖離があると性能がでない • 例えば MTEB 全体で最も性能がいい UAE-Large-V1 モデルは、FiQA

    タスク に限れば all-mpnet-base-v2 モデルより 10% も nDCG@10 が低い その検索したいコレクションに適したモデルを選ぶ必要がある 提案⼿法 • LLM を使って擬似的に評価セットを構築する • その評価セットで最も性能が良かったモデルを採⽤する
  3. SciDocs クエリ⽣成のプロンプトの例 Generate a scientific paper title that is related

    to the following paper.\nPaper: {title} {text}\n Generate a headline for the following news article.\nArticle: {title} {text}\n Generate a question that the following financial web article can answer. Avoid generating general questions.\nArticle: {title} {text}\n Trec-News FiQA
  4. SciDocs Pseudo-relevance judgments のプロンプトの例 For the following paper title and

    document, judge whether they are 'Highly Relevant', 'Somewhat Relevant', or 'Not Relevant'.\nTitle: {query}\nDocument: {title} {text} For the following headline and news article, judge whether they are 'Highly Relevant', 'Somewhat Relevant', or 'Not Relevant'.\nHeadline: {query}\nArticle: {title} {text} For the following query and document, judge whether they are 'Highly Relevant', 'Somewhat Relevant', or 'Not Relevant'.\nQuery: {query}\nDocument: {title} {text} Trec-News FiQA
  5. LLM を使ってクエリについて⽂書のランキングを⽣成 ➔ 順位の⼀致度でモデルを評価する 今年の SIGIR で LLM を使った Setwise

    リランキングが提案されており、それを 使⽤する ( https://github.com/ielab/llm-rankers ) Step 2.2: Pseudo-reference lists
  6. 実験設定 ⽬的 • 提案⼿法で予測したモデルのランキングは真のランキングと近いか? • i.e., そのコーパスに対して最適なモデルを選択できるか? ⽐較対象のモデル • MTEB

    のリーダーボードから性能が良いモデルを 47 個を選出 評価コーパス • BEIR ベンチマークから 13 コーパスを選出 LLM • FLAN-T5 (細かいパラメータは論⽂を参照)
  7. 感想 • シナリオは多くの新規開発で刺さる気がする • ⼀旦当たりを付けて⾛り始めるためには⼀つ⼿段として持っておくと良さそう 疑問 • 教師無しの埋め込みモデルのセレクションを⽬指した論⽂だったが、⽣成したデー タはモデルの Tuning

    にも使える? • ⽂書コレクションに効果的なモデルを選ぶのって実際そんなに難しい?🤔 • 例えば、⾦融系とか化学系とかある程度似たベンチマーク結果から⾒積もれそう • その⾒積もりと提案⼿法とのギャップが知りたいと思った まとめ