Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[IR Reading 2026春 論文紹介] LLM-based Listwise Rera...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

[IR Reading 2026春 論文紹介] LLM-based Listwise Reranking under the Effect of Positional Bias (ECIR 2026) /IR-Reading-2026-Spring

Avatar for Kohei Shinden

Kohei Shinden PRO

May 30, 2026

More Decks by Kohei Shinden

Other Decks in Research

Transcript

  1. [論文紹介] LLM-based Listwise Reranking under the Effect of Positional Bias

    (ECIR 2026) Jingfen Qiao, Jin Huang, Xinyu Ma, Shuaiqiang Wang, Dawei Yin, Evangelos Kanoulas, Andrew Yates University of Amsterdam, University of Cambridge, Baidu Inc., Johns Hopkins University SB Intuisions株式会社 プロダクト開発本部 Sarashina開発部 Applied AI チーム 新田 洸平 2026年5月27日 IR Reading 2026 春 一般セッション2 No. 5 ※スライド中の図表は論文より引用
  2. 2 ©︎ 2026 SB Intuitions Corp. どんな論文? • LLM ベースの

    Listwise Reranking 手法における位置バイアスを 逆傾向スコアとデータ拡張によって除去する手法 DebiasFirst を提案[1] ◦ ECIR 2026 Best Paper Award ◦ LLM ベースリランカーに最近興味があり紹介 [1] Qiao et al., LLM-based Listwise Reranking under the Effect of Positional Bias, ECIR 2026.
  3. 3 ©︎ 2026 SB Intuitions Corp. 背景:LLMベースリランカーとは?1/2 • 1st stage

    の検索結果上位 k 件に対して LLM で並び替えるリランキング手法 A B C D: 適合 E D: 適合 C B A E LLM-based Reranker 上位 k 件 出力ランキング 1st stage Retriever 検索対象文書 膨大な検索対象の中から 効率的に適合文書を獲得 e.g., BM25, SPLADE etc. 高コストだが適合文書を 高精度に上位にランク付け
  4. 4 ©︎ 2026 SB Intuitions Corp. 背景:LLMベースリランカーとは?2/2 • 1st stage

    の検索結果上位 k 件に対して LLM で並び替えるリランキング手法 【リランカーの種類】 ⚫ Pointwise ⚫ Pairwise ⚫ Listwise ← これ 【主な Listwise 手法】 ⚫ 全体予測 ⚫ [2] > [12] > [3] > … を生成 ⚫ 単一トークン生成 ← これ ⚫ 1回のデーコードで得られる ロジットを利用 ⚫ リランクしたリスト全体を 出力しなくて良いので効率的
  5. 5 ©︎ 2026 SB Intuitions Corp. 課題:既存手法における限界 • 既存手法は位置バイアスに対処できていないためリランキング対象リスト の末尾に偏るような適合文書はより上位にあがりづらい

    推論コストを増やさずに Fine-tuning で 位置バイアスを除去できる手法が重要 対処段階 既存手法 課題 学習時 RankVicuna[2], RankZephyr[3] ランダムシャッフルによる 位置バイアス軽減方法は性能低下につながる 推論時 PermSC(PSC)[4], LLM-RankFusion[5] ランキングを複数出力するために 推論回数が増えるため計算負荷が高い 学習 + 推論 ListT5[6] ランキングの下位から上位へトーナメントでソート 位置バイアス軽減はできたが計算負荷が高い [2] Pradeep et al., RankVicuna: Zero-shot listwise document reranking with open-source large language models, arXiv 2023. [3] Pradeep et al., RankZephyr: Effective and robust zero-shot listwise reranking is a breeze!, arXiv 2023. [4] Tang et al., Found in the middle: Permutation self-consistency improves listwise ranking in large language models, NAACL 2024. [5] Zeng et al., LLM-RankFusion: Mitigating intrinsic inconsistency in LLM-based ranking, NeurIPS 2024. [6] Yoon et al., ListT5: Listwise reranking with fusion-in-decoder improves zero-shot retrieval, ACL 2024.
  6. 6 ©︎ 2026 SB Intuitions Corp. 提案手法:DebiasFirst • LLM リランカーの仕組みに由来する構造的な問題と

    モデルの fine-tuning における学習データの偏りに対処した手法の提案 事前: ランキングにおける 文書の順位傾向の測定 学習: ランキングをシャッフル してデータ拡張 推論: ロジットを利用して リランキング
  7. 7 ©︎ 2026 SB Intuitions Corp. 手法の前提:First • 提案モデルは First[7]

    という先行研究をベースとしている ◦ First の時点でランキングの各パッセージの識別子ロジットの利用方法を提案 ランキング識別子のロジットの 大小が真のランキングと一致さ せるためのペアワイズ損失 言語モデルにおけるトークン 予測の交差エントロピー損失 [7] Gangi Reddy et al., FIRST: Faster improved listwise reranking with single token decoding, EMNLP 2024.
  8. 8 ©︎ 2026 SB Intuitions Corp. 提案手法の詳細:First に逆傾向スコアで重み付け • Fisrt

    の Rank 損失部分に IPS による重み付けを行っている ◦ 検索結果上位における単純な頻度ではなく 入力位置から出力位置への遷移の非度に注目している (詳しくないだけかもですが遷移頻度はあまり見ない気がするので興味深いです 逆傾向スコア (IPS) で重み付け して位置バイアスを軽減 上位 20 件の単純な頻度ではなく 入力→出力の遷移頻度を利用
  9. 9 ©︎ 2026 SB Intuitions Corp. 提案手法の詳細:傾向 ω 行列の集計 •

    入力となる 1st Stage 検索モデルの検索結果上位 20 件の位置と リランカーの出力ランキングにおける位置の遷移頻度を利用 A B C D: 適合 E D: 適合 C B A E (4, 1) を +1 リランキングに 対する入出力の 遷移傾向の具体例 クエリ 3,000 件分の各クエリにたいして First の上位 20 件を 10 通りシャッフルして 30,000 サンプルを作成
  10. 10 ©︎ 2026 SB Intuitions Corp. 提案手法の詳細:データ拡張によるバイアス対策 • 入出力位置の様々なパターンを学習することで 特定の入出力位置パターンに対して過学習することへ対策

    ◦ position-aware augmentation, Pos-Aug ⚫ X軸: 入力位置 ⚫ Y軸: 正解のランキング位置 (GPT-4 を利用している) ⚫ Z軸: x, y に該当するパッセージ数 ⚫ 入力位置と出力位置が一致しやすい傾向があり、 この相関がバイアスとなっているという主張
  11. 11 ©︎ 2026 SB Intuitions Corp. RQ1:位置バイアスを減らせるか? • 提案手法は適合文書がどの位置にあっても nDCG@10

    が同程度 ◦ 既存手法は 5 位以下で nDCG@10 が低下傾向 ◦ 1~4 位では既存手法に劣るのでトレードオフな部分もあるといえる ⚫ データ: MS MARCO Dev ⚫ 検索モデル: Contriever(密検索) ⚫ 測定方法: 検索結果上位 20 件のうち 適合パッセージの位置を 1〜20 まで 1 つずつずらして全パターンの nDCG@10 を測定
  12. 12 ©︎ 2026 SB Intuitions Corp. RQ2:複数データセットにおいて性能が出るか? • ほとんどのデータセットにおいて提案手法によるリランキング結果が最も 良い性能を示し、上位

    20 件をシャッフルしても性能が保たれている ◦ リランキングはウィンドウサイズ 20、ステップサイズ 10 の スライディングウィンドウ方式で上位 100 件を並び替え 入力となる検索結果の順序が オリジナルの場合、ほぼ全ての データセットで提案手法が最も 良い 入力となる検索結果の順序を シャッフルした場合、既存手法 は性能が落ちる傾向にあるが、 提案手法は性能を保っている
  13. 13 ©︎ 2026 SB Intuitions Corp. RQ3:1st Stage の検索モデルを変えた時の性能は? •

    検索モデルを変えてもリランキングにおける検索性能は向上している ◦ RQ2 と同様にリランキングはウィンドウサイズ 20、ステップサイズ 10 の スライディングウィンドウ方式で上位 100 件を並び替え 検索モデルを変えてもほぼ全ての データセットでリランキング性能 が出ている BM25 や Contriever ではより 大きな性能改善につながっている
  14. 14 ©︎ 2026 SB Intuitions Corp. RQ4:推論ベースの手法を上回るか? • 推論ベースの手法よりも提案手法による性能がより高いことがわかる ◦

    推論時に位置バイアスに対処する手法 (PSC) と First を 組み合わせた手法と比較しても提案手法がより高い性能が出ている ◦ 提案手法と PSC を組み合わせると若干ではあるが性能が向上 提案手法と推論ベースの手法を 組み合わせることで少ないシャ ッフル数で性能が向上する 横軸は独立のシャッフル番号 棒グラフは独立したスコアで 折れ線グラフは PermSC がその番号 までの結果を集約したスコア
  15. 15 ©︎ 2026 SB Intuitions Corp. どんな論文? • LLM ベースの

    Listwise Reranking 手法における位置バイアスを 逆傾向スコアとデータ拡張によって除去する手法 DebiasFirst を紹介[1] [1] Qiao et al., LLM-based Listwise Reranking under the Effect of Positional Bias, ECIR 2026.