Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[IR Reading 2023春 論文紹介] A Unified Framework for...

[IR Reading 2023春 論文紹介] A Unified Framework for Learned Sparse Retrieval (ECIR 2023) /IR-Reading-2023-spring

Published on June 10, 2023
IR Reading 2023春(オンライン) 開催案内 - ACM SIGIR 東京支部: https://sigir.jp/post/2023-06-10-irreading_2023spring/

論文:
Nguyen et al., A Unified Framework for Learned Sparse Retrieval, ECIR 2023, https://dl.acm.org/doi/abs/10.1007/978-3-031-28241-6_7, (arXiv: https://arxiv.org/abs/2303.13416)

リポジトリ:
https://github.com/thongnt99/learned-sparse-retrieval

Kohei Shinden

June 10, 2023
Tweet

More Decks by Kohei Shinden

Other Decks in Research

Transcript

  1. [論⽂紹介] A Unified Framework for Learned Sparse Retrieval Thong Nguyen1,

    Sean MacAvaney2, Andrew Yates1 1University of Amsterdam, 2University of Glasgow ECIR 2023 論⽂紹介する⼈ 筑波⼤学加藤研究室 新⽥洸平 https://sites.google.com/view/kohei-shinden ※スライド中の図表は論⽂より引⽤ 2023年6⽉10⽇ IR Reading 2023 春 ⼀般セッション2 No.3
  2. • Learned Sparse Retrieval のフレームワークと分類を提案 要素や分類ごとに有効性と効率性を⽐較分析した研究 どんな論⽂? 2 実験からわかったこと •

    ⽂書の重み付けが有効性に⼤きく貢献 • クエリの重み付けは効率性を維持しつつ有効性に貢献 • クエリ拡張と⽂書拡張を両⽅⾏うと効果が相殺されることを確認 LSR フレームワークの要素 LSR の分類 • エンコーダ • 正則化 • 教師 クエリと⽂書に対する 拡張と重み付けから4つに分類
  3. • Learned Sparse Retrieval (LSR)とは データセットから単語の重要度を学習し利⽤するスパース検索 ‒ 現在主流である転置インデックスベースの⼿法をそのまま利⽤可能 ‒ 重要度の学習には

    BERT などの Transformer ベースのモデルを利⽤ ‒ 代表的な⼿法: SPLADE, DeepCT, uniCOIL, TILDE, EPIC etc. Learned Sparse Retrieval とは? 3 BM25 を LSR 的に考えると IDF を Query Encoder, TF を Document Encoder と捉えられる (LSR では重み付けを⾏う Encoder が Transformer)
  4. • LSR フレームワークの構成要素としてエンコーダ, 正則化, 教師(Supervision) の3要素を提⽰ Learned Sparse Retrieval の構成要素

    4 エンコーダ Binary MLP expMLP MLM clsMLM 正則化 FLOPs Lp Norm Top-K 教師 Negatives Label 教師の構成 エンコーダにおける構成 MLP: Multilayer perceptron MLM: Masked Language Model
  5. クエリと⽂書に対する拡張と重み付けを軸に LSR ⼿法を4グループに分類 Learned Sparse Retrieval の分類 5 クエリと⽂書で拡張なし クエリと⽂書で重み付けあり

    クエリ拡張はなし ⽂書拡張はあり クエリと⽂書で重み付けあり クエリ拡張はなし ⽂書拡張はあり クエリで重み付けなし ⽂書で重み付けあり クエリと⽂書で拡張あり クエリと⽂書で重み付けあり 拡張 • あり:MLM, expMLP • なし:MLP, BINARY 重み付け • あり:MLP , expMLP, MLM • なし:BINARY
  6. リサーチクエスチョン 6 既存 LSR ⼿法における結果は再現可能か? →既存⼿法とほぼ同等の性能で再現可能 既存⼿法 + 最新の学習⼿法でパフォーマンスはどうなるか? →ハードネガティブのマイニングやクロスエンコーダからの蒸留

    を取り⼊れることで既存⼿法の性能も⼤きく向上 エンコーダアーキテクチャの違いはどう影響するか? →拡張・重み付け・正則化を⽐較した結果,⽂書の重み付けが ⼤きな効果を⽰し,クエリ拡張と⽂書拡張を同時に⾏うと 効果が相殺されることがわかった RQ1 RQ2 RQ3
  7. MSMarco dev においてMRR@10 のスコアを原著論⽂と ほぼ同等のスコアで再現可能であることが⽰されている RQ1:既存の LSR 研究の再現可能性 distilSplademax が

    最も良い性能を⽰す 7 MSMarco dev における原著論⽂と再現の⽐較結果 スコアの差分 クエリと⽂書で拡張あり クエリと⽂書で重み付けあり 問題としてRQ1の実験では原著論⽂に合 わせていることで環境のばらつきが残る 最も低い性能
  8. • Learned Sparse Retrieval のフレームワークと分類を提案 要素や分類ごとに有効性と効率性を⽐較分析した研究 まとめ 12 実験からわかったこと •

    ⽂書の重み付けが有効性に⼤きく貢献 • クエリの重み付けは効率性を維持しつつ有効性に貢献 • クエリ拡張と⽂書拡張を両⽅⾏うと効果が相殺されることを確認 LSR フレームワークの要素 LSR の分類 クエリと⽂書に対する 拡張と重み付けから4つに分類 • エンコーダ • 正則化 • 教師