Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[IR Reading 2023春 論文紹介] A Unified Framework for...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Kohei Shinden
PRO
June 10, 2023
Research
93
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[IR Reading 2023春 論文紹介] A Unified Framework for Learned Sparse Retrieval (ECIR 2023) /IR-Reading-2023-Spring
https://sigirtokyo.github.io/post/2023-06-10-irreading_2023spring/
Kohei Shinden
PRO
June 10, 2023
More Decks by Kohei Shinden
See All by Kohei Shinden
[IR Reading 2026春 論文紹介] LLM-based Listwise Reranking under the Effect of Positional Bias (ECIR 2026) /IR-Reading-2026-Spring
koheishinden
PRO
0
110
[IR Reading 2023秋 論文紹介] On the Impact of Outlier Bias on User Clicks (SIGIR 2023) /IR-Reading-2023-Fall
koheishinden
PRO
0
96
[IR Reading 2022秋 論文紹介] Price DOES Matter!: Modeling Price and Interest Preferences in Session-based Recommendation (SIGIR 2022) /IR-Reading-2022-Fall
koheishinden
PRO
0
94
[ACM SIGMOD-J 79] The Web Conference 2022 国際会議報告 Security セッション /ACM-SIGMOD-J-79-The-Web-Conf-2022
koheishinden
PRO
0
95
[IR Reading 2022春 論文紹介] Personalized Transfer of User Preferences for Cross-domain Recommendation (WSDM 2022) /IR-Reading-2022-Spring
koheishinden
PRO
0
92
[IR Reading 2021秋 論文紹介] Fairness among New Items in Cold Start Recommender Systems (SIGIR 2021) /IR-Reading-2022-Fall
koheishinden
PRO
0
93
[IR Reading 2021春 論文紹介] Investigating the Influence of Ads on User Search Performance, Behaviour, and Experience during Information Seeking (CHIIR 2021) /IR-Reading-2021-Spring
koheishinden
PRO
0
94
Other Decks in Research
See All in Research
National high-resolution cropland classification of Japan with agricultural census information and multi-temporal multi-modality datasets
satai
3
300
さくらインターネット研究所テックトーク2026春、研究開発Gr.25年度成果26年度方針
kikuzo
0
150
Model Discovery and Graph Simulation: A Lightweight Gateway to Chaos Engineering
anatolykr
0
210
2026 東京科学大 情報通信系 研究室紹介 (大岡山)
icttitech
0
3.8k
Dual Quadric表現を用いた動的物体追跡とRGB-D・IMU制約の密結合によるオドメトリ推定
nanoshimarobot
0
410
RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent
satai
2
310
ScoreMatchingRiesz for Automatic Debiased Machine Learning and Policy Path Estimation with an Application to Japanese Monetary Policy Evaluation
masakat0
0
290
AGI4OPT:自然言語から数理最適化を導くエ ージェントスキル Translating Human Intent into Mathematical Optimization
mickey_kubo
0
140
COFFEE-Japan PROJECT Impact Report(Uminomukou Coffee)
ontheslope
0
200
AI Agentの精度改善に見るML開発との共通点 / commonalities in accuracy improvements in agentic era
shimacos
6
1.7k
【Zozo Research 技術共有会】三次元領域の現在と展望
mickey_0226
3
390
進学校の生徒にはア行の苗字が多いのか
ozekinote
0
450
Featured
See All Featured
Between Models and Reality
mayunak
4
340
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
123
22k
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.7k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
71
40k
How to Think Like a Performance Engineer
csswizardry
28
2.7k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
310
Mobile First: as difficult as doing things right
swwweet
225
10k
Producing Creativity
orderedlist
PRO
348
40k
AI: The stuff that nobody shows you
jnunemaker
PRO
8
720
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
How to make the Groovebox
asonas
2
2.2k
WCS-LA-2024
lcolladotor
0
650
Transcript
[論⽂紹介] A Unified Framework for Learned Sparse Retrieval Thong Nguyen1,
Sean MacAvaney2, Andrew Yates1 1University of Amsterdam, 2University of Glasgow ECIR 2023 論⽂紹介する⼈ 筑波⼤学加藤研究室 新⽥洸平 https://sites.google.com/view/kohei-shinden ※スライド中の図表は論⽂より引⽤ 2023年6⽉10⽇ IR Reading 2023 春 ⼀般セッション2 No.3
• Learned Sparse Retrieval のフレームワークと分類を提案 要素や分類ごとに有効性と効率性を⽐較分析した研究 どんな論⽂? 2 実験からわかったこと •
⽂書の重み付けが有効性に⼤きく貢献 • クエリの重み付けは効率性を維持しつつ有効性に貢献 • クエリ拡張と⽂書拡張を両⽅⾏うと効果が相殺されることを確認 LSR フレームワークの要素 LSR の分類 • エンコーダ • 正則化 • 教師 クエリと⽂書に対する 拡張と重み付けから4つに分類
• Learned Sparse Retrieval (LSR)とは データセットから単語の重要度を学習し利⽤するスパース検索 ‒ 現在主流である転置インデックスベースの⼿法をそのまま利⽤可能 ‒ 重要度の学習には
BERT などの Transformer ベースのモデルを利⽤ ‒ 代表的な⼿法: SPLADE, DeepCT, uniCOIL, TILDE, EPIC etc. Learned Sparse Retrieval とは? 3 BM25 を LSR 的に考えると IDF を Query Encoder, TF を Document Encoder と捉えられる (LSR では重み付けを⾏う Encoder が Transformer)
• LSR フレームワークの構成要素としてエンコーダ, 正則化, 教師(Supervision) の3要素を提⽰ Learned Sparse Retrieval の構成要素
4 エンコーダ Binary MLP expMLP MLM clsMLM 正則化 FLOPs Lp Norm Top-K 教師 Negatives Label 教師の構成 エンコーダにおける構成 MLP: Multilayer perceptron MLM: Masked Language Model
クエリと⽂書に対する拡張と重み付けを軸に LSR ⼿法を4グループに分類 Learned Sparse Retrieval の分類 5 クエリと⽂書で拡張なし クエリと⽂書で重み付けあり
クエリ拡張はなし ⽂書拡張はあり クエリと⽂書で重み付けあり クエリ拡張はなし ⽂書拡張はあり クエリで重み付けなし ⽂書で重み付けあり クエリと⽂書で拡張あり クエリと⽂書で重み付けあり 拡張 • あり:MLM, expMLP • なし:MLP, BINARY 重み付け • あり:MLP , expMLP, MLM • なし:BINARY
リサーチクエスチョン 6 既存 LSR ⼿法における結果は再現可能か? →既存⼿法とほぼ同等の性能で再現可能 既存⼿法 + 最新の学習⼿法でパフォーマンスはどうなるか? →ハードネガティブのマイニングやクロスエンコーダからの蒸留
を取り⼊れることで既存⼿法の性能も⼤きく向上 エンコーダアーキテクチャの違いはどう影響するか? →拡張・重み付け・正則化を⽐較した結果,⽂書の重み付けが ⼤きな効果を⽰し,クエリ拡張と⽂書拡張を同時に⾏うと 効果が相殺されることがわかった RQ1 RQ2 RQ3
MSMarco dev においてMRR@10 のスコアを原著論⽂と ほぼ同等のスコアで再現可能であることが⽰されている RQ1:既存の LSR 研究の再現可能性 distilSplademax が
最も良い性能を⽰す 7 MSMarco dev における原著論⽂と再現の⽐較結果 スコアの差分 クエリと⽂書で拡張あり クエリと⽂書で重み付けあり 問題としてRQ1の実験では原著論⽂に合 わせていることで環境のばらつきが残る 最も低い性能
学習環境を揃えてハードネガティブマイニングと蒸留を 適⽤した結果は性能向上しつつ RQ1 と同様の結果になる RQ2:最新の学習⼿法を適⽤した際の既存⼿法の性能 8 最も低い性能だが 効率は最も良い 最も良い性能を⽰すが 効率性が悪い
学習環境を統⼀することで効率性を確認 レイテンシ • エンコード速度 • 検索速度
⽂書の重み付けが最も有効 インデックスサイズとレイテンシを抑えつつ性能を⼤きく向上 RQ3:LSR アーキテクチャの構成と影響(重み付け) クエリの重み付けはインデックスサイズと レイテンシを抑えつつある程度の性能向上 9
クエリ拡張と⽂書拡張は両⽅⾏うと効果が相殺 どちらか⼀⽅のみで効率性を抑えつつ性能を向上 RQ3: LSR アーキテクチャの構成と影響(拡張)1/2 クエリ拡張なし⽂書拡張あり クエリ拡張あり⽂書拡張なし クエリ拡張のみがインデックスサイズも増やさず レイテンシもある程度の増加で性能向上しているため 最も良い選択であるように⾒える
10 3a と 4a について,構成は同じで値が違うのは焦点を当てているモデルの違い
クエリエンコーダを MLM → MLP に変更して クエリ拡張を⾏わない場合でも性能に差はなくレイテンシが改善 RQ3: LSR アーキテクチャの構成と影響(拡張)2/2 クエリ拡張なし
distilSpladeqMLP は distilSpladesep のクエリエンコーダを MLM(BERT etc.) → MLP に置き換えたもの 11
• Learned Sparse Retrieval のフレームワークと分類を提案 要素や分類ごとに有効性と効率性を⽐較分析した研究 まとめ 12 実験からわかったこと •
⽂書の重み付けが有効性に⼤きく貢献 • クエリの重み付けは効率性を維持しつつ有効性に貢献 • クエリ拡張と⽂書拡張を両⽅⾏うと効果が相殺されることを確認 LSR フレームワークの要素 LSR の分類 クエリと⽂書に対する 拡張と重み付けから4つに分類 • エンコーダ • 正則化 • 教師