Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
What Are You Token About? Dense Retrieval as Di...
Search
Ryokan RI
August 19, 2023
Research
0
670
What Are You Token About? Dense Retrieval as Distributions Over the Vocabulary
2023 第15回最先端NLP勉強会
Ryokan RI
August 19, 2023
Tweet
Share
More Decks by Ryokan RI
See All by Ryokan RI
Language is primarily a tool for communication rather than thought
ryou0634
4
970
マルチリンガルな言語モデル入門:これまでとこれから
ryou0634
4
4.3k
注意機構を用いた言語創発ゲーム
ryou0634
0
200
人工言語を使った事前訓練:言語間転移が可能なエンコーダの持っている知識とは何か?
ryou0634
0
900
MIROSTAT で意外さを コントロールした文章生成
ryou0634
1
920
Other Decks in Research
See All in Research
EarthSynth: Generating Informative Earth Observation with Diffusion Models
satai
3
120
Generative Models 2025
takahashihiroshi
21
12k
Cross-Media Information Spaces and Architectures
signer
PRO
0
230
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization
satai
3
250
Ad-DS Paper Circle #1
ykaneko1992
0
5.6k
Vision And Languageモデルにおける異なるドメインでの継続事前学習が性能に与える影響の検証 / YANS2024
sansan_randd
1
110
SSII2025 [SS2] 横浜DeNAベイスターズの躍進を支えたAIプロダクト
ssii
PRO
7
3.7k
心理言語学の視点から再考する言語モデルの学習過程
chemical_tree
2
450
Self-supervised audiovisual representation learning for remote sensing data
satai
3
230
A multimodal data fusion model for accurate and interpretable urban land use mapping with uncertainty analysis
satai
3
230
最適化と機械学習による問題解決
mickey_kubo
0
140
公立高校入試等に対する受入保留アルゴリズム(DA)導入の提言
shunyanoda
0
6.1k
Featured
See All Featured
Why You Should Never Use an ORM
jnunemaker
PRO
58
9.5k
For a Future-Friendly Web
brad_frost
179
9.8k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
18
990
What’s in a name? Adding method to the madness
productmarketing
PRO
23
3.5k
Optimizing for Happiness
mojombo
379
70k
BBQ
matthewcrist
89
9.7k
Unsuck your backbone
ammeep
671
58k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
The Straight Up "How To Draw Better" Workshop
denniskardys
235
140k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Documentation Writing (for coders)
carmenintech
72
4.9k
Transcript
Ori Ram, Liat Bezalel, Adi Zicher, Yonatan Belinkov, Jonathan Berant,
Amir Globerson (ACL 2023) ࠷ઌ NLP ษڧձ 2023 ಡΉਓɿཥ ྇פʢLINEגࣜձࣾʣ What Are You Token About? Dense Retrieval as Distributions Over the Vocabulary
- ີϕΫτϧݕࡧͷϕΫτϧΛޠኮۭؒʹࣹӨͯ͠ղऍ͢Δ ख๏ΛఏҊ - ͦͷख๏ͰີϕΫτϧؚ͕ΉใΛੳ - ີϕΫτϧ͕ॏཁ୯ޠͷใΛ٫ͯ͠͠·͏ݱΛൃݟ ͠ɺͦΕΛվળ͢Δख๏ΛఏҊ จͷ֓ཁ 2
എܠ ϕΫτϧݕࡧʹ͍ͭͯ 3
- ີϕΫτϧݕࡧͷϕΫτϧΛޠኮۭؒʹࣹӨͯ͠ղऍ͢Δ ख๏ΛఏҊ - ͦͷख๏ͰີϕΫτϧؚ͕ΉใΛੳ - ີϕΫτϧ͕ॏཁ୯ޠͷใΛ٫ͯ͠͠·͏ݱΛൃݟ ͠ɺͦΕΛվળ͢Δख๏ΛఏҊ จͷ֓ཁ 4
⾚⽯⼭脈 ⽇本 2番⽬ ⾼ 標⾼(3193m) 誇 北岳 。 Query ͕༩͑ΒΕɺPassage
ू߹͔Βؔ࿈͢ΔจॻΛऔಘ͢Δɻ ݚڀʹ͓͚Δݕࡧ ݕࡧγεςϜ ⽇本 ⼆番⽬ ⾼ ⼭ 何? 5
Query ͱ Passage Λ࿈ଓີϕΫτϧʹม͠ɺ ྨࣅݕࡧʹΑͬͯ݁ՌΛऔಘ͢Δɻ ີϕΫτϧݕࡧ Dense (Vector) Retrieval Τϯίʔμ
⽇本 ⼆番⽬ ⾼ ⼭ 何? Τϯίʔμ ྨࣅݕࡧ 6
ີϕΫτϧݕࡧͷදख๏ Dense Passage Retrieval (DPR; Karpukhin et al., 2020) Transformer
[CLS] ⽇本 ⼆ ? … [SEP] ϓʔϦϯά ϕΫτϧมʹ BERT ͳͲͷࣄલֶशࡁΈΤϯίʔμΛ༻͍Δɻ ͦͯ͠ݕࡧλεΫ͚ʹϑΝΠϯνϡʔχϯάΛ͢Δɻ 7
ϑΝΠϯνϡʔχϯάʹ in-batch negative Λ༻͍Δɻ ີϕΫτϧݕࡧͷදख๏ Dense Passage Retrieval (DPR; Karpukhin
et al., 2020) q1 q2 q3 p1 p2 p3 ᶃ ؔ࿈͢Δ Query ͱ Passage ͰόονΛ࡞ɻ ᶄ શͯͷϖΞʹ͍ͭͯ ϕΫτϧͷੵΛܭࢉɻɹɹ ؔ࿈͢ΔϖΞΛਖ਼ྫɺ ͦͷଞΛෛྫͱ͢Δɻ ᶅ ֤ Query ʹ͍ͭͯɺਖ਼ྫ ͷείΞ͕૬ରతʹେ͖͘ͳΔ Α͏ʹ࠷దԽ͢Δɻ Softmax with Cross-Entropy 8
ີϕΫτϧݕࡧ vs. ૄϕΫτϧݕࡧ 9
ૄϕΫτϧݕࡧ Sparse (Vector) Retrieval ⽇本 ⼆番⽬ ⾼ ⼭ 何? …
ຊ … ࢁ … ߴ͍ … 0 1.54 0 3.45 0 2.3 0 ςΩετதͷ୯ޠʹείΞΛ༩͑ͯɺ ϕΫτϧΛ࡞Δɻ 10
ૄϕΫτϧݕࡧͷදख๏ BM25 (Robertson et al., 1994) IDF(w) Query தͷ୯ޠ w
ͷείΞɿ Passage தͷ୯ޠ w ͷείΞɿ f (w, p) ⋅ (k1 + 1) f (w, p) + k1 ⋅ (1 − b + b ⋅ |p| avgplength ) - ୯ޠ w ͷස͕ߴ͍΄ͲείΞ͕ߴ͍ - Passage ͷ͕͍͞΄ͲείΞ͕͍ - b ͱ k_1 ϋΠύϥ 11
ૄϕΫτϧݕࡧ Sparse (Vector) Retrieval … ຊ … ࢁ … ߴ͍
… 0 1.64 0 3.45 0 2.30 0 … ຊ … ࢁ … ߴ͍ … 0 3.42 0 2.74 0 1.33 0 ⋅ Query ͱ Passage ͷྨࣅૄϕΫτϧͷੵͱଊ͑Δ͜ͱ͕Ͱ͖Δɻ ࣮ࡍͷ࣮ͰɺసஔΠϯσοΫεΛߏங͠ Query தͷ୯ޠΛ࣋ͨͳ͍ Passage Λແࢹ͢ΔͳͲͯ͠ɺܭࢉΛߴԽ͢Δɻ 12
Ұൠతͳͱͯ͠ɺಘҙ͕ҟͳΔ (Thukar et al., 2021)ɻ ີϕΫτϧݕࡧ vs. ૄϕΫτϧݕࡧ in-domain ੑೳ
out-of-domain ੑೳ BM25 ʢૄϕΫτϧʣ ˚ ̋ DPR ʢີϕΫτϧʣ ̋ ˚ 13
ີϕΫτϧݕࡧසΤϯςΟςΟʹؔ͢Δ࣭ʹऑ͍ɻ ີϕΫτϧݕࡧ vs. ૄϕΫτϧݕࡧ Table 1, Sciavolino et al., 2021
ΑΓ 14
ʢ͓·͚ʣଞʹ͍ΖΜͳख๏͕ఏҊ͞Ε͍ͯΔ͕ ີͱૄͷϋΠϒϦουͩͬͨΓɺΞΠσΟΞͷܥේ͕͋ͬͯ໘ന͍ BM25 DPR SPLADE ColBERT COIL CITADEL Li et
al., 2022 Formal et al., 2021 Gao et al., 2021 Khattab et al., 2020 Karpukhin et al., 2020 Robertson et al., 1994 ϚϧνϕΫτϧԽ BERT ͷ MLM-head ͰείΞΛ༧ଌ ϕΫτϧݕࡧͰ సஔΠϯσοΫεΛ༻ ʢ͍Ζ͍Ζશ෦Γͷख๏ʣ 15
ੳख๏ Vocabulary Projections ͷఏҊ 16
- ີϕΫτϧݕࡧͷϕΫτϧΛޠኮۭؒʹࣹӨͯ͠ղऍ͢Δ ख๏ΛఏҊ - ͦͷख๏ͰີϕΫτϧؚ͕ΉใΛੳ - ີϕΫτϧ͕ॏཁ୯ޠͷใΛ٫ͯ͠͠·͏ݱΛൃݟ ͠ɺͦΕΛվળ͢Δख๏ΛఏҊ จͷ֓ཁ 17
ϕΫτϧΛޠኮۭؒʹࣹӨ͢Δ Τϯίʔμ q … ຊ … ࢁ … ߴ͍ …
0… 0.11 0… 0.13 0… 0.09 0… MLM head ϕΫτϧʹͲͷΑ͏ͳ୯ޠͷใ͕Ͳͷ͘Βؚ͍·Ε͍ͯΔ͔͕͔Δ Q 18
ϕΫτϧΛޠኮۭؒʹࣹӨ͢Δ Τϯίʔμ q ϑΝΠϯνϡʔχϯάࡁΈ ࣄલֶशޙͦͷ·· 19 … ຊ … ࢁ
… ߴ͍ … 0… 0.11 0… 0.13 0… 0.09 0… MLM head Q
- ϑΝΠϯνϡʔχϯάͨ͠Τϯίʔμʹɺࣄલֶशޙͦͷ ··ͷ MLM head Λ߹Θ͍ͤͯΔɻ - ͔͠ MLM head
ͷೖྗຊདྷτʔΫϯ୯ҐͷϕΫτϧ ͰɺೖྗશମΛදݱ͢ΔϓʔϦϯά͞ΕͨϕΫτϧΛೖྗ ͢Δ͜ͱఆ͞Ε͍ͯͳ͍ɻ ͜Μͳ͜ͱΛ͍͍ͯ͠ͷ͔ʁ🤔 ஶऀΒͷओுɿײతͳ݁Ռ͕ಘΒΕ͍ͯΔͷͰϤγʂ 20
- Ұൠʹ BERT ΛϑΝΠϯνϡʔχϯάͯ͠ɺ্ҐϨΠϠʔ͕গ͠ಈ͚ͩ͘ (Zhou and Srikumar, 2022)ɻ ➡︎ ϑΝΠϯνϡʔχϯάલͷ
MLM head Λ߹ΘͤͯͦΕͳΓʹҙຯͷ͋Δ݁Ռ͕ ಘΒΕΔͱߟ͑ΒΕΔɻ - ϓʔϦϯά͍ͯ͠Δͱ͍ͬͯɺτʔΫϯ୯ҐͷϕΫτϧ͔Β࡞ΒΕ͍ͯΔɻ ➡︎ LM head ʹೖΕͯগͳ͘ͱ୯ޠใͷ૬ରతͳڧ͞औΕͦ͏ɻ - Query ͱ Passage ͷΤϯίʔμಉ͡ BERT ͔ΒॳظԽ͞ΕɺతؔςΩ ετͷྨࣅʹ͍ؔͯ͠Δɻ ➡︎ ײతʹɺݩͷΤϯίʔμͷ୯ޠใۭؒʹࡌ͔ͬΔܗͰֶश͕ਐΈͦ͏…ʁ ஶऀΒʹΘͬͯਖ਼ԽΛࢼΈΔͱ… 21
DPR ͷੳ 22
- ີϕΫτϧݕࡧͷϕΫτϧΛޠኮۭؒʹࣹӨͯ͠ղऍ͢Δ ख๏ΛఏҊ - ͦͷख๏ͰີϕΫτϧؚ͕ΉใΛੳ - ີϕΫτϧ͕ॏཁ୯ޠͷใΛ٫ͯ͠͠·͏ݱΛൃݟ ͠ɺͦΕΛվળ͢Δख๏ΛఏҊ จͷ֓ཁ 23
ੳͷςʔϚͱͯ͠ɺੲͳ͕ΒͷૄϕΫτϧݕࡧͰॏཁͩͱ ߟ͑ΒΕ͍ͯΔใ͕ɺDPR Ͱ׆༻͞Ε͍ͯΔ͔ɺͱ͍͏ ͜ͱΛ͔֬Ί͍ͯΔɻ 1. Query-Passage ؒͷ୯ޠॏෳͷੳ 2. Passage ϕΫτϧ
Query ʹݱΕΔ୯ޠΛ༧ଌ͍ͯ͠ Δʁ 3. Query ΤϯίʔμΫΤϦ֦ுΛ͍ͯ͠Δ͔ ੳ༰ 24
Query ͱ Passage ͷ୯ޠͷॏෳૄϕΫτϧݕࡧͰͱͯॏཁ 1. Query-Passage ؒͷ୯ޠॏෳͷੳ ੳഎܠ ➡︎ ີϕΫτϧͰͲ͏͔ʁ
… ຊ … ࢁ … ߴ͍ … 0 1.64 0 3.45 0 2.30 0 … ຊ … ࢁ … ߴ͍ … 0 3.42 0 2.74 0 1.33 0 ⋅ 25
1. Query-Passage ؒͷ୯ޠॏෳͷੳ ੳํ๏ ࢁ ຊ ߴ͍ … … 0.13
0.11 0.09 … … ⾚⽯⼭脈 ⽇本 ⼆番⽬ ⾼ 標⾼(3193m) 誇 北岳 。 ⽇本 ⼆番⽬ ⾼ ⼭ 何? ַ ຊ ໌ੴ … … 0.22 0.10 0.09 … … ڞ௨୯ޠ ⽇本、⼆番⽬、⾼ top-3 ͷڞ௨୯ޠ ⽇本 Q P top-k ͷڞ௨୯ޠ͕ڞ௨୯ޠͷԿ%Χόʔ͍ͯ͠Δ͔Λௐࠪ Vocabulary Projection 26
1. Query-Passage ؒͷ୯ޠॏෳͷੳ ੳ݁Ռ Figure 3 ΑΓ DPR ɺϑΝΠϯνϡʔχϯάલʹ ൺͯɺϕΫτϧʹ
Query ͱ Passage Ͱڞ௨͢ΔΑ͏ͳ୯ޠใ ΛΑΓଟ͘Τϯίʔυ͍ͯ͠Δɻ ➡︎ ີϕΫτϧͰ୯ޠॏෳ͕ॏཁɻ 27
2. Passage ϕΫτϧ Query ʹݱΕΔ୯ޠΛ༧ଌ͍ͯ͠Δʁ ੳഎܠ Passage ͨ͘͞Μ୯ޠΛؚΉ͕ɺͦͷ͏ͪ Query ʹݱΕΔΑ͏ͳ୯ޠΛ
ڧௐ͢ΔΑ͏ʹɺDPR ϕΫτϧΛΤϯίʔυ͍ͯ͠Δʁ ⾚⽯⼭脈 ⽇本 ⼆番⽬ ⾼ 標⾼(3193m) 誇 北岳 。 ⽇本 ⼆番⽬ ⾼ ⼭ 何? 28
⽇本 ⼆番⽬ ⾼ ⼭ 何? ַ ຊ ໌ੴ … …
0.22 0.10 0.09 … … Query ͷ୯ޠ͕ P Ͱ্ҐʹϥϯΩϯά͞Ε͍ͯΔ͔ʁ ͜ΕΛQueryதͷ୯ޠͷɺP ʹ͓͚ΔฏۉٯॱҐͰఆྔԽɻ P 2. Passage ϕΫτϧ Query ʹݱΕΔ୯ޠΛ༧ଌ͍ͯ͠Δʁ ੳํ๏ 29
Table 2 ΑΓ DPR vs. BERT(mean) ϑΝΠϯνϡʔχϯάલʹൺͯɺ ҙຯͷ͋Δ୯ޠΛ্ҐʹΤϯίʔυ ͢ΔΑ͏ʹͳ͍ͬͯΔɻ >
> > 2. Passage ϕΫτϧ Query ʹݱΕΔ୯ޠΛ༧ଌ͍ͯ͠Δʁ ੳ݁Ռ 30
Table 2 ΑΓ DPR ͷ Passage ϕΫτϧʹɺ Passage ͱ Query
ڞ௨ͷ୯ޠ্͕ ҐʹΤϯίʔυ͞Ε͍͢ɻ ·ͨ Query தͷ୯ޠɺPassage தͷ୯ޠΑΓ্ҐʹΤϯίʔυ͞ Ε͍͢ɻ > > ➡︎ DPR ɺݕࡧʹॏཁͳ୯ޠใ Λ༧ଌ͠ɺϕΫτϧʹΤϯίʔυ ͍ͯ͠Δɻ 2. Passage ϕΫτϧ Query ʹݱΕΔ୯ޠΛ༧ଌ͍ͯ͠Δʁ ੳ݁Ռ 31
ੳഎܠɿQuery ʹಉٛޠؔ࿈͢Δ୯ޠͳͲΛิͬͯϚονΛ্͛Δɹ ΫΤϦ֦ுͱ͍͏ςΫχοΫ͕Α͘ΘΕΔɻ 3. Query ΤϯίʔμΫΤϦ֦ுΛ͍ͯ͠Δ͔ ੳഎܠ ⽇本 ⼆番⽬ ⾼
⼭ 何? ➡︎ DPR ΫΤϦ֦ுΛ҉ʹ͍ͯ͠Δʁ ⼭脈、標⾼、富⼠⼭… + 32
3. Query ΤϯίʔμΫΤϦ֦ுΛ͍ͯ͠Δ͔ ੳํ๏ ࢁ ຊ ߴ͍ ࢁ຺ … 0.13
0.11 0.09 0.07 … ⾚⽯⼭脈 ⽇本 ⼆番⽬ ⾼ 標⾼(3193m) 誇 北岳 。 ⽇本 ⼆番⽬ ⾼ ⼭ 何? ַ ຊ ໌ੴ ඪߴ … 0.22 0.10 0.09 0.07 … ϕΫτϧΛ ޠኮۭؒʹࣹӨ Q P Query ʹؚ·Ε͍ͯͳ͍͕ɺPassage ʹؚ·Ε͍ͯΔ୯ޠΛ top-k ʹ࣋ͭ Q ͕ͲΕ͘Β͍͋Δ͔Λௐࠪɻ 33
3. Query ΤϯίʔμΫΤϦ֦ுΛ͍ͯ͠Δ͔ ੳ݁Ռ Figure 4 ΑΓ ɹ ׂ̔Ҏ্ͷ Q
͕ɺtop-20 ͷ͏ͪ ʹ Query ʹͳ͍͕ Passage ʹଘࡏ ͢Δ୯ޠΛؚΜͰ͍Δɻ ➡︎ DPR ΫΤϦ֦ுΛ҉ʹֶशͯ͠ ͍Δɻ 34
DPR ૄϕΫτϧݕࡧͱಉ༷ʹɺ୯ޠͷॏෳΛॏཁࢹ͠ɺ ·ͨ Query ͱ Passage ͷϕΫτϧʹॏཁͷߴ͍୯ޠͷ ใΛೖΕΔڍಈΛ͍ͯ͠Δɻ ੳͷ·ͱΊ 35
Token Amnesia ʹ͍ͭͯ 36
- ີϕΫτϧݕࡧͷϕΫτϧΛޠኮۭؒʹࣹӨͯ͠ղऍ͢Δ ख๏ΛఏҊ - ͦͷख๏ͰີϕΫτϧؚ͕ΉใΛੳ - ີϕΫτϧ͕ॏཁ୯ޠͷใΛ٫ͯ͠͠·͏ݱΛൃݟ ͠ɺͦΕΛվળ͢Δख๏ΛఏҊ จͷ֓ཁ 37
Vocabulary Projections ͰϕΫτϧΛௐͯΈΔͱɺ Passage ϕΫτϧ͕ɺຊจʹଘࡏ͢Δॏཁͳ୯ޠΛ٫ͯ͠ ͍Δ͜ͱ͕͋Δɻ͜ΕΛ Token Amnesia ͱ͍͏ɻ ՝ͷൃݟ
⾚⽯⼭脈 ⽇本 ⼆番⽬ ⾼ 標⾼(3193m) 誇 北岳 。 北岳 標⾼ 何? Vocabulary Projection ַ ඪߴ … … … 0.33 0.21 … … … ੴ ຊ ඪߴ … ַ 0.22 0.10 0.09 … 0.001 Q P …͜ͷଘࡏΛఆྔతʹࣔͨ͠σʔλ (Figure 5) ׂѪ 38
ॏཁͳ୯ޠͷใΛϕΫτϧʹͤΑ͍ɻ Token Amnesia ͷղܾ๏ Passage ͷϕΫτϧ + ॏཁ୯ޠͷϕΫτϧ Λ͢Δ͜ͱͰੑೳվળɻ ͜ͷख๏
Lexical Enrichment ͱݺΕ͍ͯΔɻ 39
·ͣɺॏཁ୯ޠ t ͷใΛؚΜͩϕΫτϧ St Λ࡞Δɻ Lexical Enrichment st = arg
max ̂ s log MLM Head( ̂ s)[t] MLM Head ʹೖྗ͢Δͱ୯ޠ t ͷ༧ଌ͕֬ߴ͘ ͳΔΑ͏ͳϕΫτϧ ŝ ΛɺSGD Ͱֶश͢Δɻ 40
ෳͷॏཁ୯ޠ [x1, …, xn] ͷใΛɺPassage ϕΫτϧʹՃ͍ͨ͠ͱ͢Δɻ ͦͷ߹֤୯ޠΛ IDF ͰॏΈ͚ͯɺϕΫτϧΛ࡞Δɻ Lexical
Enrichment elex x = 1 n n ∑ i=1 IDF(xi )sxi ŝ 41
ݩʑͷύοηʔδϕΫτϧ ex ʹ͠߹ΘͤΔ࣌ɺਖ਼نԽΛ͠ɺ ॏΈ λ Λ͔͚Δɻ Lexical Enrichment e′ 
x = ex + λ ⋅ elex x elex x ŝ 42
Lexical Enrichment Λ༻͢Δͱ out-of-domain ੑೳ͕ྑ͘ͳΔɻ Lexical Enrichment ͷޮՌ Table 3
ΑΓൈਮ …ablation study (Table 4) ׂѪ 43
- ີϕΫτϧݕࡧͷϕΫτϧΛޠኮۭؒʹࣹӨͯ͠ղऍ͢Δ ख๏ΛఏҊ - ͦͷख๏ͰີϕΫτϧؚ͕ΉใΛੳ - ີϕΫτϧ͕ॏཁ୯ޠͷใΛ٫ͯ͠͠·͏ݱΛൃݟ ͠ɺͦΕΛվળ͢Δख๏ΛఏҊ จͷ֓ཁ 44
- Vocabulary Expansion ີϕΫτϧݕࡧͷҰา౿ΈࠐΜͩ ΤϥʔੳΛ͢Δͷʹཱͪͦ͏ɻ - Token Amnesia DPR
+ BM25 ͷΞϯαϯϒϧͳͲͰ ղܾ͠ͳ͍ͷͩΖ͏͔ʁʢLexical Enrichment ख͕͔ؒ ͔Γͦ͏ɻʣ ॴײ 45