Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文読み会 SNLP2024 Instruction-tuned Language Model...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
S
August 19, 2024
Research
610
1
Share
論文読み会 SNLP2024 Instruction-tuned Language Models are Better Knowledge Learners. In: ACL 2024
S
August 19, 2024
More Decks by S
See All by S
論文読み会 SNLP2025 Learning Dynamics of LLM Finetuning. In: ICLR 2025
s_mizuki_nlp
0
440
埋め込み表現の意味適応による知識ベース語義曖昧性解消
s_mizuki_nlp
2
590
論文読み会 SNLP2018 Sequence to Action: End to End Semantic Graph Generation for Semantic Parsing
s_mizuki_nlp
0
130
論文読み会 SNLP2019 Ordered neurons: Integrating tree structures into recurrent neural networks
s_mizuki_nlp
0
140
論文読み会 SNLP2020 ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
s_mizuki_nlp
0
190
論文読み会 SNLP2021 A Distributional Approach to Controlled Text Generation
s_mizuki_nlp
0
150
Other Decks in Research
See All in Research
Claude Code × autoresearch 実践
mathbullet
0
140
進学校の生徒にはア行の苗字が多いのか
ozekinote
0
420
Using our influence and power for patient safety
helenbevan
0
360
非試合日の野球場を楽しむためのARホームランボールキャッチ体験システムの開発 / EC79-miyazaki
yumulab
0
190
論文紹介 "ReSim: Reliable World Simulation for Autonomous Driving"
kogo
0
610
「行ける・行けない表」による地域公共交通の性能評価
bansousha
0
160
Ghost in the 7‑Zip: The Shadow of Residential Proxies Creeping into Your Life
nttcom
0
710
SOTAのさらに先へ:厳しい推論制約下での高性能モデルのPost-Training
analokmaus
0
1.2k
2026-01-30-MandSL-textbook-jp-cos-lod
yegusa
1
1.3k
RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent
satai
0
260
NII S. Koyama's Lab Research Overview AY2026
skoyamalab
0
270
業界横断 副業コンプライアンス調査 三者(副業者・本業先・発注者)におけるトラブル認知ギャップの構造分析
fkske
0
1.3k
Featured
See All Featured
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
550
AI: The stuff that nobody shows you
jnunemaker
PRO
8
680
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
170
Navigating Weather and Climate Data
rabernat
0
210
Measuring & Analyzing Core Web Vitals
bluesmoon
9
860
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
160
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
150
Building a Modern Day E-commerce SEO Strategy
aleyda
45
9.1k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
65
55k
Evolving SEO for Evolving Search Engines
ryanjones
0
210
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
71
40k
Transcript
Instruction-tuned Language Models are Better Knowledge Learners. In: ACL 2024
Zhengbao Jiang, Zhiqing Sun, Weijia Shi, Pedro Rodriguez, Chunting Zhou, Graham Neubig, Xi Lin, Wen-tau Yih, Srini Iyer 第16回 最先端NLP勉強会 Hottolink/ Titech Okazaki Lab/AIST: Sakae Mizuki 2024-08-25 ※ スライド中の図表・数式は,断りのないかぎり本論文からの引用です
概要 2
背景と目的 • 最新の情報に答えられるようにしたい • うまく継続事前学習させるにはどうしたらよいか 3 知識カットオフ:2022年9月 2023年のテキストを追加で学習 Q. マーベルズの監督は?
A. ニア・ダコスタ +2023年の情報 Q. マーベルズの監督は? A. ルッソ兄弟
仮説 • LLMは事前学習テキストから知識をエンコードする • 質問応答(QA)による指示チューニングは知識の引き出し方を教える • [Sanh+, ICLR22][Wei+, ICLR22] など
• ならば,QAで事前学習すると「引き出し方」を意識したエンコードを するようになって,継続事前学習の性能が改善するのでは? 4 Q. マーベルズの監督は? A. ニア・ダコスタ Q. マーベルズの脚本は? A. ミーガン・マクドネル QAで事前学習 Better Knowledge Learner +知識獲得能力
提案手法と実証 • 質問応答で事前学習してから継続事前学習を実行する Pre-Instruction-Tuning (PIT) を提案 • Wikipediaの2023年映画記事で実験 • 通常の継続事前学習や指示チューニングの精度を上回ることを実証
5 Q. マーベルズの監督は? A. ニア・ダコスタ Q. マーベルズの脚本は? A. ミーガン・マクドネル Pre-Instruction-Tuning 継続事前学習 Q. バービーの主演は? A. マーゴット・ロビー ++2023年の情報
実験設定 6
実験設定 • 2022年9月までの知識を持つ Llama 2 7B に 2023年の映画の情報を学習させる設定 • 2023年のWikipedia映画記事=docを収集して
LLMに記事の質問応答=QAを作らせる • {train doc, train QA, test doc, test QA}に分割 7 doc QA train QA train doc test QA test doc 1,720件 11,603問 1,743問 256件
実験設定 • Llama 2 に2023年の知識はないので test QA は解けない (精度は9.5%) •
test doc を継続事前学習させたときの test QA の精度を競う • 提案手法は train doc, train QA を使ってPre-Instruct-Tuningする • train doc, train QA で普通(?)に学習するやりかたをベースラインとする train QA train doc test QA test doc Pre-Instruction-Tuning 継続事前学習 評価 5-shot accuracy (exact match) Llama 2 ~提案手法~ ~ベースライン~ test doc 継続事前学習 test QA 評価 継続事前学習のみ 継続事前学習 +指示チューニング test doc train doc 指示チューニング test QA train QA 8
実験と分析 9
実験結果 • Pre-Instruction-Tuning (PIT) により精度が6—18pt改善する • “全部同時に継続事前学習”との差異は train doc, train
QA の学習タイミングのみ なので,PIT効果の本質はカリキュラム学習だと示唆される 学習方法 Pre-Inst.-Tune. 継続事前学習 指示チューニング test QA acc. 継続事前学習 27.6 継続事前学習 +指示チューニング 30.3 全部同時に 継続事前学習 39.4 提案手法 45.4 test doc train QA test doc train doc train doc train QA test doc train doc train QA test doc 10
分析結果 • Pre-Inst.-Tune. はdocとQAを交互に配置して学習する • 論文の記述が不明瞭で断言できないが,たぶんそう • QAのみ学習したり,docとQAをそれぞれまとめて学習するとPITの効果は消失す るので,open-book QAのようなスタイルがカギなのだと示唆される
学習方法 Pre-Inst.-Tune. 継続事前学習 test QA acc. QAのみでPIT 28.6 QAのあとでdoc 32.5 提案手法 45.4 test doc test doc test doc train QA train QA train doc train doc train QA 11
分析結果 • 本実験はtrain, testとも映画記事というドメイン内設定である • 映画以外(芸術・経済・政治等)から train doc, train QA
を取ってくる設定でも PITは依然として有効だが,ドメイン内設定よりも精度が8pt低下する • したがって,汎化能力は怪しい気がする 学習方法 Pre-Inst.-Tune. 継続事前学習 指示チューニング test QA acc. 継続事前学習 +指示チューニング 23.6 提案手法 36.9 提案手法 45.4 映画以外のtrain QA test doc 映画以外のtrain doc train doc train QA test doc 映画以外のtrain doc 映画以外のtrain QA test doc 12
まとめと考察 13
まとめ • 質問応答でPre-Instruction-Tuning (PIT) したLLMは”Better knowledge learner”になって,継続事前学習の知識獲得が改善する • open-book QAのように文書と質問応答を交互に並べるのがカギ
• ドメイン間設定では効果が低下するもよう • 質問応答での有効性のみ確認.推論や読解での有効性は不明 14
読んだ理由・読んでみた感想 • カリキュラム学習の有効性を示唆する希有な例だったので… • 日本語での継続事前学習に役立つかもしれないと思った • 気になる点はいろいろある • 1つ目は,実験が極小規模なので実用レベルにスケールするかわからないこと. PITの効果は100Bトークンの継続事前学習でも消失しないのか?
• 2つ目,獲得済み知識の忘却とのtrade-offの議論がないこと.test docを10epoch 回すので,ほぼ完全に継続事前学習テキストを記憶する実験設定になっている 15 test docのperplexityは1まで低下 Natural Questionsの正答率は 30から約15に低下