Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文読み会 SNLP2024 Instruction-tuned Language Model...
Search
S
August 19, 2024
Research
1
520
論文読み会 SNLP2024 Instruction-tuned Language Models are Better Knowledge Learners. In: ACL 2024
S
August 19, 2024
Tweet
Share
More Decks by S
See All by S
論文読み会 SNLP2025 Learning Dynamics of LLM Finetuning. In: ICLR 2025
s_mizuki_nlp
0
14
埋め込み表現の意味適応による知識ベース語義曖昧性解消
s_mizuki_nlp
2
500
論文読み会 SNLP2018 Sequence to Action: End to End Semantic Graph Generation for Semantic Parsing
s_mizuki_nlp
0
92
論文読み会 SNLP2019 Ordered neurons: Integrating tree structures into recurrent neural networks
s_mizuki_nlp
0
92
論文読み会 SNLP2020 ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
s_mizuki_nlp
0
140
論文読み会 SNLP2021 A Distributional Approach to Controlled Text Generation
s_mizuki_nlp
0
100
Other Decks in Research
See All in Research
Google Agent Development Kit (ADK) 入門 🚀
mickey_kubo
2
1.6k
AIによる画像認識技術の進化 -25年の技術変遷を振り返る-
hf149
7
3.9k
【緊急警告】日本の未来設計図 ~沈没か、再生か。国民と断行するラストチャンス~
yuutakasan
0
150
言語モデルの地図:確率分布と情報幾何による類似性の可視化
shimosan
5
1.1k
2025/7/5 応用音響研究会招待講演@北海道大学
takuma_okamoto
1
170
電通総研の生成AI・エージェントの取り組みエンジニアリング業務向けAI活用事例紹介
isidaitc
1
880
ストレス計測方法の確立に向けたマルチモーダルデータの活用
yurikomium
0
1.2k
MIRU2025 チュートリアル講演「ロボット基盤モデルの最前線」
haraduka
15
7.2k
Large Language Model Agent: A Survey on Methodology, Applications and Challenges
shunk031
14
9.7k
Cross-Media Information Spaces and Architectures
signer
PRO
0
230
【輪講資料】Moshi: a speech-text foundation model for real-time dialogue
hpprc
3
620
データxデジタルマップで拓く ミラノ発・地域共創最前線
mapconcierge4agu
0
210
Featured
See All Featured
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
Building Applications with DynamoDB
mza
96
6.6k
Git: the NoSQL Database
bkeepers
PRO
431
65k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
183
54k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
9
780
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
BBQ
matthewcrist
89
9.8k
YesSQL, Process and Tooling at Scale
rocio
173
14k
Facilitating Awesome Meetings
lara
55
6.5k
The Cost Of JavaScript in 2023
addyosmani
53
8.8k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
161
15k
KATA
mclloyd
32
14k
Transcript
Instruction-tuned Language Models are Better Knowledge Learners. In: ACL 2024
Zhengbao Jiang, Zhiqing Sun, Weijia Shi, Pedro Rodriguez, Chunting Zhou, Graham Neubig, Xi Lin, Wen-tau Yih, Srini Iyer 第16回 最先端NLP勉強会 Hottolink/ Titech Okazaki Lab/AIST: Sakae Mizuki 2024-08-25 ※ スライド中の図表・数式は,断りのないかぎり本論文からの引用です
概要 2
背景と目的 • 最新の情報に答えられるようにしたい • うまく継続事前学習させるにはどうしたらよいか 3 知識カットオフ:2022年9月 2023年のテキストを追加で学習 Q. マーベルズの監督は?
A. ニア・ダコスタ +2023年の情報 Q. マーベルズの監督は? A. ルッソ兄弟
仮説 • LLMは事前学習テキストから知識をエンコードする • 質問応答(QA)による指示チューニングは知識の引き出し方を教える • [Sanh+, ICLR22][Wei+, ICLR22] など
• ならば,QAで事前学習すると「引き出し方」を意識したエンコードを するようになって,継続事前学習の性能が改善するのでは? 4 Q. マーベルズの監督は? A. ニア・ダコスタ Q. マーベルズの脚本は? A. ミーガン・マクドネル QAで事前学習 Better Knowledge Learner +知識獲得能力
提案手法と実証 • 質問応答で事前学習してから継続事前学習を実行する Pre-Instruction-Tuning (PIT) を提案 • Wikipediaの2023年映画記事で実験 • 通常の継続事前学習や指示チューニングの精度を上回ることを実証
5 Q. マーベルズの監督は? A. ニア・ダコスタ Q. マーベルズの脚本は? A. ミーガン・マクドネル Pre-Instruction-Tuning 継続事前学習 Q. バービーの主演は? A. マーゴット・ロビー ++2023年の情報
実験設定 6
実験設定 • 2022年9月までの知識を持つ Llama 2 7B に 2023年の映画の情報を学習させる設定 • 2023年のWikipedia映画記事=docを収集して
LLMに記事の質問応答=QAを作らせる • {train doc, train QA, test doc, test QA}に分割 7 doc QA train QA train doc test QA test doc 1,720件 11,603問 1,743問 256件
実験設定 • Llama 2 に2023年の知識はないので test QA は解けない (精度は9.5%) •
test doc を継続事前学習させたときの test QA の精度を競う • 提案手法は train doc, train QA を使ってPre-Instruct-Tuningする • train doc, train QA で普通(?)に学習するやりかたをベースラインとする train QA train doc test QA test doc Pre-Instruction-Tuning 継続事前学習 評価 5-shot accuracy (exact match) Llama 2 ~提案手法~ ~ベースライン~ test doc 継続事前学習 test QA 評価 継続事前学習のみ 継続事前学習 +指示チューニング test doc train doc 指示チューニング test QA train QA 8
実験と分析 9
実験結果 • Pre-Instruction-Tuning (PIT) により精度が6—18pt改善する • “全部同時に継続事前学習”との差異は train doc, train
QA の学習タイミングのみ なので,PIT効果の本質はカリキュラム学習だと示唆される 学習方法 Pre-Inst.-Tune. 継続事前学習 指示チューニング test QA acc. 継続事前学習 27.6 継続事前学習 +指示チューニング 30.3 全部同時に 継続事前学習 39.4 提案手法 45.4 test doc train QA test doc train doc train doc train QA test doc train doc train QA test doc 10
分析結果 • Pre-Inst.-Tune. はdocとQAを交互に配置して学習する • 論文の記述が不明瞭で断言できないが,たぶんそう • QAのみ学習したり,docとQAをそれぞれまとめて学習するとPITの効果は消失す るので,open-book QAのようなスタイルがカギなのだと示唆される
学習方法 Pre-Inst.-Tune. 継続事前学習 test QA acc. QAのみでPIT 28.6 QAのあとでdoc 32.5 提案手法 45.4 test doc test doc test doc train QA train QA train doc train doc train QA 11
分析結果 • 本実験はtrain, testとも映画記事というドメイン内設定である • 映画以外(芸術・経済・政治等)から train doc, train QA
を取ってくる設定でも PITは依然として有効だが,ドメイン内設定よりも精度が8pt低下する • したがって,汎化能力は怪しい気がする 学習方法 Pre-Inst.-Tune. 継続事前学習 指示チューニング test QA acc. 継続事前学習 +指示チューニング 23.6 提案手法 36.9 提案手法 45.4 映画以外のtrain QA test doc 映画以外のtrain doc train doc train QA test doc 映画以外のtrain doc 映画以外のtrain QA test doc 12
まとめと考察 13
まとめ • 質問応答でPre-Instruction-Tuning (PIT) したLLMは”Better knowledge learner”になって,継続事前学習の知識獲得が改善する • open-book QAのように文書と質問応答を交互に並べるのがカギ
• ドメイン間設定では効果が低下するもよう • 質問応答での有効性のみ確認.推論や読解での有効性は不明 14
読んだ理由・読んでみた感想 • カリキュラム学習の有効性を示唆する希有な例だったので… • 日本語での継続事前学習に役立つかもしれないと思った • 気になる点はいろいろある • 1つ目は,実験が極小規模なので実用レベルにスケールするかわからないこと. PITの効果は100Bトークンの継続事前学習でも消失しないのか?
• 2つ目,獲得済み知識の忘却とのtrade-offの議論がないこと.test docを10epoch 回すので,ほぼ完全に継続事前学習テキストを記憶する実験設定になっている 15 test docのperplexityは1まで低下 Natural Questionsの正答率は 30から約15に低下