[SNLP2024] Tuning Language Models by Proxy

Tuning Language Models by Proxy 読む人：清野舜 (SB Intuitions) (図は元論文からの引用)

LLMをFinetuningしたい第16回最先端NLP勉強会 Preprint Figure 1: Proxy-tuning “ tunes” a large
pretrained model without accessing its internal weights, by steering it using an “ expert” (a small tuned model) and its corresponding “ anti-expert” (the small model, untuned). The difference between the predicted logits of the expert and the anti-expert is applied as an offset on the original logits from the base LLMの Finetuningをしたい大変なのでサボりたい

LLMのFinetuningは大変 • ハードウェアの問題 • GPUが大量に必要 • 実装の問題 • 事前学習用のフレームワークではFinetuningはできない •
Megatron-LMではどうにもならない • アルゴリズムの関係で実装が複雑になりがち • RLHF (PPO)：4つのモデルコピーが必要、途中で生成が発生、etc… • DPO：2つのモデルコピーが必要 • 小さなモデルで動く実装は大きなモデルで動かないがち • どうやって1TモデルのFinetuningをすればいい？ • 重みにアクセスできない問題 • 商用LLMの重みは公開されてないので、そもそもFinetuning不可第16回最先端NLP勉強会

提案手法：Proxy-Tuning • 大きなモデルの代理 (proxy) として小さいモデルをFinetuningする • 推論時は1トークンごとに補正をおこなう第16回最先端NLP勉強会 Preprint

この図を理解すれば大丈夫第16回最先端NLP勉強会 Preprint Figure 1: Proxy-tuning “ tunes” a large
pretrained model without accessing its internal weights, by steering it using an “ expert” (a small tuned model) and its corresponding “ anti-expert” (the small model, untuned). The difference between the predicted logits of the expert and the anti-expert is applied as an offset on the original logits from the base LLMの Finetuningをしたい大変なのでサボりたいまず小さいLM をFinetuning 元モデルとの差分を記録 LLMのlogitを補正 Finetuningと同じ効果を期待

式で書くと… 第16回最先端NLP勉強会 Figure 1: Proxy-tuning weights, by steering it “
anti-expert” (the sma the expert and the ant model, to guide it in the scale. The logits show LLA M A 2-7B (from top Figure 1: Proxy-tuning “ tunes” a large weights, by steering it using an “ expert “ anti-expert” (the small model, untuned the expert and the anti-expert is applied Figure 1: Proxy-tuning “ tunes” a large pretrained model without ac weights, by steering it using an “ expert” (a small tuned model) and ポイント① 補正は毎時刻必要ポイント② 語彙の一致を仮定これのfinetuning をサボりたい

実験設定 • 小規模LLM：7B Llama2(-Chat) • Proxyの計算に使う • 大規模LLM：{13B, 70B} Llama2(-Chat)
• Proxyを適用する先 • データセット：一般的に使われているやつ • AlpacaFarm • 指示追従性能の評価 • GSM • 計算問題 • ToxiGen • モデルが有害な文を生成するか？ • TruthfulQA • ハルシネーションの評価 • コード生成の実験もあるが割愛第16回最先端NLP勉強会モデルの学習は一切行っていない既存のモデルの足し引きだけ

実験結果 • タスクによってはFinetuningする場合 (directly tuned)と遜色ない性能 • ただし13Bのdirectly tuned == 70Bの
proxy tuned • 13BをFinetuningできるならそれが一番良さそう... 第16回最先端NLP勉強会

分析：どのトークンが影響を受けるか？ • 補正前後の確率分布を比べてみる • 主として議論を組み立てたり、回答のスタイルを制御するものが多い第16回最先端NLP勉強会

分析：どこが影響を受けるか？ • 生成中の系列のどこが影響を受けるか調査 • 系列の先頭はほとんど書き換えられる • 後半になるほど書き換えの確率は下がる
• 後半は補正なしで良いのでは？ • 途中で補正をサボると生成が破綻する • 繰り返しが止まらなくなる第16回最先端NLP勉強会

補正のデメリット：推論時間の増加 • ロジットの補正は毎時刻必要 • 大モデルのforward計算 • 補正前小モデルのforward計算 • 補正後小モデルのforward計算 •
普通に大モデルで推論する場合と比較しても遅い • 対策：実装の工夫 • 投機的サンプリングと組み合わせれば隠蔽できそう？第16回最先端NLP勉強会小モデルと大モデルで推論を速くする手法

手法をどう解釈するべきか？ • 著者いわく、広義のアンサンブル • 既存の方法論を今の問題設定に使ってみた？ • 推論時のモデルマージ第16回最先端NLP勉強会入力文を使って確率を補正 [See+2017]
訓練データを使って確率を補正 [Khandelwal+2020]

手法をどう解釈するべきか？ • 著者いわく、広義のアンサンブル • 既存の方法論を今の問題設定に使ってみた？ • 推論時のモデルマージ第16回最先端NLP勉強会 Task Vector
[Ilharco+2023]

まとめ（再掲）第16回最先端NLP勉強会 Preprint Figure 1: Proxy-tuning “ tunes” a large
pretrained model without accessing its internal weights, by steering it using an “ expert” (a small tuned model) and its corresponding “ anti-expert” (the small model, untuned). The difference between the predicted logits of the expert and the anti-expert is applied as an offset on the original logits from the base LLMの Finetuningをしたい大変なのでサボりたいまず小さいLM をFinetuning 元モデルとの差分を記録 LLMのlogitを補正 Finetuningと同じ効果を期待

感想 • 既存の方法論を今の問題設定にうまく使っている • ただし性能的には微妙 • モデルの大規模化による性能向上が、提案手法の性能低下で打ち消されてしまっている • 様々な事情で大きなLLMを作らないといけないケースはあり、
そのFinetuningに使えるかも • 例：様々な企業が1TパラメータLLMの開発に挑戦中第16回最先端NLP勉強会

[SNLP2024] Tuning Language Models by Proxy

[SNLP2024] Tuning Language Models by Proxy

Shun Kiyono

More Decks by Shun Kiyono

Featured

Transcript

Tuning Language Models by Proxy 読む人：清野舜 (SB Intuitions) (図は元論文からの引用)

LLMをFinetuningしたい第16回最先端NLP勉強会 Preprint Figure 1: Proxy-tuning “ tunes” a large

LLMのFinetuningは大変 • ハードウェアの問題 • GPUが大量に必要 • 実装の問題 • 事前学習用のフレームワークではFinetuningはできない •

提案手法：Proxy-Tuning • 大きなモデルの代理 (proxy) として小さいモデルをFinetuningする • 推論時は1トークンごとに補正をおこなう第16回最先端NLP勉強会 Preprint

この図を理解すれば大丈夫第16回最先端NLP勉強会 Preprint Figure 1: Proxy-tuning “ tunes” a large

式で書くと… 第16回最先端NLP勉強会 Figure 1: Proxy-tuning weights, by steering it “

実験設定 • 小規模LLM：7B Llama2(-Chat) • Proxyの計算に使う • 大規模LLM：{13B, 70B} Llama2(-Chat)

実験結果 • タスクによってはFinetuningする場合 (directly tuned)と遜色ない性能 • ただし13Bのdirectly tuned == 70Bの

分析：どのトークンが影響を受けるか？ • 補正前後の確率分布を比べてみる • 主として議論を組み立てたり、回答のスタイルを制御するものが多い第16回最先端NLP勉強会

分析：どこが影響を受けるか？ • 生成中の系列のどこが影響を受けるか調査 • 系列の先頭はほとんど書き換えられる • 後半になるほど書き換えの確率は下がる

補正のデメリット：推論時間の増加 • ロジットの補正は毎時刻必要 • 大モデルのforward計算 • 補正前小モデルのforward計算 • 補正後小モデルのforward計算 •

手法をどう解釈するべきか？ • 著者いわく、広義のアンサンブル • 既存の方法論を今の問題設定に使ってみた？ • 推論時のモデルマージ第16回最先端NLP勉強会入力文を使って確率を補正 [See+2017]

手法をどう解釈するべきか？ • 著者いわく、広義のアンサンブル • 既存の方法論を今の問題設定に使ってみた？ • 推論時のモデルマージ第16回最先端NLP勉強会 Task Vector

まとめ（再掲）第16回最先端NLP勉強会 Preprint Figure 1: Proxy-tuning “ tunes” a large