Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文読み会 SNLP2025 Learning Dynamics of LLM Finetun...

Avatar for S S
August 24, 2025

論文読み会 SNLP2025 Learning Dynamics of LLM Finetuning. In: ICLR 2025

Avatar for S

S

August 24, 2025
Tweet

More Decks by S

Other Decks in Research

Transcript

  1. Learning Dynamics of LLM Finetuning. In: ICLR 2025 Yi Ren,

    Danica J. Sutherland 第16回 最先端NLP勉強会 Hottolink/SciTokyo Okazaki Lab/AIST: Sakae Mizuki 2025-08-31 ※ スライド中の図表・数式は,断りのないかぎり本論文からの引用です
  2. 背景 • 有益な応答をさせるには,SFTやDPOのような事後学習が不可欠 3 SFT コードは以下の通りです。def ... 指示 𝑥 応答

    y テトリスを作って。 DPO y+:好ましい応答(正例) 東京の観光地を教えて。 スカイツリーはいかがでしょうか。 自分で考えたら? y−:好ましくない応答(負例) 模範応答
  3. 動機 Huang+, arXiv23 Gekhman+, ACL24 Holtzman+, ICLR20 • 現実の事後学習では,しばしば望ましくない現象が起きる •

    幻覚が悪化 [Huang+, arXiv23][Gekhman+, ACL24] • 繰り返し(degeneration[Holtzman+, ICLR20])の発生 • DPOをやりすぎると文生成が壊れる • DPOでは,好ましい応答(正例y+)の尤度もなぜか下がる • よそで作った応答を学習するoff-policy DPOで顕著 4 正例の尤度 負例の尤度
  4. 学習の1ステップを分解する Jacot+, NeurIPS18 • 個別の訓練事例 𝑥𝑢 , 𝑦𝑢 がテスト事例 𝑥𝑜

    の予測に及ぼす影響は”類似度”できまる, というのが深層学習における動力学の基本原理 [Jacot+, NeurIPS18]. • MNISTでたとえると... 7 画像「4」を学習させると ラベル「4」の予測確率が上昇 形が似ている「9」に対しても ラベル「4」の予測確率が上昇 形が違う「0」に対しては 確率分布が変化しない
  5. 学習の1ステップを分解する • 次単語予測もMNISTと同じく多クラス分類深層学習なので,動力学はおなじ: 入力の類似度がトークン確率分布 𝜋 の変化を左右する.式で表すと… 8 G: Gradient 損失関数(クロスエントロ

    ピー誤差)の勾配.予測と正 解の差で決まる. K: Neural Tangent Kernel 事例間の類似度.中間層zの 勾配で決まる. A: Adaptation Softmax層の勾配.現在の トークン確率分布で決まる. Δlog π トークン確率分布の変化. =
  6. SFT動力学の実証実験 • 事例間の類似度 K の鋭敏さを,いろんな応答文の尤度を追跡して実証してみた. • 適当に言い換えた応答𝑦gpt{s,f} + や,違う指示の模範応答𝑦𝑗≠𝑢 +

    の尤度も上昇している. ⇒極端な例えだが{日本の首都は?, 東京}を学習すると{〇〇の首都は?}という指示すべて に対して”東京”と応答する確率が上がる.これが一因で幻覚が悪化するのかも 10 模範応答 意味の異なる言い換え 意味を維持した言い換え 模範応答 違う指示の模範応答
  7. 負の勾配がもたらす Squeezing Effect • 言語モデルに限らずSoftmax+クロスエントロピー損失に共通の現象として, 特定のクラスに負の勾配をかけると,ほぼ全クラスの確率が下がり,最尤クラスに 質量が集中する.つまり”Squeezing Effect” 確率分布の先鋭化が起きる. •

    確率分布が偏っているほど,あるいは負の勾配をかけるクラスの確率が低いほど, Squeezing Effect は強くなる. ⇒言語モデルは超多クラス分類なのでこの条件にあてはまる 13 多クラスロジスティック回帰によるSqueezing Effectのデモ 負の勾配をかけると 最尤クラスに質量が集中 50クラス分類 1,000クラス分類 確率分布が先鋭化していると 集中する質量が増える
  8. DPO動力学の実証実験 • Squeezing Effectを,最尤トークンで構成した応答𝑦∗の尤度を追跡して実証してみた. • 𝑦∗はteacher-forcing & 貪欲デコーディング 𝑦𝑙 ∗

    = argmax{𝑝(𝑦|𝑥𝑢 , 𝑦<𝑙 }によって取得 • Antropic-HHおよびUltraFeedbackを学習する off-policy DPO の実験 • 好ましい応答𝑦+の尤度は低下する一方で貪欲デコーディングの応答𝑦∗の尤度が上 がる,つまり負例𝑦−がもたらすSqueezingが正例𝑦−の勾配を圧倒している. ⇒確率分布の先鋭化がdegenerationの原因だと考えられる. 14 正例𝑦+の尤度 負例𝑦−の尤度 𝑦∗の尤度 正例の尤度
  9. DPO派生アルゴリズムを見直してみる • しばしば有効性が主張されるDPO派生アルゴリズム(SPIN [Chen+, ICML24], SPPO [Wu+, ICLR25], SLiC [Zhao+,

    ICLR23] 等)は,Squeezingを弱める設計になっている • たとえばモデル自身の応答で学習するon-policy DPOは,尤度の高い”峰”に負の勾 配をかけるのでSqueezingが起きにくい. 15
  10. まとめ 事後学習の動力学(Learning dynamics)を分析. • (Off-policy) DPOにおける性能劣化の謎を,確率分布の先鋭化を引き 起こす “Squeezing Effect” という現象で説明.

    • DPOの学習しすぎや,尤度の低い応答に負の勾配をかけるのは要注意. • 実用上主流であるOn-policy DPOの分析が今後の研究課題. 18
  11. 読んだ理由・読んでみた感想 • 事後学習は予想外の結果が起きやすいので知見を得たかった • 推論型モデルではrepetitionが起きやすいのだが,GRPO損失の報酬正規化によっ て負の勾配が生じることが原因なのかも. • Squeezing Effectに限らず,確率分布を大きく変化させてしまう事後学習はたい てい失敗するように思われる.

    • 事前学習してない知識を教えると幻覚が悪化する [Gekhman+, ACL24] • 低尤度の応答は選好順序の学習が困難 [Chen+, NeurIPS24] • 深い推論を模倣学習するとout-of-domainの性能が低下する [Huan+, arXiv25] • 同じモデル系列からの蒸留が効果的 [Zhang+, NAACL25] ... など 19