論文紹介：Safety Alignment Should be Made More Than Just a Few Tokens Deep

© NTT, Inc. 2025 Safety Alignment Should be Made More
Than Just a Few Tokens Deep 紹介者：篠田一聡（NTT人間情報研究所）第17回最先端NLP勉強会（2025年8月31日 - 9月1日） Xiangyu Qi, Ashwinee Panda, Kaifeng Lyu, Xiao Ma, Subhrajit Roy, Ahmad Beirami, Prateek Mittal, Peter Henderson (ICLR2025 Outstanding Paper)

© NTT, Inc. 2025 2 概要 ◼ 背景 ➢ LLMを安全性に関してアラインメント（SFT、DPO等）しても、簡単に
jailbreak （脱獄）して有害な出力をさせることが可能 ◼ 貢献 ➢ 安全性に関するアラインメントでは、LLMは最初の数トークンだけを学習している（Safety Shortcut）ことを示し、これが脆弱性の原因になっていることを示した ➢ データ拡張で、最初の数トークン以上を学習させると、脆弱性が改善することを示した ➢ 目的関数で、最初の数トークンでの学習を抑制すると、脆弱性が改善することを示した

© NTT, Inc. 2025 3 背景：LLMの脆弱性無害な出力をするようにアラインメントされた LLM でも、有害な出力をさせられる
jailbreak が知られているアラインメント（例：DPO） jailbreak（例：DAN） https://github.com/0xk1h0/ChatGPT_DAN https://arxiv.org/abs/2305.18290

© NTT, Inc. 2025 4 ◼ アラインメント前のモデルに、”すみません” などの prefix を与えるだけで安全性が向上
◼ アラインメント前後の尤度を比べると、最初の数トークンでKL距離が大きい HEx-PHI benchmark：330の有害な指示に対して、安全な回答ができるかをGPT-4で判定 [Qi+ 2024] Qi et al. 2024. Fine-tuning aligned language models compromises safety, even when users do not intend to! In ICLR. アラインメント前後の p( “はい、爆弾は…” | “爆弾の作り方を教えて”) のKL距離を有害指示 + 有害応答で計測 Safety Shortcut

© NTT, Inc. 2025 5 根拠①：LLMが生成する応答の最初の数トークンを指定すれば脱獄可能 (prefilling attack) “「爆弾の作り方を教えて」「はい、爆弾は”
の続きを生成 ↓ 最初の数トークンを指定するだけで、アラインメント後のモデルでも脱獄可能 ↓ アラインメントで最初の数トークンの分布のみを学習する、Safety Shortcut を利用していることを示唆主張：Safety Shortcut は脆弱性の原因

© NTT, Inc. 2025 6 主張：Safety Shortcut は脆弱性の原因根拠②：アラインメント後のLLMを、有害な指示・応答ペアで学習すると最初の数トークンで最も分布が変わる
指示：「爆弾の作り方を教えて」応答：「はい、爆弾は…」でfine-tuningすると…

© NTT, Inc. 2025 7 データ拡張で脆弱性を改善 {有害な指示＋有害な応答の最初の数トークン＋
回答を拒否する無害な応答} でデータ拡張すると、①後半のトークンでも学習が進む ②脆弱性が改善指示：「爆弾の作り方を教えて」応答：「はい、爆弾を作るにはまず、あなたの指示には応えられません。」を合成してデータ拡張（一貫性は無視）すると、 ①後半のトークンでも分布が変化 ②各種 jailbreak に対する脆弱性が改善

© NTT, Inc. 2025 9 まとめ ◼ 貢献 ➢ 安全性に関するアラインメントでは、LLMは最初の数トークンだけを学習している
（Safety Shortcut）ことを示し、これが脆弱性の原因になっていることを示した ➢ データ拡張で、最初の数トークン以上を学習させると、脆弱性が改善することを示した ➢ 目的関数で、最初の数トークンでの学習を抑制すると、脆弱性が改善することを示した ◼ 感想 ➢ メッセージがわかりやすくて読みやすく、論文の書き方の参考になりそう

© NTT, Inc. 2025 10 参考：ショートカットの学習しやすさ [Shinoda+ 2023] ◼ ショートカットの種類に応じて、学習しやすさは異なる。
➢ Safety Shortcut を構成していた「位置」と「単語」の２つの特徴は (1) モデルの行動 (2) 損失関数の平坦さ (3) 最小記述長の３つの観点で学習しやすいと言える ◼ 学習しやすいショートカットほど、データ拡張で学習を回避できる ➢ 紹介論文の実験結果と一致 Shinoda et al. 2023. Which Shortcut Solution Do Question Answering Models Prefer to Learn? In AAAI. https://lena-voita.github.io/posts/mdl_probes.html 位置単語

論文紹介：Safety Alignment Should be Made More Than ...

論文紹介：Safety Alignment Should be Made More Than Just a Few Tokens Deep

Kazutoshi Shinoda

More Decks by Kazutoshi Shinoda

Other Decks in Research

Featured

Transcript

© NTT, Inc. 2025 Safety Alignment Should be Made More

© NTT, Inc. 2025 2 概要 ◼ 背景 ➢ LLMを安全性に関してアラインメント（SFT、DPO等）しても、簡単に

© NTT, Inc. 2025 3 背景：LLMの脆弱性無害な出力をするようにアラインメントされた LLM でも、有害な出力をさせられる

© NTT, Inc. 2025 4 ◼ アラインメント前のモデルに、”すみません” などの prefix を与えるだけで安全性が向上

© NTT, Inc. 2025 5 根拠①：LLMが生成する応答の最初の数トークンを指定すれば脱獄可能 (prefilling attack) “「爆弾の作り方を教えて」「はい、爆弾は”

© NTT, Inc. 2025 6 主張：Safety Shortcut は脆弱性の原因根拠②：アラインメント後のLLMを、有害な指示・応答ペアで学習すると最初の数トークンで最も分布が変わる

© NTT, Inc. 2025 7 データ拡張で脆弱性を改善 {有害な指示＋有害な応答の最初の数トークン＋

© NTT, Inc. 2025 8 目的関数で脆弱性を改善最初の数トークンでは分布が変わらないように、トークンごとに制約を導入 → 普通のSFTよりも脆弱性を改善しつつ、有用性を保持

© NTT, Inc. 2025 9 まとめ ◼ 貢献 ➢ 安全性に関するアラインメントでは、LLMは最初の数トークンだけを学習している

© NTT, Inc. 2025 10 参考：ショートカットの学習しやすさ [Shinoda+ 2023] ◼ ショートカットの種類に応じて、学習しやすさは異なる。