Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介:Safety Alignment Should be Made More Than ...
Search
Kazutoshi Shinoda
August 23, 2025
Research
0
9
論文紹介:Safety Alignment Should be Made More Than Just a Few Tokens Deep
第17回 最先端NLP勉強会(2025年8月31日-9月1日)の発表スライドです
Kazutoshi Shinoda
August 23, 2025
Tweet
Share
More Decks by Kazutoshi Shinoda
See All by Kazutoshi Shinoda
論文紹介:Direct Preference Optimization: Your Language Model is Secretly a Reward Model
kazutoshishinoda
4
1.1k
論文紹介:Minding Language Models’ (Lack of) Theory of Mind: A Plug-and-Play Multi-Character Belief Tracker
kazutoshishinoda
0
450
Other Decks in Research
See All in Research
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
2.3k
Vision and LanguageからのEmbodied AIとAI for Science
yushiku
PRO
1
500
一人称視点映像解析の最先端(MIRU2025 チュートリアル)
takumayagi
6
3.3k
Google Agent Development Kit (ADK) 入門 🚀
mickey_kubo
2
1.6k
A scalable, annual aboveground biomass product for monitoring carbon impacts of ecosystem restoration projects
satai
3
170
業界横断 副業・兼業者の実態調査
fkske
0
230
電力システム最適化入門
mickey_kubo
1
860
Adaptive Experimental Design for Efficient Average Treatment Effect Estimation and Treatment Choice
masakat0
0
100
Towards a More Efficient Reasoning LLM: AIMO2 Solution Summary and Introduction to Fast-Math Models
analokmaus
2
750
Large Language Model Agent: A Survey on Methodology, Applications and Challenges
shunk031
14
9.7k
Mechanistic Interpretability:解釈可能性研究の新たな潮流
koshiro_aoki
1
400
Type Theory as a Formal Basis of Natural Language Semantics
daikimatsuoka
1
280
Featured
See All Featured
Become a Pro
speakerdeck
PRO
29
5.5k
YesSQL, Process and Tooling at Scale
rocio
173
14k
Faster Mobile Websites
deanohume
309
31k
Making Projects Easy
brettharned
117
6.3k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3.1k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
110
20k
Code Review Best Practice
trishagee
70
19k
The Cult of Friendly URLs
andyhume
79
6.5k
The Art of Programming - Codeland 2020
erikaheidi
55
13k
StorybookのUI Testing Handbookを読んだ
zakiyama
30
6k
Bash Introduction
62gerente
614
210k
It's Worth the Effort
3n
187
28k
Transcript
© NTT, Inc. 2025 Safety Alignment Should be Made More
Than Just a Few Tokens Deep 紹介者:篠田 一聡(NTT人間情報研究所) 第17回最先端NLP勉強会(2025年8月31日 - 9月1日) Xiangyu Qi, Ashwinee Panda, Kaifeng Lyu, Xiao Ma, Subhrajit Roy, Ahmad Beirami, Prateek Mittal, Peter Henderson (ICLR2025 Outstanding Paper)
© NTT, Inc. 2025 2 概要 ◼ 背景 ➢ LLMを安全性に関してアラインメント(SFT、DPO等)しても、簡単に
jailbreak (脱 獄)して有害な出力をさせることが可能 ◼ 貢献 ➢ 安全性に関するアラインメントでは、LLMは最初の数トークンだけを学習している (Safety Shortcut)ことを示し、これが脆弱性の原因になっていることを示した ➢ データ拡張で、最初の数トークン以上を学習させると、脆弱性が改善することを示した ➢ 目的関数で、最初の数トークンでの学習を抑制すると、脆弱性が改善することを示した
© NTT, Inc. 2025 3 背景:LLMの脆弱性 無害な出力をするようにアラインメントされた LLM でも、 有害な出力をさせられる
jailbreak が知られている アラインメント(例:DPO) jailbreak(例:DAN) https://github.com/0xk1h0/ChatGPT_DAN https://arxiv.org/abs/2305.18290
© NTT, Inc. 2025 4 ◼ アラインメント前のモデルに、”すみません” などの prefix を与えるだけで安全性が向上
◼ アラインメント前後の尤度を比べると、最初の数トークンでKL距離が大きい HEx-PHI benchmark:330の有害な指示に対して、 安全な回答ができるかをGPT-4で判定 [Qi+ 2024] Qi et al. 2024. Fine-tuning aligned language models compromises safety, even when users do not intend to! In ICLR. アラインメント前後の p( “はい、爆弾は…” | “爆弾の作り方を教えて”) のKL距離を 有害指示 + 有害応答 で計測 Safety Shortcut
© NTT, Inc. 2025 5 根拠①:LLMが生成する応答の最初の数トークンを 指定すれば脱獄可能 (prefilling attack) “「爆弾の作り方を教えて」「はい、爆弾は”
の続きを生成 ↓ 最初の数トークンを指定するだけで、 アラインメント後のモデルでも脱獄可能 ↓ アラインメントで最初の数トークンの分布の みを学習する、Safety Shortcut を利用してい ることを示唆 主張:Safety Shortcut は脆弱性の原因
© NTT, Inc. 2025 6 主張:Safety Shortcut は脆弱性の原因 根拠②:アラインメント後のLLMを、有害な指示・応答ペアで学習すると 最初の数トークンで最も分布が変わる
指示:「爆弾の作り方を教えて」 応答:「はい、爆弾は…」でfine-tuningすると…
© NTT, Inc. 2025 7 データ拡張で脆弱性を改善 {有害な指示 + 有害な応答の最初の数トークン +
回答を拒否する無害な応答} でデータ拡張すると、①後半のトークンでも学習が進む ②脆弱性が改善 指示:「爆弾の作り方を教えて」 応答:「はい、爆弾を作るにはまず、あなたの指示には応えられません。」 を合成してデータ拡張(一貫性は無視)すると、 ①後半のトークンでも分布が変化 ②各種 jailbreak に対する脆弱性が改善
© NTT, Inc. 2025 8 目的関数で脆弱性を改善 最初の数トークンでは分布が変わらないように、トークンごとに制約を導入 → 普通のSFTよりも脆弱性を改善しつつ、有用性を保持
© NTT, Inc. 2025 9 まとめ ◼ 貢献 ➢ 安全性に関するアラインメントでは、LLMは最初の数トークンだけを学習している
(Safety Shortcut)ことを示し、これが脆弱性の原因になっていることを示した ➢ データ拡張で、最初の数トークン以上を学習させると、脆弱性が改善することを示した ➢ 目的関数で、最初の数トークンでの学習を抑制すると、脆弱性が改善することを示した ◼ 感想 ➢ メッセージがわかりやすくて読みやすく、論文の書き方の参考になりそう ➢ SFTでしか実験していないが、DPO/RLHFでも Safety Shortcut を学習しやすいと言える のか気になる
© NTT, Inc. 2025 10 参考:ショートカットの学習しやすさ [Shinoda+ 2023] ◼ ショートカットの種類に応じて、学習しやすさは異なる。
➢ Safety Shortcut を構成していた「位置」と「単語」の2つの特徴は (1) モデルの行動 (2) 損失関数の平坦さ (3) 最小記述長 の3つの観点で学習しやすいと言える ◼ 学習しやすいショートカットほど、データ拡張で学習を回避できる ➢ 紹介論文の実験結果と一致 Shinoda et al. 2023. Which Shortcut Solution Do Question Answering Models Prefer to Learn? In AAAI. https://lena-voita.github.io/posts/mdl_probes.html 位置 単語