Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介:Safety Alignment Should be Made More Than ...
Search
Kazutoshi Shinoda
August 23, 2025
Research
0
120
論文紹介:Safety Alignment Should be Made More Than Just a Few Tokens Deep
第17回 最先端NLP勉強会(2025年8月31日-9月1日)の発表スライドです
Kazutoshi Shinoda
August 23, 2025
Tweet
Share
More Decks by Kazutoshi Shinoda
See All by Kazutoshi Shinoda
LLMは心の理論を持っているか?
kazutoshishinoda
1
170
論文紹介:Direct Preference Optimization: Your Language Model is Secretly a Reward Model
kazutoshishinoda
4
1.2k
論文紹介:Minding Language Models’ (Lack of) Theory of Mind: A Plug-and-Play Multi-Character Belief Tracker
kazutoshishinoda
0
460
Other Decks in Research
See All in Research
問いを起点に、社会と共鳴する知を育む場へ
matsumoto_r
PRO
0
690
[IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ
akifumi_wachi
12
6.2k
A scalable, annual aboveground biomass product for monitoring carbon impacts of ecosystem restoration projects
satai
4
440
不確実性下における目的と手段の統合的探索に向けた連続腕バンディットの応用 / iot70_gp_rff_mab
monochromegane
2
240
心理言語学の視点から再考する言語モデルの学習過程
chemical_tree
2
680
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
63
34k
ドメイン知識がない領域での自然言語処理の始め方
hargon24
1
150
cvpaper.challenge 10年の軌跡 / cvpaper.challenge a decade-long journey
gatheluck
3
370
2025/7/5 応用音響研究会招待講演@北海道大学
takuma_okamoto
1
230
20250624_熊本経済同友会6月例会講演
trafficbrain
1
760
Nullspace MPC
mizuhoaoki
1
340
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
4.9k
Featured
See All Featured
Art, The Web, and Tiny UX
lynnandtonic
303
21k
Scaling GitHub
holman
463
140k
How to Ace a Technical Interview
jacobian
280
24k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.8k
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
[RailsConf 2023] Rails as a piece of cake
palkan
57
6.1k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Fireside Chat
paigeccino
41
3.7k
Making Projects Easy
brettharned
120
6.5k
Transcript
© NTT, Inc. 2025 Safety Alignment Should be Made More
Than Just a Few Tokens Deep 紹介者:篠田 一聡(NTT人間情報研究所) 第17回最先端NLP勉強会(2025年8月31日 - 9月1日) Xiangyu Qi, Ashwinee Panda, Kaifeng Lyu, Xiao Ma, Subhrajit Roy, Ahmad Beirami, Prateek Mittal, Peter Henderson (ICLR2025 Outstanding Paper)
© NTT, Inc. 2025 2 概要 ◼ 背景 ➢ LLMを安全性に関してアラインメント(SFT、DPO等)しても、簡単に
jailbreak (脱 獄)して有害な出力をさせることが可能 ◼ 貢献 ➢ 安全性に関するアラインメントでは、LLMは最初の数トークンだけを学習している (Safety Shortcut)ことを示し、これが脆弱性の原因になっていることを示した ➢ データ拡張で、最初の数トークン以上を学習させると、脆弱性が改善することを示した ➢ 目的関数で、最初の数トークンでの学習を抑制すると、脆弱性が改善することを示した
© NTT, Inc. 2025 3 背景:LLMの脆弱性 無害な出力をするようにアラインメントされた LLM でも、 有害な出力をさせられる
jailbreak が知られている アラインメント(例:DPO) jailbreak(例:DAN) https://github.com/0xk1h0/ChatGPT_DAN https://arxiv.org/abs/2305.18290
© NTT, Inc. 2025 4 ◼ アラインメント前のモデルに、”すみません” などの prefix を与えるだけで安全性が向上
◼ アラインメント前後の尤度を比べると、最初の数トークンでKL距離が大きい HEx-PHI benchmark:330の有害な指示に対して、 安全な回答ができるかをGPT-4で判定 [Qi+ 2024] Qi et al. 2024. Fine-tuning aligned language models compromises safety, even when users do not intend to! In ICLR. アラインメント前後の p( “はい、爆弾は…” | “爆弾の作り方を教えて”) のKL距離を 有害指示 + 有害応答 で計測 Safety Shortcut
© NTT, Inc. 2025 5 根拠①:LLMが生成する応答の最初の数トークンを 指定すれば脱獄可能 (prefilling attack) “「爆弾の作り方を教えて」「はい、爆弾は”
の続きを生成 ↓ 最初の数トークンを指定するだけで、 アラインメント後のモデルでも脱獄可能 ↓ アラインメントで最初の数トークンの分布の みを学習する、Safety Shortcut を利用してい ることを示唆 主張:Safety Shortcut は脆弱性の原因
© NTT, Inc. 2025 6 主張:Safety Shortcut は脆弱性の原因 根拠②:アラインメント後のLLMを、有害な指示・応答ペアで学習すると 最初の数トークンで最も分布が変わる
指示:「爆弾の作り方を教えて」 応答:「はい、爆弾は…」でfine-tuningすると…
© NTT, Inc. 2025 7 データ拡張で脆弱性を改善 {有害な指示 + 有害な応答の最初の数トークン +
回答を拒否する無害な応答} でデータ拡張すると、①後半のトークンでも学習が進む ②脆弱性が改善 指示:「爆弾の作り方を教えて」 応答:「はい、爆弾を作るにはまず、あなたの指示には応えられません。」 を合成してデータ拡張(一貫性は無視)すると、 ①後半のトークンでも分布が変化 ②各種 jailbreak に対する脆弱性が改善
© NTT, Inc. 2025 8 目的関数で脆弱性を改善 最初の数トークンでは分布が変わらないように、トークンごとに制約を導入 → 普通のSFTよりも脆弱性を改善しつつ、有用性を保持
© NTT, Inc. 2025 9 まとめ ◼ 貢献 ➢ 安全性に関するアラインメントでは、LLMは最初の数トークンだけを学習している
(Safety Shortcut)ことを示し、これが脆弱性の原因になっていることを示した ➢ データ拡張で、最初の数トークン以上を学習させると、脆弱性が改善することを示した ➢ 目的関数で、最初の数トークンでの学習を抑制すると、脆弱性が改善することを示した ◼ 感想 ➢ メッセージがわかりやすくて読みやすく、論文の書き方の参考になりそう
© NTT, Inc. 2025 10 参考:ショートカットの学習しやすさ [Shinoda+ 2023] ◼ ショートカットの種類に応じて、学習しやすさは異なる。
➢ Safety Shortcut を構成していた「位置」と「単語」の2つの特徴は (1) モデルの行動 (2) 損失関数の平坦さ (3) 最小記述長 の3つの観点で学習しやすいと言える ◼ 学習しやすいショートカットほど、データ拡張で学習を回避できる ➢ 紹介論文の実験結果と一致 Shinoda et al. 2023. Which Shortcut Solution Do Question Answering Models Prefer to Learn? In AAAI. https://lena-voita.github.io/posts/mdl_probes.html 位置 単語