Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介:Safety Alignment Should be Made More Than ...
Search
Kazutoshi Shinoda
August 23, 2025
Research
260
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
論文紹介:Safety Alignment Should be Made More Than Just a Few Tokens Deep
第17回 最先端NLP勉強会(2025年8月31日-9月1日)の発表スライドです
Kazutoshi Shinoda
August 23, 2025
More Decks by Kazutoshi Shinoda
See All by Kazutoshi Shinoda
LLMは心の理論を持っているか?
kazutoshishinoda
2
530
論文紹介:Direct Preference Optimization: Your Language Model is Secretly a Reward Model
kazutoshishinoda
4
1.3k
論文紹介:Minding Language Models’ (Lack of) Theory of Mind: A Plug-and-Play Multi-Character Belief Tracker
kazutoshishinoda
0
520
Other Decks in Research
See All in Research
Harness Engineering and Al Agent
kzinmr
3
1.7k
敵対生成プロンプト同時探索による内省型プロンプト最適化
kinoue_smarthr
0
210
「なんとなく」の顧客理解から脱却する ──顧客の解像度を武器にするインサイトマネジメント
tajima_kaho
10
7.6k
Sequences of Logits Reveal the Low Rank Structure of Language Models
sansantech
PRO
1
260
人間中心の意思決定支援AI
yukinobaba
PRO
6
2.9k
論文紹介 "ReSim: Reliable World Simulation for Autonomous Driving"
kogo
0
640
Anthropic が提案する LLM の内部状態を自然言語で説明可能にした Natural Language Autoencoders / Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations
shunk031
0
130
The mathematics of transformers
gpeyre
0
330
Φ-Sat-2のAutoEncoderによる情報圧縮系論文
satai
4
780
Fukui Shibiten 39 - AI Art
butchi
0
130
老舗ものづくり企業でリサーチが変革を起こすまで - 三菱重工DXの実践
skydats
0
190
衛星×エッジAI勉強会 衛星上におけるAI処理制約とそ取組について
satai
4
560
Featured
See All Featured
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
230
23k
Deep Space Network (abreviated)
tonyrice
0
210
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
140
Into the Great Unknown - MozCon
thekraken
41
2.6k
The Invisible Side of Design
smashingmag
302
52k
Balancing Empowerment & Direction
lara
6
1.2k
Designing for Timeless Needs
cassininazir
1
260
So, you think you're a good person
axbom
PRO
2
2.1k
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
210
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
150
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
590
Transcript
© NTT, Inc. 2025 Safety Alignment Should be Made More
Than Just a Few Tokens Deep 紹介者:篠田 一聡(NTT人間情報研究所) 第17回最先端NLP勉強会(2025年8月31日 - 9月1日) Xiangyu Qi, Ashwinee Panda, Kaifeng Lyu, Xiao Ma, Subhrajit Roy, Ahmad Beirami, Prateek Mittal, Peter Henderson (ICLR2025 Outstanding Paper)
© NTT, Inc. 2025 2 概要 ◼ 背景 ➢ LLMを安全性に関してアラインメント(SFT、DPO等)しても、簡単に
jailbreak (脱 獄)して有害な出力をさせることが可能 ◼ 貢献 ➢ 安全性に関するアラインメントでは、LLMは最初の数トークンだけを学習している (Safety Shortcut)ことを示し、これが脆弱性の原因になっていることを示した ➢ データ拡張で、最初の数トークン以上を学習させると、脆弱性が改善することを示した ➢ 目的関数で、最初の数トークンでの学習を抑制すると、脆弱性が改善することを示した
© NTT, Inc. 2025 3 背景:LLMの脆弱性 無害な出力をするようにアラインメントされた LLM でも、 有害な出力をさせられる
jailbreak が知られている アラインメント(例:DPO) jailbreak(例:DAN) https://github.com/0xk1h0/ChatGPT_DAN https://arxiv.org/abs/2305.18290
© NTT, Inc. 2025 4 ◼ アラインメント前のモデルに、”すみません” などの prefix を与えるだけで安全性が向上
◼ アラインメント前後の尤度を比べると、最初の数トークンでKL距離が大きい HEx-PHI benchmark:330の有害な指示に対して、 安全な回答ができるかをGPT-4で判定 [Qi+ 2024] Qi et al. 2024. Fine-tuning aligned language models compromises safety, even when users do not intend to! In ICLR. アラインメント前後の p( “はい、爆弾は…” | “爆弾の作り方を教えて”) のKL距離を 有害指示 + 有害応答 で計測 Safety Shortcut
© NTT, Inc. 2025 5 根拠①:LLMが生成する応答の最初の数トークンを 指定すれば脱獄可能 (prefilling attack) “「爆弾の作り方を教えて」「はい、爆弾は”
の続きを生成 ↓ 最初の数トークンを指定するだけで、 アラインメント後のモデルでも脱獄可能 ↓ アラインメントで最初の数トークンの分布の みを学習する、Safety Shortcut を利用してい ることを示唆 主張:Safety Shortcut は脆弱性の原因
© NTT, Inc. 2025 6 主張:Safety Shortcut は脆弱性の原因 根拠②:アラインメント後のLLMを、有害な指示・応答ペアで学習すると 最初の数トークンで最も分布が変わる
指示:「爆弾の作り方を教えて」 応答:「はい、爆弾は…」でfine-tuningすると…
© NTT, Inc. 2025 7 データ拡張で脆弱性を改善 {有害な指示 + 有害な応答の最初の数トークン +
回答を拒否する無害な応答} でデータ拡張すると、①後半のトークンでも学習が進む ②脆弱性が改善 指示:「爆弾の作り方を教えて」 応答:「はい、爆弾を作るにはまず、あなたの指示には応えられません。」 を合成してデータ拡張(一貫性は無視)すると、 ①後半のトークンでも分布が変化 ②各種 jailbreak に対する脆弱性が改善
© NTT, Inc. 2025 8 目的関数で脆弱性を改善 最初の数トークンでは分布が変わらないように、トークンごとに制約を導入 → 普通のSFTよりも脆弱性を改善しつつ、有用性を保持
© NTT, Inc. 2025 9 まとめ ◼ 貢献 ➢ 安全性に関するアラインメントでは、LLMは最初の数トークンだけを学習している
(Safety Shortcut)ことを示し、これが脆弱性の原因になっていることを示した ➢ データ拡張で、最初の数トークン以上を学習させると、脆弱性が改善することを示した ➢ 目的関数で、最初の数トークンでの学習を抑制すると、脆弱性が改善することを示した ◼ 感想 ➢ メッセージがわかりやすくて読みやすく、論文の書き方の参考になりそう
© NTT, Inc. 2025 10 参考:ショートカットの学習しやすさ [Shinoda+ 2023] ◼ ショートカットの種類に応じて、学習しやすさは異なる。
➢ Safety Shortcut を構成していた「位置」と「単語」の2つの特徴は (1) モデルの行動 (2) 損失関数の平坦さ (3) 最小記述長 の3つの観点で学習しやすいと言える ◼ 学習しやすいショートカットほど、データ拡張で学習を回避できる ➢ 紹介論文の実験結果と一致 Shinoda et al. 2023. Which Shortcut Solution Do Question Answering Models Prefer to Learn? In AAAI. https://lena-voita.github.io/posts/mdl_probes.html 位置 単語