Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
言語モデルに対する攻撃とその予防策について
Search
Daisuke Akagawa (Akasan)
September 30, 2025
17
0
Share
言語モデルに対する攻撃とその予防策について
昨今さまざまな場所で利用されている言語モデルについて、その攻撃手法と予防策に関してLTをさせていただいた時の資料になります
Daisuke Akagawa (Akasan)
September 30, 2025
More Decks by Daisuke Akagawa (Akasan)
See All by Daisuke Akagawa (Akasan)
MLOps導入のための組織作りの第一歩
akasan
0
210
NVIDIA GTC2026 AI技術トレンドレポート
akasan
0
58
NVIDIA NIMによるモデルのサービングと NVIDIA NeMo Guardrailsによる安全性の担保
akasan
0
140
Featured
See All Featured
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
770
Claude Code のすすめ
schroneko
67
220k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.8k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Why Our Code Smells
bkeepers
PRO
340
58k
Embracing the Ebb and Flow
colly
88
5k
Rails Girls Zürich Keynote
gr2m
96
14k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.6k
Color Theory Basics | Prateek | Gurzu
gurzu
0
290
Discover your Explorer Soul
emna__ayadi
2
1.1k
KATA
mclloyd
PRO
35
15k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
Transcript
言語モデルに対する攻撃と その予防策について 株式会社スリーシェイク Sreake事業部 赤川大空 Copyright © 3-shake, Inc. All
Rights Reserved.
自己紹介 写真 - 赤川大空(Akasan) - 株式会社スリーシェイク Sreake事業部 アプリチームの中で、特にML領域を担当 - 直近ではMLOpsの構築支援など
- 最近の興味 - MLOps - ML/AI - クラウド(Google Cloudを中心) - セルフエンドレスアドベントカレンダー
目次 1. 言語モデルに対する攻撃ってどんなのがあるか 2. 攻撃を防ぐ方法 3. まとめ おまけ ※ 時間の都合上、具体的な技術スタックについては言及しないです
なぜこんな話を今回するか テックブログなどでみる記事の多くは言語モデルをいかに便利に利 用していくかが大半な印象 便利なものにはリスクが伴うことを認識した上で使って欲しい いいところがたくさんアピールされている今だからこそ それ相応のリスクがあることを認識して欲しい
言語モデルに対する攻撃ってどんなのがあるか 01 Copyright © 3-shake, Inc. All Rights Reserved.
言語モデルおさらい 1. 言語モデルとは? - ざっくりいうと「あなたが普段使う言葉を使ってやり取りできる」AI - 様々な言語、多様な話題で学習されたモデル 1. 言語モデル利用をサービスに組み込む時のコンポーネント LLM
MCP Agent Vector DB クラウドインフラ オンプレミスサーバ RDB オブジェクトストレージ
従来のMLモデルと言語モデルの構成の違い LLM MCP Agent Vector DB 従来モデル モデル 基本的に 1:1のやり取り※
言語モデル Agent ユーザからすれば 1:1のやり取り 裏側では登場人物がとても多い ※従来モデル全てがこの構成ではないです
従来のMLモデルへの攻撃 モデル - 攻撃対象が「ユーザ」か「モデル」の二つ だけ 代表的な攻撃手法 - 敵対的事例生成 - 転移攻撃
- クエリベースの攻撃
言語モデルへの攻撃 LLM MCP Agent Vector DB Agent - 攻撃対象が「ユーザ」とそのほか多数の コンポーネント
- 攻撃者が選択できる幅が広がってしまう 攻撃対象が多すぎる!! 代表的な攻撃手法 - ジェイルブレイク - 間接的プロンプトインジェクション - DBの汚染
例え話:DB汚染されたらこんなこと起きるかも? 前提: - 指定した材料で作れる料理レシピを提供するサービスを展開 - 攻撃者はデータベースやファイルのフォーマットを盗んでいる - 料理に利用されているデータに対して材料名のラベルが付与されている - ユーザからの評価が5段階で付けられるようになっておりその結果に応
じて表示順が変わる
例え話:DB汚染されたらこんなこと起きるかも? 次のページの注意事項 あくまで思考実験ですので真似しないでください
例え話:DB汚染されたらこんなこと起きるかも? 攻撃内容:爆弾の作り方を結果に表示させる 1. 爆弾の作り方をドキュメントにまとめ、ドキュメントDBにアップロードする 2. 小麦粉を利用した料理と判定されるようにラベルをつける 3. ドキュメントの評価として5をつける 4. ユーザが小麦粉料理を調べる
5. 爆弾の作り方が表示されてしまう
言語モデルへの攻撃について 1. ジェイルブレイク - 言語モデルに対して悪意のあるプロンプトを入力する攻撃 - モデル開発者が設定した安全フィルターを回避させる 1. 間接的プロンプトインジェクション -
ジェイルブレイクは直接言語モデルに入力されるプロンプトを調整 - この手法は言語モデルがソースとして扱う場所に悪意のある指示を埋 め込む 1. DBの汚染 - RAGで参照されるようなDBに悪意のある情報を埋め込む
話題になった攻撃 https://www.securityweek.com/grok-4-falls-to-a-jailbreak-two-days-after-its-release/
言語モデルへの攻撃に関する論文数 arXiv上で何件の関連論文がアップロードされているか(2025/9/23時点) - Large language model: 61,544 - +attack: 2,472
- +vulnerability: 2,137 - +security: 2,965 - Agent: 51,425 - +attack: 1,405 - +vulnerability: 859 - +security: 1,788
攻撃はどうやって防ぐの? 02 Copyright © 3-shake, Inc. All Rights Reserved.
大前提 銀の弾丸は存在しません
防御手法例 1. Guardrailsの導入 - 想定外の挙動やリスクを制限するための防御手段 2. プロンプトサニタイズの導入 - 言語モデルの入出力を検証し、有害な情報をやり取りできないようにす る
3. アクセス制御の徹底 - コンポーネントにアクセスできる権限の厳格な制限 - ブラックリストではなくホワイトリストを作ること 4. アクセスログの徹底収集 - 不正アクセスをいち早く検出すること
まとめ 03 Copyright © 3-shake, Inc. All Rights Reserved.
まとめ - 言語モデルは便利だけど、さまざまなリスクがあることを認識してほしい - 攻撃されなかったとしても言語モデルが勝手によくない出力するかもしれない のでチェック機構は入れて欲しい - 防御手段は一応いくつかあるので試してみてほしい
おまけ Copyright © 3-shake, Inc. All Rights Reserved.
社内勉強会で発表した資料もブログにしたりしてます! https://sreake.com/blog/commercial-llm-agents-are-already-vulnerable-to-simple-yet-dangerous-attacks/