Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Bedrockでガードレールのフィルターを理解する
Search
Shota Totsuka
February 26, 2025
1
74
Bedrockでガードレールのフィルターを理解する
Shota Totsuka
February 26, 2025
Tweet
Share
More Decks by Shota Totsuka
See All by Shota Totsuka
HITL実装によるマルチエージェント組織の設計パターン
totsukash
0
4
Claude Codeの知らない知識に立ち向かう
totsukash
1
320
Claude Codeの知らない知識、ADK, A2Aを用いた プロダクト開発をClaude Codeで行う
totsukash
0
360
Claude Code で Vibe Coding
totsukash
1
9
MCP, A2Aをプロダクトに組み込んで 開発している話
totsukash
1
10
Mastra活用|Text-to-SQLの実装と応用
totsukash
1
160
Bedrockでのプロンプト管理戦略
totsukash
3
150
Amazon SageMaker AIでモデル開発からデプロイまで試す
totsukash
2
52
Amazon CodeGuruをGitHubと統合して アプリケーションの品質管理を楽にする
totsukash
0
17
Featured
See All Featured
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
Writing Fast Ruby
sferik
630
62k
Six Lessons from altMBA
skipperchong
29
4k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
2.9k
Rails Girls Zürich Keynote
gr2m
95
14k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Docker and Python
trallard
46
3.6k
Typedesign – Prime Four
hannesfritz
42
2.8k
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
Making the Leap to Tech Lead
cromwellryan
135
9.6k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3k
Transcript
None
自己紹介 ©Blueish 2024. All rights reserved. 戸塚 翔太|BLUEISH Shota Totsuka
・LLMアプリ開発者(Go/Python …etc) ・生成AI, 機械学習 ・趣味: スキー/スノボ, 最近はDifyにContribute ・静岡県(浜松)に住んでます 近くの方がいれば、一緒に勉強会しましょう! Xアカウント @totsukash
自己紹介 ©Blueish 2024. All rights reserved. AWS認定(1月から開始)
01 ガードレールとは? 02 料金・仕組み 03 フィルターの種類 04 デプロイ 目次 ©Blueish
2024. All rights reserved. 05 まとめ
01 ガードレールとは? ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. ガードレールとは? - LLM Applicationにて、LLMへの入力やLLMからの出力の内容を保護する仕組み -
システム側が許容していない入力を弾く - システム側が許容していない出力をユーザーに返さない ガードレール
ガードレールとは? Amazon Bedrock Guardrails
ガードレールとは? 日本語の対応
02 料金・仕組み ©Blueish 2024. All rights reserved.
料金・仕組み 仕組み
仕組み・料金 料金
仕組み・料金 料金
03 フィルターの種類 ©Blueish 2024. All rights reserved.
フィルターの種類 コンテンツフィルター - Hate(ヘイト、憎悪) - Insults(侮辱) - Sexual(性的) - Violence(暴力)
- Misconduct(不正行為) - Prompt Attack(プロンプト攻撃) - ジェイルブレイク: 有害なコンテンツを生成させる - プロンプトインジェクション: プロンプトを上書きさせる
フィルターの種類
フィルターの種類
フィルターの種類 拒否されたトピック - 望ましくない拒否トピックを指定できる(最大30個) - 200文字でトピックの定義を説明 & 最大5つのサンプルフレーズ - 例
- 投資アドバイスに関する内容 - 仮想通貨に関する内容 - …etc
フィルターの種類
フィルターの種類 機密情報フィルター - 個人情報、機密情報をブロック / マスク できる - 住所,名前,email,クレジットカード,講座,IPアドレス …etc
- マスクの場合は [NAME-1], [EMAIL-1] などに置き換えられる - 正規表現での指定も可能
フィルターの種類
フィルターの種類
フィルターの種類 単語フィルター - 入力プロンプトやモデル応答内の単語やフレーズ (完全一致) をブロックする - 単語やフレーズ(最大3語)を10,000語まで指定可能 - S3に.txt/.csvをアップロードして登録することも可能
フィルターの種類
フィルターの種類 コンテキスト グラウンディングチェック - 参照ソースとユーザークエリが提供された場合に、モデル応答の幻覚を検出して フィルタリング - RAG, 要約など参考にすべきソースが入っている場合に使用 -
処理される各チャンクの関連性をチェック - 各モデル応答のグラウンディングと関連性に対応する信頼スコアが生成される - 閾値を用いてフィルタリング
フィルターの種類
フィルターの種類 画像コンテンツフィルター
04 デプロイ・検証 ©Blueish 2024. All rights reserved.
デプロイ・検証 デプロイ(バージョン管理)
デプロイ・検証 テスト
ご清聴ありがとうございました。 ©Blueish 2024. All rights reserved.