Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Bedrockでガードレールのフィルターを理解する
Search
Shota Totsuka
February 26, 2025
1
61
Bedrockでガードレールのフィルターを理解する
Shota Totsuka
February 26, 2025
Tweet
Share
More Decks by Shota Totsuka
See All by Shota Totsuka
Bedrockでのプロンプト管理戦略
totsukash
1
47
Amazon SageMaker AIでモデル開発からデプロイまで試す
totsukash
1
34
Amazon CodeGuruをGitHubと統合して アプリケーションの品質管理を楽にする
totsukash
0
13
AWS Glueで始めるETLパイプライン
totsukash
0
18
Amazon Novaを使用した蒸留
totsukash
2
85
SageMaker AIワークフローのあれこれ紹介
totsukash
1
70
Vertex AIで画像分類タスクのデータセットを準備する
totsukash
0
43
Text-to-SQLで自然言語から構造化データを取得する
totsukash
2
110
トークナイザーの仕組みを少しだけ深ぼって理解する
totsukash
0
56
Featured
See All Featured
What's in a price? How to price your products and services
michaelherold
245
12k
Making Projects Easy
brettharned
116
6.1k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
4
470
A Modern Web Designer's Workflow
chriscoyier
693
190k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
160
15k
Git: the NoSQL Database
bkeepers
PRO
429
65k
The Language of Interfaces
destraynor
157
24k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
177
52k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
Embracing the Ebb and Flow
colly
85
4.6k
Done Done
chrislema
183
16k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
Transcript
None
自己紹介 ©Blueish 2024. All rights reserved. 戸塚 翔太|BLUEISH Shota Totsuka
・LLMアプリ開発者(Go/Python …etc) ・生成AI, 機械学習 ・趣味: スキー/スノボ, 最近はDifyにContribute ・静岡県(浜松)に住んでます 近くの方がいれば、一緒に勉強会しましょう! Xアカウント @totsukash
自己紹介 ©Blueish 2024. All rights reserved. AWS認定(1月から開始)
01 ガードレールとは? 02 料金・仕組み 03 フィルターの種類 04 デプロイ 目次 ©Blueish
2024. All rights reserved. 05 まとめ
01 ガードレールとは? ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. ガードレールとは? - LLM Applicationにて、LLMへの入力やLLMからの出力の内容を保護する仕組み -
システム側が許容していない入力を弾く - システム側が許容していない出力をユーザーに返さない ガードレール
ガードレールとは? Amazon Bedrock Guardrails
ガードレールとは? 日本語の対応
02 料金・仕組み ©Blueish 2024. All rights reserved.
料金・仕組み 仕組み
仕組み・料金 料金
仕組み・料金 料金
03 フィルターの種類 ©Blueish 2024. All rights reserved.
フィルターの種類 コンテンツフィルター - Hate(ヘイト、憎悪) - Insults(侮辱) - Sexual(性的) - Violence(暴力)
- Misconduct(不正行為) - Prompt Attack(プロンプト攻撃) - ジェイルブレイク: 有害なコンテンツを生成させる - プロンプトインジェクション: プロンプトを上書きさせる
フィルターの種類
フィルターの種類
フィルターの種類 拒否されたトピック - 望ましくない拒否トピックを指定できる(最大30個) - 200文字でトピックの定義を説明 & 最大5つのサンプルフレーズ - 例
- 投資アドバイスに関する内容 - 仮想通貨に関する内容 - …etc
フィルターの種類
フィルターの種類 機密情報フィルター - 個人情報、機密情報をブロック / マスク できる - 住所,名前,email,クレジットカード,講座,IPアドレス …etc
- マスクの場合は [NAME-1], [EMAIL-1] などに置き換えられる - 正規表現での指定も可能
フィルターの種類
フィルターの種類
フィルターの種類 単語フィルター - 入力プロンプトやモデル応答内の単語やフレーズ (完全一致) をブロックする - 単語やフレーズ(最大3語)を10,000語まで指定可能 - S3に.txt/.csvをアップロードして登録することも可能
フィルターの種類
フィルターの種類 コンテキスト グラウンディングチェック - 参照ソースとユーザークエリが提供された場合に、モデル応答の幻覚を検出して フィルタリング - RAG, 要約など参考にすべきソースが入っている場合に使用 -
処理される各チャンクの関連性をチェック - 各モデル応答のグラウンディングと関連性に対応する信頼スコアが生成される - 閾値を用いてフィルタリング
フィルターの種類
フィルターの種類 画像コンテンツフィルター
04 デプロイ・検証 ©Blueish 2024. All rights reserved.
デプロイ・検証 デプロイ(バージョン管理)
デプロイ・検証 テスト
ご清聴ありがとうございました。 ©Blueish 2024. All rights reserved.