Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Bedrockでガードレールのフィルターを理解する
Search
Shota Totsuka
February 26, 2025
1
36
Bedrockでガードレールのフィルターを理解する
Shota Totsuka
February 26, 2025
Tweet
Share
More Decks by Shota Totsuka
See All by Shota Totsuka
Amazon Novaを使用した蒸留
totsukash
2
70
SageMaker AIワークフローのあれこれ紹介
totsukash
1
54
Vertex AIで画像分類タスクのデータセットを準備する
totsukash
0
38
Text-to-SQLで自然言語から構造化データを取得する
totsukash
2
90
トークナイザーの仕組みを少しだけ深ぼって理解する
totsukash
0
44
Bedrockエージェントから見るAI Agentとその挙動
totsukash
1
43
SageMaker Ground Truthでトレーニングデータセットを構築する
totsukash
0
14
自発的にActionする(っぽい)AI Agentを常に稼働させている話
totsukash
1
40
Dify|基礎から最新アップデートまでをサラッと紹介
totsukash
7
1.7k
Featured
See All Featured
Into the Great Unknown - MozCon
thekraken
35
1.6k
Measuring & Analyzing Core Web Vitals
bluesmoon
6
250
Building Your Own Lightsaber
phodgson
104
6.2k
Automating Front-end Workflow
addyosmani
1368
200k
4 Signs Your Business is Dying
shpigford
182
22k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
7k
Designing Experiences People Love
moore
140
23k
Navigating Team Friction
lara
183
15k
Docker and Python
trallard
44
3.3k
Producing Creativity
orderedlist
PRO
344
40k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Six Lessons from altMBA
skipperchong
27
3.6k
Transcript
None
自己紹介 ©Blueish 2024. All rights reserved. 戸塚 翔太|BLUEISH Shota Totsuka
・LLMアプリ開発者(Go/Python …etc) ・生成AI, 機械学習 ・趣味: スキー/スノボ, 最近はDifyにContribute ・静岡県(浜松)に住んでます 近くの方がいれば、一緒に勉強会しましょう! Xアカウント @totsukash
自己紹介 ©Blueish 2024. All rights reserved. AWS認定(1月から開始)
01 ガードレールとは? 02 料金・仕組み 03 フィルターの種類 04 デプロイ 目次 ©Blueish
2024. All rights reserved. 05 まとめ
01 ガードレールとは? ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. ガードレールとは? - LLM Applicationにて、LLMへの入力やLLMからの出力の内容を保護する仕組み -
システム側が許容していない入力を弾く - システム側が許容していない出力をユーザーに返さない ガードレール
ガードレールとは? Amazon Bedrock Guardrails
ガードレールとは? 日本語の対応
02 料金・仕組み ©Blueish 2024. All rights reserved.
料金・仕組み 仕組み
仕組み・料金 料金
仕組み・料金 料金
03 フィルターの種類 ©Blueish 2024. All rights reserved.
フィルターの種類 コンテンツフィルター - Hate(ヘイト、憎悪) - Insults(侮辱) - Sexual(性的) - Violence(暴力)
- Misconduct(不正行為) - Prompt Attack(プロンプト攻撃) - ジェイルブレイク: 有害なコンテンツを生成させる - プロンプトインジェクション: プロンプトを上書きさせる
フィルターの種類
フィルターの種類
フィルターの種類 拒否されたトピック - 望ましくない拒否トピックを指定できる(最大30個) - 200文字でトピックの定義を説明 & 最大5つのサンプルフレーズ - 例
- 投資アドバイスに関する内容 - 仮想通貨に関する内容 - …etc
フィルターの種類
フィルターの種類 機密情報フィルター - 個人情報、機密情報をブロック / マスク できる - 住所,名前,email,クレジットカード,講座,IPアドレス …etc
- マスクの場合は [NAME-1], [EMAIL-1] などに置き換えられる - 正規表現での指定も可能
フィルターの種類
フィルターの種類
フィルターの種類 単語フィルター - 入力プロンプトやモデル応答内の単語やフレーズ (完全一致) をブロックする - 単語やフレーズ(最大3語)を10,000語まで指定可能 - S3に.txt/.csvをアップロードして登録することも可能
フィルターの種類
フィルターの種類 コンテキスト グラウンディングチェック - 参照ソースとユーザークエリが提供された場合に、モデル応答の幻覚を検出して フィルタリング - RAG, 要約など参考にすべきソースが入っている場合に使用 -
処理される各チャンクの関連性をチェック - 各モデル応答のグラウンディングと関連性に対応する信頼スコアが生成される - 閾値を用いてフィルタリング
フィルターの種類
フィルターの種類 画像コンテンツフィルター
04 デプロイ・検証 ©Blueish 2024. All rights reserved.
デプロイ・検証 デプロイ(バージョン管理)
デプロイ・検証 テスト
ご清聴ありがとうございました。 ©Blueish 2024. All rights reserved.