Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Amazon Bedrock AgentCore EvaluationsでAIエージェントを評...
Search
Yudai Jinno
January 26, 2026
Technology
650
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Amazon Bedrock AgentCore EvaluationsでAIエージェントを評価してみよう!
JAWS-UG大阪 re:Invent re:Cap LT大会 UFOが来たら強制終了で使用する登壇資料です。
Yudai Jinno
January 26, 2026
More Decks by Yudai Jinno
See All by Yudai Jinno
AgentCoreの機能、全部要る? ユースケース別にAWSサービスとの組み合わせ方を一緒に整理しよう
yuu551
4
1.8k
Amazon Bedrock AgentCore Managed Harness 座学資料
yuu551
1
1.8k
AWS Agent Registryへの期待
yuu551
1
100
Amazon Bedrockで始めるRAG入門
yuu551
1
950
アーキテクチャ選定から実装Tipsまで! AgentCore / Strands AgentsでAIエージェントを実際に作ってわかったことN選
yuu551
4
1k
個人的によく知らなかった AgentCore Memoryの機能を中心に深掘りしてみた
yuu551
2
760
Bedrock PolicyでAmazon Bedrock Guardrails利用を強制してみた
yuu551
1
700
2025年 Amazon Bedrock AgentCoreまとめ
yuu551
31
21k
爆速でキャッチアップしよう!Amazon Bedrock AgentCore/Strands Agentsのre:Inventアップデート情報まとめ!
yuu551
2
1.6k
Other Decks in Technology
See All in Technology
SONiC Scale-Up Working Group から探る Scale-UpやUltraEthernet機能の実装方法
ebiken
PRO
2
480
AIに障害切り分けを全部やってもらった。 。 。 。
estie
0
100
【セミナー資料】Claude Code をセキュアに使うための考え方と設定の勘どころ / Claude Code Webinar 20260616
masahirokawahara
2
460
「軸足」は 固定しなくていい - 熱量と強みで描く、しなやかなキャリアの形
kakehashi
PRO
1
260
元銀行員がAIだけでアプリを量産!「バイブコーディング実演セミナー 」
tatsuya1970
0
110
LayerX コーポレートエンジニアリング室におけるサプライチェーンセキュリティへの取り組み / Supply Chain Security at LayerX Corporate Engineering
yuyatakeyama
3
830
“詰む”前に仕組みを作れ 〜技術の波に溺れないためのキャッチアップ術〜
takasyou
7
3.7k
スタートアップにAmazon EKSは早すぎる? マルチプロダクト戦略を加速する Platform Engineeringの実践 / Is Amazon EKS Too Soon for Startups? Practical Platform Engineering to Accelerate a Multi-Product Strategy
elmodev09
1
1.8k
フルAIで個人開発して学んだあれこれ / yuruai vol.1
isaoshimizu
0
110
AWS Security Agent といっしょに脅威モデリングをやってみよう
amarelo_n24
1
210
GitHub Copilot app最速の発信の裏側
tomokusaba
1
250
アジャイルな経理と Claude Code と経営の未来
kawaguti
PRO
3
190
Featured
See All Featured
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
220
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.9k
Designing for Timeless Needs
cassininazir
1
260
Reality Check: Gamification 10 Years Later
codingconduct
0
2.2k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
The Spectacular Lies of Maps
axbom
PRO
1
820
Evolving SEO for Evolving Search Engines
ryanjones
0
220
Visualization
eitanlees
152
17k
Odyssey Design
rkendrick25
PRO
2
700
Statistics for Hackers
jakevdp
799
230k
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
340
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
170
Transcript
Amazon Bedrock AgentCore EvaluationsでAIエージェントを評価 してみよう! 神野 雄大(Jinno Yudai /@yjinn448208 )
JAWS-UG大阪 re:Invent re:Cap LT大会 UFOが来たら強制終了 2026/1/26(月)
自己紹介
名前 神野 雄大(Jinno Yudai)/@yjinn448208 最近X始めました! 所属 クラスメソッド株式会社 クラウド事業本部 コンサルティング部 ソリューションアーキテクト
資格 Japan All AWS Top Engineers 2025 推しのサービス Amazon Bedrock AgentCore 自己紹介 KIROハウスで!! (re:Invent初参加!) スフィア!オズの 魔法使い見たよ! ブログはこのアイコン で書いています!
Amazon Bedrock AgentCore
Amazon Bedorck AgentCoreって何? AIエージェントのホスティング Strands Agents、LangGraphなど多様なエー ジェントフレームワークに対応 便利なマネージドサービス AIエージェントを使用する上で認証・ツール連 携など便利な機能がマネージドサービスとして
提供(IdentityやMemoryなど) Amazon Bedrock AgentCore
要はAI Agentを簡単に作ること ができるサービス!!
こんな感じで使えるよ Strands Agents Amazon Bedrock スーパーマーケット のナレッジ AI Agent リクエスト
推論に使用 ツール利用 ユーザー 安くておすすめの スーパーを教えて (ナレッジの調査結果から)おすすめの スーパーはラ・ムーです。 AgentCore Runtime
本題に・・・ 作ったAIエージェントを評価していますか?
やっていない・・・難しそう・・・ でも適切に動いているか評価して作ったAI エージェントを改善したい・・・
そこにre:Inventで 嬉しいアップデートが!
Amazon Bedrock AgentCore Evaluations
Amazon Bedorck AgentCore Evalutiaons 開発・運用しているAIエージェントの評価がコンソール上からできるようになりました。 ダッシュボードからわかりやすく確認できます 。LLMを使った評価(LLM-as-a-Judge)となります 。 ユーザー AI
Agent 安くておすすめの スーパーを教えて (ツールの結果から) おすすめのスーパーはラ・ムーです 。 コンソール上からリアルタイ ムに近い形で確認できるよ スーパーマーケット のナレッジ 一連の流れを基準に基づいて評価 ツール利用
評価方法 ログをベースに評価を行うため、稼働中のエージェントには影響がなくリアルタイムに近い形で コンソールで評価可能です!!!オンデマンドで評価する方法もできます。 どちらも運用中のエージェントには影響しない Online Evaluation (今日はこっち) On-demand evaluation リアルタイムでエージェント品質を
継続的にモニタリング可能、サンプ リング率やフィルタ条件を指定でき る 評価結果はObservabilityのダッ シュボードからも確認可能 特定のセッションIDなどを指定して オンデマンドで評価可能 Starter Toolkitで簡単に実現可能
実際にやってみる
エージェントのデプロイ CDKでスーパーマーケットAIエージェントをデプロイしておきます。ソースコードも不要かと思 いますが、共有します。関西のスーパーを中心としたナレッジを入れています。 ワイ ソースコード レポジトリのURL cdk deploy AgentCore Runtime
AWS Strands Agents Amazon Bedrock スーパーマーケット のナレッジ AI Agent 推論に使用
コンソール上から設定する 下記3つを評価指標として選択 忠実性 目標達成率 ツール選択の正確性
AIエージェントに質問してみる 正解できそうな質問と不正解になりそうな質問を聞いてみます。 安くておすすめの スーパーを教えて コストコについて 教えて 24時間営業で品質も 良いスーパーは? AI Agent
スーパーマーケット のナレッジ ツール利用 質問
回答を見てみる 実際の回答を少し見てみます。コストコの質問はナレッジが入っていないので回答できていませ んね。
評価結果を見てみる いくつかの質問に対する評価サマリーはGen AI Observabilityダッシュボードから確認できま す。どれぐらい基準を満たしているかパッとわかるのは嬉しいですね。
評価結果を見てみる もう少しブレイクダウンしてコストコについての質問が、どんな風に評価されているのか具体的 に見てみましょうか。CloudWatch に評価結果のログが格納されているのでみれます。 GoalSuccessRateを例に見てみます。 0点がついている
評価結果を見てみる 日本語に訳してみます。 ユーザーは日本語でコストコ(Costco)について質問しました。 AIアシスタントは適切に「retrieve」ツールを使用し、ナレッジベースからコストコに関する情報を検索しました。 検索の結果、スコア0.4以上のドキュメントが5件ヒットしましたが、その中にコストコに関する具体的な情報を含むものはありませんでした。 代わりに、関西地方の様々なスーパーマーケット(ラ・ムー、玉出、阪急オアシス、ライフ、イオン、コーナン)に関する情報が表示されました。 AIアシスタントはツールの出力を正しく解釈し、ナレッジベース内にコストコに関する直接的な情報が見つからなかったことを、ユーザーに誠実に伝えました。 その際、アシスタントは以下の対応を行いました: 利用可能な情報の限界を認めた。 代わりに提供可能な情報(関西地方の他のスーパーマーケットについて)を提示した。
ユーザーが要望を具体化したい場合に備え、コストコに関する特定の質問へのサポートを申し出た。 どのような種類の質問に回答できるかの例を提示した。 アシスタントの回答はツールの出力に照らして適切なものでした。 コストコについて情報を捏造することなく、利用可能なデータの制限を透明性を持って伝えました。 ユーザーの目的はコストコについて知ることでしたが、ツールの出力で確認された通りナレッジベースにその情報が含まれていないため、アシスタントはその要求 を直接満たすことはできません。 アシスタントは、透明性を保ちつつ代替案を提示することで、この制限に対してプロフェッショナルに対応しました。 回答 コストコについて教えるっていう目標は 達成できなかったですもんね。 シンプルにコストコのナレッジを追加したいですね。
評価結果を見てみる Faithfulnessも見てみます。 1点がついている
評価結果を見てみる こちらも日本語に訳してみます。 ユーザーは「コストコ」について質問しました。アシスタントは「コストコ」というキーワードで検索を実行しましたが、その結果返ってきたのは、関西地方の 様々なスーパーマーケット(ラ・ムー、ライフ、イオン、玉出、コーナンなど)に関する5件の情報であり、コストコに関する情報は一切含まれていませんでした。 アシスタントの回答は、以下の点においてこの状況を正確に反映しています。 検索結果にコストコに関する直接的な情報が含まれていなかったことを認めている。 実際に見つかった情報(ラ・ムー、玉出、阪急オアシス、ライフ、イオンといった関西のスーパーマーケット情報)を正しく特定している。 現在の知識ベースでは、コストコの情報が利用できないことを明示している。 コストコに関する具体的な質問があれば、改めてサポートする旨を提案している。 アシスタントの回答は、これまでの会話の経緯に完全に忠実です。
コストコについて情報を捏造することはなく、検索ツールの出力を正しく伝え、利用可能なデータの限界を適切に認めています。アシスタントの回答と会話履歴の 間に矛盾はありません。 回答 あくまで忠実性って観点で見てクリ アしているよって感じですね。
点数だけではなく、AIが何をもって判断したかを確認するのも大事ですね・・・!! 人間の評価基準とはギャップがある可能性もあります。必要に応じて目視でのチェッ クも組み合わせて判断しましょう!! 分析してボトルネックを特定してAIエージェントの動きをより良くしてきましょう!
補足 Strands AgentsでもEval機能が実装されているので、AgentCore Evaluationsよりも凝った評 価をしたいケースで試してみるのもおすすめします! 実装イメージ
補足 Strands AgentsでもEval機能が実装されているので、AgentCore Evaluationsよりも凝った評 価をしたいケースで試してみるのもおすすめします! 実行結果
おわりに 今日はあっさりなので、 AgentCoreをもっと知りたくなっ た方はぜひこの記事を読んでいた だけると嬉しいです! https://dev.classmethod.jp/articles/amazon-bedrock-agentcore-2025-summary/
おわりに 最後までご清聴いただいてありがとうございましたー!! Evaluationsを活用して、作ったAIエージェントをどんど ん改善していきましょう!!!