Amazon Bedrock AgentCore EvaluationsでAIエージェントを評価してみよう！

Amazon Bedrock AgentCore EvaluationsでAIエージェントを評価してみよう！神野雄大（Jinno Yudai /@yjinn448208 ）
JAWS-UG大阪 re:Invent re:Cap LT大会 UFOが来たら強制終了　 2026/1/26（月）　

自己紹介

名前神野雄大（Jinno Yudai）/@yjinn448208 最近X始めました！所属クラスメソッド株式会社クラウド事業本部コンサルティング部ソリューションアーキテクト
資格 Japan All AWS Top Engineers 2025 推しのサービス Amazon Bedrock AgentCore 自己紹介 KIROハウスで！！（re:Invent初参加！）スフィア！オズの魔法使い見たよ！ブログはこのアイコンで書いています！

Amazon Bedrock AgentCore

Amazon Bedorck AgentCoreって何？ AIエージェントのホスティング Strands Agents、LangGraphなど多様なエージェントフレームワークに対応便利なマネージドサービス AIエージェントを使用する上で認証・ツール連携など便利な機能がマネージドサービスとして
提供（IdentityやMemoryなど） Amazon Bedrock AgentCore

要はAI Agentを簡単に作ることができるサービス！！

こんな感じで使えるよ Strands Agents Amazon Bedrock スーパーマーケットのナレッジ AI Agent リクエスト
推論に使用ツール利用ユーザー安くておすすめのスーパーを教えて（ナレッジの調査結果から）おすすめのスーパーはラ・ムーです。 AgentCore Runtime

本題に・・・  作ったAIエージェントを評価していますか？

やっていない・・・難しそう・・・でも適切に動いているか評価して作ったAI エージェントを改善したい・・・

そこにre:Inventで嬉しいアップデートが！

Amazon Bedrock AgentCore Evaluations

Amazon Bedorck AgentCore Evalutiaons 開発・運用しているAIエージェントの評価がコンソール上からできるようになりました。ダッシュボードからわかりやすく確認できます。LLMを使った評価（LLM-as-a-Judge）となります。ユーザー AI
Agent 安くておすすめのスーパーを教えて（ツールの結果から）おすすめのスーパーはラ・ムーです。コンソール上からリアルタイムに近い形で確認できるよスーパーマーケットのナレッジ一連の流れを基準に基づいて評価ツール利用

評価方法ログをベースに評価を行うため、稼働中のエージェントには影響がなくリアルタイムに近い形でコンソールで評価可能です！！！オンデマンドで評価する方法もできます。どちらも運用中のエージェントには影響しない Online Evaluation （今日はこっち） On-demand evaluation リアルタイムでエージェント品質を
継続的にモニタリング可能、サンプリング率やフィルタ条件を指定できる評価結果はObservabilityのダッシュボードからも確認可能特定のセッションIDなどを指定してオンデマンドで評価可能 Starter Toolkitで簡単に実現可能

実際にやってみる

エージェントのデプロイ CDKでスーパーマーケットAIエージェントをデプロイしておきます。ソースコードも不要かと思いますが、共有します。関西のスーパーを中心としたナレッジを入れています。ワイソースコードレポジトリのURL cdk deploy AgentCore Runtime
AWS Strands Agents Amazon Bedrock スーパーマーケットのナレッジ AI Agent 推論に使用

コンソール上から設定する下記3つを評価指標として選択忠実性目標達成率ツール選択の正確性

AIエージェントに質問してみる正解できそうな質問と不正解になりそうな質問を聞いてみます。安くておすすめのスーパーを教えてコストコについて教えて 24時間営業で品質も良いスーパーは？ AI Agent
スーパーマーケットのナレッジツール利用質問

回答を見てみる実際の回答を少し見てみます。コストコの質問はナレッジが入っていないので回答できていませんね。

評価結果を見てみるいくつかの質問に対する評価サマリーはGen AI Observabilityダッシュボードから確認できます。どれぐらい基準を満たしているかパッとわかるのは嬉しいですね。

評価結果を見てみるもう少しブレイクダウンしてコストコについての質問が、どんな風に評価されているのか具体的に見てみましょうか。CloudWatch に評価結果のログが格納されているのでみれます。 GoalSuccessRateを例に見てみます。 0点がついている

評価結果を見てみる日本語に訳してみます。ユーザーは日本語でコストコ（Costco）について質問しました。 AIアシスタントは適切に「retrieve」ツールを使用し、ナレッジベースからコストコに関する情報を検索しました。検索の結果、スコア0.4以上のドキュメントが5件ヒットしましたが、その中にコストコに関する具体的な情報を含むものはありませんでした。代わりに、関西地方の様々なスーパーマーケット（ラ・ムー、玉出、阪急オアシス、ライフ、イオン、コーナン）に関する情報が表示されました。 AIアシスタントはツールの出力を正しく解釈し、ナレッジベース内にコストコに関する直接的な情報が見つからなかったことを、ユーザーに誠実に伝えました。その際、アシスタントは以下の対応を行いました：利用可能な情報の限界を認めた。代わりに提供可能な情報（関西地方の他のスーパーマーケットについて）を提示した。
ユーザーが要望を具体化したい場合に備え、コストコに関する特定の質問へのサポートを申し出た。どのような種類の質問に回答できるかの例を提示した。アシスタントの回答はツールの出力に照らして適切なものでした。コストコについて情報を捏造することなく、利用可能なデータの制限を透明性を持って伝えました。ユーザーの目的はコストコについて知ることでしたが、ツールの出力で確認された通りナレッジベースにその情報が含まれていないため、アシスタントはその要求を直接満たすことはできません。アシスタントは、透明性を保ちつつ代替案を提示することで、この制限に対してプロフェッショナルに対応しました。回答コストコについて教えるっていう目標は達成できなかったですもんね。シンプルにコストコのナレッジを追加したいですね。

評価結果を見てみる Faithfulnessも見てみます。 1点がついている

評価結果を見てみるこちらも日本語に訳してみます。ユーザーは「コストコ」について質問しました。アシスタントは「コストコ」というキーワードで検索を実行しましたが、その結果返ってきたのは、関西地方の様々なスーパーマーケット（ラ・ムー、ライフ、イオン、玉出、コーナンなど）に関する5件の情報であり、コストコに関する情報は一切含まれていませんでした。アシスタントの回答は、以下の点においてこの状況を正確に反映しています。検索結果にコストコに関する直接的な情報が含まれていなかったことを認めている。実際に見つかった情報（ラ・ムー、玉出、阪急オアシス、ライフ、イオンといった関西のスーパーマーケット情報）を正しく特定している。現在の知識ベースでは、コストコの情報が利用できないことを明示している。コストコに関する具体的な質問があれば、改めてサポートする旨を提案している。アシスタントの回答は、これまでの会話の経緯に完全に忠実です。
コストコについて情報を捏造することはなく、検索ツールの出力を正しく伝え、利用可能なデータの限界を適切に認めています。アシスタントの回答と会話履歴の間に矛盾はありません。回答あくまで忠実性って観点で見てクリアしているよって感じですね。

点数だけではなく、AIが何をもって判断したかを確認するのも大事ですね・・・！！人間の評価基準とはギャップがある可能性もあります。必要に応じて目視でのチェックも組み合わせて判断しましょう！！分析してボトルネックを特定してAIエージェントの動きをより良くしてきましょう！

補足 Strands AgentsでもEval機能が実装されているので、AgentCore Evaluationsよりも凝った評価をしたいケースで試してみるのもおすすめします！実装イメージ

補足 Strands AgentsでもEval機能が実装されているので、AgentCore Evaluationsよりも凝った評価をしたいケースで試してみるのもおすすめします！実行結果

おわりに今日はあっさりなので、 AgentCoreをもっと知りたくなった方はぜひこの記事を読んでいただけると嬉しいです！ https://dev.classmethod.jp/articles/amazon-bedrock-agentcore-2025-summary/

おわりに最後までご清聴いただいてありがとうございましたー！！  Evaluationsを活用して、作ったAIエージェントをどんどん改善していきましょう！！！

Amazon Bedrock AgentCore EvaluationsでAIエージェントを評...

Amazon Bedrock AgentCore EvaluationsでAIエージェントを評価してみよう！

Yudai Jinno

More Decks by Yudai Jinno

Other Decks in Technology

Featured

Transcript