AWS Bedrock AgentCoreで作る 1on1支援AIエージェント〜Memory × Evaluationsによる実践開発〜

‹#› AWS Bedrock AgentCore で作る 1on1 支援AI エージェント NRI ネットコム
TECH AND DESIGN STUDY #84 2025 年12 月09 日志水友輔 NRI ネットコム株式会社ユースケのユースケース Case6 〜Memory × Evaluations による実践開発〜 1

マネージャーの94% は" うまくやれている" ただし、部下の同意はわずか10%

マネージャーの94% は" うまくやれている" ただし、部下の同意はわずか10% 3 AI エージェントにコーチングしてもらおう

Copyright （C ） NRI Netcom, Ltd. All rights reserved. 志水
友輔 ( しみずゆうすけ) NRI ネットコム株式会社 / Cloud Architect PoC ・アーキテクト・技術広報 AWS Ambassadors(2023-25) 　AWS CDK/Strands Agents/ カメラ/ つけ麺息子からのじゃんけんハラスメント #nncstudy Blog: 4

Copyright （C ） NRI Netcom, Ltd. All rights reserved. 1on1
の認識ギャップ 84 ポイントのギャップマネージャー: 「良い1on1 をしている」メンバー: 「意味がない」と感じるなぜこのギャップが生まれるのか？ #nncstudy マネージャーメンバー 0 20 40 60 80 100 84 ポイントのギャップ 5

Copyright （C ） NRI Netcom, Ltd. All rights reserved. 双方の課題
マネージャー側準備に時間がかかる（毎回2 時間以上）質問の質にばらつき前回の内容を忘れてしまうメンバー側「また今週も1on1 か... 」という気持ち形骸化した質問前回話したことが活かされない #nncstudy 6

Copyright （C ） NRI Netcom, Ltd. All rights reserved. 今日のゴール
AgentCore の実践的な活用方法を学ぶハイブリッドメモリの使い方 Model Evaluation の活用実際に動く1on1 エージェントのデモなぜこの題材？ AgentCore の主要機能を使える実用的で技術的にも面白い #nncstudy 7

Copyright （C ） NRI Netcom, Ltd. All rights reserved. AWS
Bedrock AgentCore 概要 #nncstudy 8

Copyright （C ） NRI Netcom, Ltd. All rights reserved. AgentCore
とは AWS Bedrock AgentCore AI エージェント開発・運用のための統合プラットフォームサーバーレス・マネージド・エンタープライズグレード主要サービス（今回使用する3 つ） Runtime: エージェントをサーバーレスで実行（Python/TypeScript 対応） Memory: 短期記憶（STM ）+ 長期記憶（LTM ） Evaluations: LLM が品質を自動評価その他のサービス Code Interpreter 、Browser 、Gateway(Policy) 、Identity #nncstudy 9

Copyright （C ） NRI Netcom, Ltd. All rights reserved. AI
エージェント実装の選択肢 #nncstudy 10 項目 Bedrock Agents AgentCore 実装方法 GUI/API 設定 Python コードメモリセッション内のみ STM + LTM （ハイブリッド）メモリ戦略自動要約のみ複数戦略（Semantic, Preferences 等）ユーザー別管理エイリアス単位 memory_id 単位（柔軟）フレームワーク専用API Strands/LangGraph/CrewAI カスタマイズ性プロンプトテンプレート完全なコード制御

エージェント実装の選択肢 #nncstudy 項目 Bedrock Agents AgentCore 実装方法 GUI/API 設定 Python コードメモリセッション内のみ STM + LTM （ハイブリッド）メモリ戦略自動要約のみ複数戦略（Semantic, Preferences 等）ユーザー別管理エイリアス単位 memory_id 単位（柔軟）フレームワーク専用API Strands/LangGraph/CrewAI カスタマイズ性プロンプトテンプレート完全なコード制御 11

エージェント実装の選択肢 #nncstudy 項目 Bedrock Agents AgentCore 実装方法 GUI/API 設定 Python コードメモリセッション内のみ STM + LTM （ハイブリッド）メモリ戦略自動要約のみ複数戦略（Semantic, Preferences 等）ユーザー別管理エイリアス単位 memory_id 単位（柔軟）フレームワーク専用API Strands/LangGraph/CrewAI カスタマイズ性プロンプトテンプレート完全なコード制御実装フレームワーク: Strands Agents AgentCore の公式フレームワーク少ないコードでシンプルに実装メモリ・ツール統合が容易 12

Memory の詳細人間の記憶と同じ仕組み短期記憶「さっき何を話したか」を覚えている会話の流れをそのまま保存例: 「先ほどお話しした目標について... 」長期記憶「この人は誰で、何を大切にしているか」を覚えている LLM が重要な情報だけを抽出・整理例: 「田中さん、エンジニア歴3 年、マネージャー志望」 #nncstudy 13

Copyright （C ） NRI Netcom, Ltd. All rights reserved. メモリ戦略（抽出ルール）
メモリ戦略とは Semantic Memory で「何を抽出するか」を定義 LLM が自動的に情報を抽出・分類 Built-in Strategies （標準戦略） #nncstudy 14 戦略抽出内容用途 Semantic 名前、役職、目標、スキル基本情報 User Preference 好み、価値観、働き方個別化 Summary セッション要約振り返り Episodic 重要な出来事エピソード記録

Copyright （C ） NRI Netcom, Ltd. All rights reserved. メモリのアップデートフロー
ユーザーとの会話「私は田中です。来年マネージャーになりたいです」 1. Short-term Memory （即座に保存）会話全体をEvent （イベント）として保存 2. バックグラウンド処理（非同期）メモリ戦略に基づいてLLM が会話を分析 Semantic: 「名前= 田中、目標= マネージャー」 User Preference: 「キャリア志向が高い」 Summary: 「マネージャー志望について相談」 Episodic: 「2024/12/4 にキャリア相談」 3. Long-term Memory （構造化して保存）戦略ごとに抽出された情報をMemory Record として保存次回の会話で自動参照「田中さん、マネージャーへの準備は進んでいますか？」 #nncstudy 15

Copyright （C ） NRI Netcom, Ltd. All rights reserved. 評価サービスの比較
#nncstudy 項目 Bedrock Model Evaluation AgentCore Evaluations 対象モデル・RAG エージェント評価内容モデル出力の品質エージェント動作全体評価レベルプロンプト単位 Session/Trace/Tool 実行タイミングバッチ実行リアルタイム監視 or 事後評価データ取得手動でデータセット作成 CloudWatch から自動取得用途モデル選定、RAG 評価エージェント開発・監視 16

Evaluations の詳細 2 つの評価タイプ Online: リアルタイム実行 → 本番環境の継続的監視 On-demand: バッチ実行 → 開発・テスト時の品質チェック Built-in Evaluators （14 種類） Helpfulness （役立つか） Correctness （正しいか） Coherence （一貫性） Goal Success Rate （目標達成率） Tool Selection/Parameter Accuracy （ツール精度）その他（Faithfulness 、Conciseness 等）メリットエージェント特化（Session/Trace/Tool レベル） CloudWatch と統合（自動ログ取得） Online 評価で継続的な品質監視が可能 #nncstudy 17

エージェントの設計 #nncstudy 18

Copyright （C ） NRI Netcom, Ltd. All rights reserved. 利用シーン：マネージャー（準備）
【準備フェーズ】1on1 の準備メンバーから事前質問集の回答を受け取る回答をAI に入力「この回答を踏まえて、どんな質問をすべき？」 AI が前回の内容と合わせて質問を提案質問の質を向上 #nncstudy 19

Copyright （C ） NRI Netcom, Ltd. All rights reserved. 利用シーン：マネージャー（実施後）
【実施後フェーズ】書き起こしからのコーチング 1on1 の書き起こしテキストをAI に入力「この1on1 は良かった？改善点は？」 AI が1on1 の質を評価傾聴できていたか適切な質問ができていたかメンバーの本音を引き出せていたか具体的な改善アドバイス次回に向けたアクションプラン #nncstudy 20

Copyright （C ） NRI Netcom, Ltd. All rights reserved. 利用シーン：メンバー向け
【振り返りフェーズ】サマリーの確認 1on1 後にAI が自動生成したサマリーを確認話した内容の整理決めたアクションの確認自分の成長の記録サマリーの内容話したトピック決定事項・アクションアイテムマネージャーからのアドバイス次回までの目標 #nncstudy 21

Copyright （C ） NRI Netcom, Ltd. All rights reserved. 認識ギャップを埋める仕組み
これにより・・・マネージャー: 「良い1on1 ができている」が客観的に評価されるメンバー: 「ちゃんと聞いてもらえた」が記録で確認できる両者: 同じサマリーを見て、認識のズレを防ぐ #nncstudy 22 フェーズマネージャーメンバー効果準備 AI が質問を提案 - 質の高い1on1 実施 - - 実際の1on1 実施後書き起こしからコーチングサマリーで振り返り双方が学ぶ継続改善を次回に活かす成長を実感認識が一致

でのメモリ活用メモリが覚えていること Semantic: 「田中太郎さん、エンジニア歴3 年、来年マネージャー目標」 User Preference: 「技術的な挑戦を好む、ワークライフバランス重視」 Summary: 「12/4: キャリアパス相談、リーダー打診への不安」 Episodic: 「12/4: リーダー打診を受けて不安を感じた出来事」メリットプロンプトにユーザー情報を含める必要なし毎回自己紹介不要、前回の続きから話せる個別化されたアドバイスを自動提供 #nncstudy 23

Copyright （C ） NRI Netcom, Ltd. All rights reserved. ユーザー別のメモリ管理
課題: 田中さんと佐藤さんの情報を混同しない解決策: actor_id とsession_id で完全に分離結果田中さん（actor_id="tanaka" ）と佐藤さん（actor_id="sato" ）で完全分離プライバシー保護 + 個別化されたアドバイス #nncstudy 24

Copyright （C ） NRI Netcom, Ltd. All rights reserved. Bedrock
Model Evaluation の実装評価プロセス 1. テストケースからデータセット生成（JSONL 形式） 2. エージェントを呼び出してレスポンス収集 3. データセットをS3 にアップロード 4.Bedrock Evaluation ジョブを作成 5. 結果を取得・分析データセット形式 #nncstudy 28

Model Evaluation の結果 #nncstudy 29 Correctness （正確性） Completeness （完全性） Helpfulness （有用性） Coherence （一貫性） Relevance （関連性）

Model Evaluation の結果 #nncstudy 30

Evaluations の結果 #nncstudy 31

Evaluations の結果 #nncstudy 32

Copyright （C ） NRI Netcom, Ltd. All rights reserved. まとめ
Memory （記憶）の力 Short-term + Long-term のハイブリッドメモリで人間らしい対話を実現 4 つのメモリ戦略（Semantic, Preferences, Summary, Episodic ）で多面的に記憶 actor_id によるユーザー別管理で、プライバシーと個別化を両立 Evaluations （評価）の重要性 Bedrock Model Evaluation: バッチ処理で開発時の品質チェック AgentCore Evaluations: エージェント特化、リアルタイム監視も可能 2 つの評価手法を使い分けることで、開発から本番まで継続的な品質管理 #nncstudy 33

AWS Bedrock AgentCoreで作る 1on1支援AIエージェント 〜Memory...

AWS Bedrock AgentCoreで作る 1on1支援AIエージェント 〜Memory × Evaluationsによる実践開発〜

More Decks by Yusuke Shimizu

Other Decks in Technology

Featured

Transcript

AWS Bedrock AgentCoreで作る 1on1支援AIエージェント〜Memory...

AWS Bedrock AgentCoreで作る 1on1支援AIエージェント〜Memory × Evaluationsによる実践開発〜