Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI エージェントを評価するための温故知新と Spec Driven Evaluation

AI エージェントを評価するための温故知新と Spec Driven Evaluation

本スライドでは、AIエージェント評価の課題を解決するアプローチを提案しています。

・現状、評価が難しい理由として「何を測定するか」の選択肢が多様で解釈も多様な点があります。
・これについて、従来の自然言語処理研究の知見を活かし実績がある体系的なフレームワークで AI エージェントとその評価観点を整理する方法を紹介します。
・その上で、評価を進めるに際し欠かせない「あるべき体験についての合意形成」に必要な対話例やシミュレーターを Spec Driven で効率的に進める方法を紹介し、病院向けのエージェント評価で適用した時に得られた結果を共有します

Avatar for Takahiro Kubo

Takahiro Kubo PRO

November 20, 2025
Tweet

More Decks by Takahiro Kubo

Other Decks in Technology

Transcript

  1. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. Senior Machine Learning Developer Relations Takahiro Kubo AI エージェントを評価するための 温故知新と Spec Driven Evaluation
  2. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 2 自己紹介 アマゾン ウェブ サービス ジャパン合同会社 Senior Machine Learning Developer Relations 久保隆宏 (Takahiro Kubo) 技術監修 翻訳 AI/ML についての技術的な解説や AWS のサービスの紹介はもちろん、 「機械学習の実プロダクトでの活用」 を進めるためのワークショップや情報 提供、また AWS のサービス改善に 取り組んでいます。 単著 寄稿
  3. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 3 本セッションのゴール AI エージェントを構築する際、研究の蓄積がある フレームワークを出発地点にして合意形成と計測の開始 を Spec Driven で効率的にできるようになる。
  4. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 4 Agenda 1. AI エージェントの評価はなぜ難しいのか 2. 実績のあるフレームワークを訪ねる 1. AI エージェントの種別 2. AI エージェントの評価観点 3. 評価の実践 4. 結論
  5. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 5 AI エージェントの評価はなぜ難しいのか 「何を」測定するか選択肢が多く解釈も多様で、合意形成が難しい。 (事前アンケートより) Ex : 営業資料を作成するエージェントの場合 • 作成にかかる時間 (やりとりの数) • ユーザーとのインタラクション数 • ツールとのインタラクション数 • 資料の内容 • 構成 / 記述 • 引用の正確性 • 図表等のグラフィックス • 推論にかかったコスト、等々 「何を」評価基準として 計測すべき ? 計測対象が決まれば、 LLM as a Judge の登場もあり旧来のアノ テーションからはかなり楽になっ ている。
  6. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 6 分ける 難しい問題に対処する時の鉄則 「品質」や「精度」をブレークダウンしていくことで解像度を上げ ると共に、個別に計測できるようにしたい
  7. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 7 どう分ける? 人により信念や解釈が色々あるが・・・
  8. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 8 Agenda 1. AI エージェントの評価はなぜ難しいのか 2. 実績のある評価フレームワークを訪ねる 1. AI エージェントの種別 2. AI エージェントの評価観点 3. 評価の実践 4. 結論
  9. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 9 対話システムの類型 人と対話するシステムは従来からある研究領域。対話システムの分類は AI エージェ ントの分類にも役立つ。 タスク指向型 非タスク指向型 質問回答 Deriu, J., Rodrigo, A., Otegi, A. et al. Survey on evaluation methods for dialogue systems. Artif Intell Rev 54, 755–810 (2021). ユーザーは目的を達成 するために会話する • チケット予約 • 送金 / 決済 etc ユーザーは会話自体を 楽しむ目的で会話する • 雑談対話 • 心理サポート etc ユーザーは不明点を解 消するため質問をする • 製品 Q&A • 百科事典 etc
  10. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 10 AI エージェントの類型 人と対話するシステムは従来からある研究領域。対話システムの分類は AI エージェ ントの分類にも役立つ。 タスク指向型 非タスク指向型 質問回答 Deriu, J., Rodrigo, A., Otegi, A. et al. Survey on evaluation methods for dialogue systems. Artif Intell Rev 54, 755–810 (2021). ユーザーは目的を達成 するために会話する • チケット予約 • 送金 / 決済 etc ユーザーは会話自体を 楽しむ目的で会話する • 雑談対話 • 心理サポート etc ユーザーは不明点を解 消するため質問をする • 製品 Q&A • 百科事典 etc AI エージェント AI チャット bot 検索拡張生成 (RAG)
  11. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 11 代表的な評価観点と類型ごとの適合性 評価観点 評価手法 (人力以外) 評価の性能・課題 Task Conv QA ユーザー満足度 PARADISE フレームワーク / Interaction Quality といった評価 予測モデルの学習。意図分類結果 やターン数等の特徴を用いる。 人手評価との相関 (Spearman’s ρ) が 0.6~0.7 との報告あり。システム間に比 べユーザー属性間の汎用性は落ちる報 告がある 〇 〇 〇 対話コスト ターン数、経過時間、不適切な発 話の修復回数等 機械的に収集が可能で、PARADISE の 特徴量として使用 〇 〇 〇 発話適切性 回答に対する応答が自然か否か (有害性や規約遵守等もこの領域) 模範解答との距離 (BLEU など) は人手 評価との相関が低い。NN モデルで Person が 0.4~0.5 、LLM で 0.9~ 〇 〇 〇 タスク成功率 目的とするタスクの成否 おおむね明確に計測が可能。手順が明 確であれば 9 割~は成功する報告 〇 話題の幅 / 深さ 幅は会話に含まれるトピック数 (DNN で分類)、深さは特定トピッ ク内のターン数で計測 トピックの幅は ρ=0.5、深さはρ = 0.7 と深さが満足度との相関が高いとする 報告あり 〇 正確性 回答に対する Precision / Recall / F1 で計測。 明確に計測が可能 〇
  12. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 13 研究の知見に基づく「評価」の分け方 • タスク指向の満足度はタスクの完了率・対話のコストに分ける • 完了率 : タスクに不可欠な情報取得の完全性 etc • 対話のコスト : 会話数 / 修正数 etc • タスク指向型は手順が明確であれば成功しやすく、コストの方が重要 • 非タスク指向の評価は話題の幅と深さに分ける • 幅より深さが満足度に影響を持つ傾向がある。これは強化学習における探索と 活用と似ており、バランスを取ることが必要 (そのため分けて計測が必要) • 評価はユーザー属性ごとに分ける • 初心者と熟練者では評価基準が異なり重なる部分が少ないのが研究の示唆
  13. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 14 Agenda 1. AI エージェントの評価はなぜ難しいのか 2. 実績のあるフレームワークを訪ねる 1. AI エージェントの種別 2. AI エージェントの評価観点 3. 評価の実践 4. 結論
  14. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 15 例 : リハビリスケジュール作成エージェント 指定日時のリハビリスケジュール (誰が誰をいつ担当) を作成するエージェント。 セラピスト一覧、患者と必要なリハビリ一覧、セラピスト勤務表の 3 点から計算。 種別 • タスク指向型 評価指標 • タスクの成功 : スケジュール作成の成功 • 対話のコスト : 条件指定 / 訂正回数 スケジュールの作成は数理最適化を使用。自然言語によりファイル内で指定されて いない突発的・流動的な変更を最適化条件に変換し再作成できるのがポイント。
  15. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 16 研究の知見を活かした評価フェーズの設計 Phase 1: Scenario Planning ユーザー属性と対話コストの 2 軸で複数のシナリオを作成する。シナリオごとに 「想定される会話」と「満足度の期待値」を読み合わせ合意形成する。 Phase 2: Simulation シナリオに基づき動く User Simulator で想定される会話をシミュレーションする。 各シナリオの「想定」と (シミュレーション上の)「実際」との乖離を検証し改善。 Phase 3: Operation 各シナリオの「想定」と「実際」との乖離を検証し改善。 ※属性など評価に必要な特徴量及び評価は LLM で推定する 満足度に重要な コストと属性に注目
  16. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 17 人手でやる ? だいぶ大変だね Spec Driven Evaluation
  17. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 18 Phase 1 : Scenario Planning / Spec Spec Goal : 想定されるシナリオにおいてどういう会 話が出来たら何点なのか合意形成を行う Spec : 研究の知見をもとに “ユーザー属性・問 合せ難易度の 2 軸でシナリオの設計と具体的 な対話の流れの作成せよ” 作成されたシナリオと対話を読み合わせ、 どういう対話ならどの程度の満足度なのか合意 形成を行う。
  18. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 19 Phase 1 : Scenario Planning / Output 訂正の回数などシナリオの骨格を指定 (構造は JSON Schema で定義) 確認しやすくするための具体的な対話 内容 (tool call がある場合 tool 名、 error の場合 Exception name を記載)
  19. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 20 Phase 2 : Simulation / Spec Spec Goal : 実ユーザーに使ってもらう前に、想定する シナリオの実現性を LLM を使い評価する Spec : “Phase1 で作成したシナリオの設定値を読 み込んで応対をエミュレート・評価する User Agent を作成せよ”。”User Agent との対話を評価 し、Phase1 想定時のものと比較せよ”。 LLM の力で各シナリオごと一定量の対話をさせ てみて乖離の度合いを検証する
  20. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 21 Phase 2 : Simulation / Output Simulator 用プロンプト Planning で設定されたペルソナ (初心者 的にふるまうなど) 、アクション (依頼、 承認等) に応じたプロンプトを作成 Planning (Expected) と LLM as a Judge の評価を比較し、差分を検証。 Phase 1 の期待スコアとSimulation の値との比較 ユーザー属性 ユーザー行動
  21. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 22 Phase 3 : Operation Goal : 実ユーザーとの会話とそれに対する評価を継続的に収集する Spec : “CloudWatch / Langfuse などに流したログを取得し、LLM as a Judge による評価を 実施せよ”。”Scenario Planning における期待値と乖離がないか報告せよ”。 実ユーザーからの評価が期待値とずれていないか評価する。
  22. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 23 Spec Driven Evaluation で得られた Insight • Phase1 でフレームワークを基にシナリオを作ることで理想以外の検討が充足する • 「今日」や「来週」といった曖昧な指定をすることによるエラー、割り当てで きない場合どう落ち着けるべきか事前に把握し改善に活かせた • Phase2 でシミュレーションを行うことで、事前に想定エラーを洗い出せる • 対話コスト (ターン数) がどれぐらいかかるか、またどれぐらいになると Quota によるエラーが発生するかなど、現実的な問題を事前に把握できた 研究の知見を活かした Spec Driven Evaluation で、 評価に基づく改善につなげられた
  23. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 24 Agenda 1. AI エージェントの評価はなぜ難しいのか 2. 実績のあるフレームワークを訪ねる 1. AI エージェントの種別 2. AI エージェントの評価観点 3. 評価の実践 4. 結論
  24. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 25 まとめ • AI エージェントの評価で「何を」計測すべきかは、様々な選択肢がある。積み重 ねられた自然言語処理の研究を参照することで妥当な評価観点を決められる • Scenario Planning / Simulation / Operation の 3 Phase で評価を行うことを提案。 人手で進めるのは大変!だが、生成 AI を活かした Spec Driven Evaluation により効率的に進めることができる (今回は、Simulation までで約数時間で実装) • 病院向けのリハビリスケジュール作成エージェントの事例を通じ実践した。評価 観点の事前合意形成、シミュレーションと期待との差分によりエラーや条件解釈 誤りに基づく想像外の対話コストを事前に特定できた。Operation のフェーズで も重要な Insight が得られることが期待できる
  25. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Thank you! © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved.