- 実際値)² グラフエディット距離 (GED) エージェントの思考プロセスや意思決定グラフ間の差異を定量化。操作(ノードの追 加/削除/置換)コストの合計で算出。 グラフ比較 変動係数・その他統計指標 変動係数 (CV): 標準偏差を平均値で割った値。安定性評価に有効 四分位範囲 (IQR): 外れ値の影響を受けにくく堅牢な評価が可能 相関係数: 複数メトリクス間の関連性を分析 タスクフロー・失敗パターン分類 質的評価手法。エージェントの動作や失敗を構造的に分析し、パターン化することで 改善ポイントを特定。 主なタスクフロー分析 決定ポイント追跡 ツール使用効率 リソース消費パターン 失敗パターン分類 誤解釈エラー 実行順序ミス リソース枯渇 多軸評価のアプローチ AIエージェントの複雑な振る舞いを適切に評価するには、単一指標ではなく複数の評価軸を組み合わせることが効果的です。 統計的手法と構造的手法を併用し、定量的評価と定性 的評価を相互補完させることで、より包括的な性能把握が可能になります。 統計的・構造的分析手法 AIエージェントにおける評価指標と評価方法 11