LLM as a Judgeに着想を得た、Agentを評価するAgentの提案 • 「LLM-as-a-Judgeよりも優れたパフォーマンスを発揮し、人間の評価ベースラインと同等の 信頼性があることを確認」 -> LLM as a JudgeのLLM部分を、Agenticに 作ればもっと性能が良くなるのではない? Agent-as-a-Judge: Evaluate Agents with Agents
architectures • Large Language Model-Based Agents for Software Engineering: A Survey ◦ ソフトウェアエンジニアリング領域のLLMエージェントの研究のサーベイ • LLMエージェントのデザインパターン、Agentic Design Patternsを理解する ◦ 本スライドの元となった記事