三菱重工業の全社向けRAG基盤「ΣSynX EX(AIワークスペース)」における精度評価を、人手中心の運用から脱却し、Langfuse × AI-as-a-Judge によるエージェント主導の自動評価へと移行した取り組みを紹介します。
利用ユーザー拡大に伴い増大するRAG精度チェックの運用負荷に対し、
- 全会話トレースの自動収集
- GitHub Actionsによる定期評価
- MCP Gateway経由のログ取得
- 4指標(Faithfulness / Context Recall / Answer Relevancy / Context Precision)による自動スコアリング
といった仕組みを構築。
小規模チーム(4名)でも運用を回し続けるための「エージェント活用による評価自動化」の実践例と、その効果・課題・今後の展望を共有します。