Langfuseで支える AIエージェントの監視・評価

Langfuseで支える AIエージェントの監視・評価 2026/02/16 AI Shift (サイバーエージェント100%子会社) ソリューション事業部 AI team lead
長澤春希

自己紹介長澤春希 (Nagasawa Haruki) • 東北大学 Tohoku NLP 出身 ◦
学部早期卒業後、修士課程に進学・修了 ◦ ACL・EMNLP・ICASSP採択歴あり • 2023/10 よりサイバーエージェントに Join ◦ AI Shiftで機械学習エンジニアとして勤務 ◦ 音声認識精度の向上、チャットボットの改修、論文執筆、自律型エージェントの開発、監視基盤のデプロイ・組み込み etc. • 好きなもの ◦ 梅干しとHipHopとLa La Land @sp_1999N

メディア主力事業サイバーエージェントにおけるAI Shift • デジタルビジネスのノウハウを生かし、 2016年頃からAI、2020年頃からDXの領域に最注力 • AI/DXの主幹子会社インターネット広告
主力事業ゲーム主力事業エンタメテック強化分野 AI 主力事業 DX 主力事業スタートアップ新規事業

提供サービス AIコールセンター領域から、AIエージェント構築支援まで  9年以上の自然言語・音声対話処理での研究・事業開発を元にご要望に合わせ、プロダクト提供から個別構築まで幅広く提供

AI Worker: AIエージェント構築プラットフォーム

2つのエージェント: ワークフロー型、自律型

自律型エージェント、開発当時の状況 • 開発当時の状況と僕らの当初のアイディア ◦ エージェント開発のベストプラクティスも曖昧 ◦ まずはシングルエージェントから始め、難しければマルチエージェント ◦ 「ユーザーの1リクエスト =
1つのタスク」として捉え、このタスクを解決するために、プラン・実行・レビュー・最終回答を行うようにマルチエージェントアーキテクチャを組んでみた • 作ってみて実際どうだったか ◦ 🤔「リクエストに応じて適切にツールを呼び分けているし、足りない情報はヒアリングするよう動いてくれて、ワークフロー型よりは柔軟に動いている。まあ、良さそう。」

自律型エージェントが直面した課題リリース当時の気持ち「自律型的に動くので、簡単になる案件が出てくると思います！」 PM・FDEチームからの実際のフィードバック「どうしてこの挙動するの？」「自律型エージェントの挙動が安定しない」「業務分解できているし、今回の案件もワークフロー型で実装します」

監視・評価基盤の導入へ • 採用したアーキテクチャが何に向いていて、何に不向きかのか、開発している自分たちもきちんと定量評価できていなかった • うまくいっていないユースケースを分析するときに、自律的な（変動的な）行動をログから探るのに限界があった自律型エージェントはリリースして終わりではなく、むしろそこからが始まり検証・観察・改善のサイクルを可能にする手段が欲しい

どうしてLangfuseを選んだのか • AI Worker は TypeScript で実装→エージェント開発フレームワークは TypeScriptネイティブなMastraを利用していた • ビジネス要件などの観点から、データの保存場所は自分たちで管理したい
• 監視して終わりではなく、評価基盤としても機能できるものが良い調査して色々見比べた結果、条件を満たす Langfuse or Arize Phoenix の二択に Langfuse: ダッシュボードの機能が充実している Mastra には公式にサポートしている監視基盤がいくつかあり、Langfuse は当時その1つ Phoenix: 評価基盤が充実している

アーキテクチャが決定打になった • ベクトルの可視化までできる Phoenix にかなり惹かれていたがアーキテクチャに不安があった • LLM に関する評価はLangfuseでも十分可能と判断し、スケーラブルな方を採用
https://langfuse.com/self-hosting https://arize.com/docs/phoenix/self-hosting/architecture

小噺: Langfuse v2 vs. v3 • Langfuse もかつては Phoenix と似たようなバックエンド構成だったが、
スケールの難しさを理由にリアーキテクチャされている ◦ https://langfuse.com/blog/2024-12-langfuse-v3-infrastructure-evolution

トレースの取得 • スパン単位の設計・タグの付与などは試行錯誤中どのユースケースだったのかどのエージェントだったのか

評価・実験環境としての利用 • UIからの直接操作・SDKによって、実験（データ）の作成・管理が可能ペルソナとシナリオを設定として与え、マルチターンで対話を評価する実験：OpenEvalを利用することで実験実行を簡素化実験に必要な LLM-as-a-judgeの
ルーブリックもUI・SDKで作成・管理できる https://github.com/langchain-ai/openevals データセット名各エントリ

実験結果全体の可視化も可能 LLM-as-a-judge などの定量評価結果平均レイテンシの取得実験ごとに付与したメタデータ

実験結果の詳細 Judgeの判断理由をコメントとして残す実験の設定としての inputとその結果としての outputを一元管理

改めて考える、LLM時代のOps • LLMのパラメータはすでに完成されているものとして享受できる • その代わり、エージェントアーキテクチャやコンテキスト全体のデザインなどの対象が変化 • LLM Observability はLLM時代のOpsを支える「基盤」として必要
ChatGPTの登場 2023年第3次AIブーム 2000年代いかに良いモデルを作るかが主眼の時代十分に高性能な汎用モデルをどう活用するかが主眼に AlexNet BERT GPT-2, 3 ResNet GPT-4o Gemini2.5 Claude Opus4.6

Evalも（**の方が**）大事 “Using evals strategically can make a customer-facing product or
internal tool more reliable at scale, decrease high-severity errors, protect against downside risk, and give an organization a measurable path to higher ROI. “ – OpenAI “Good evaluations help teams ship AI agents more confidently. Without them, it’s easy to get stuck in reactive loops — catching issues only in production, where fixing one failure creates others.” – Anthropic https://openai.com/index/evals-drive-next-chapter-of-ai/ https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

関連ブログ本日お話しした内容に関連するものをブログとしても公開していますよければご覧ください • LLMエージェントオブサーバビリティ基盤についてまとめてみた ◦ https://www.ai-shift.co.jp/techblog/6009 • Langfuse セルフホストでハマったポイントをまとめてみる
◦ https://www.ai-shift.co.jp/techblog/6554 • OpenEvals × Langfuseで始めるAIエージェントのマルチターン評価 ◦ https://www.ai-shift.co.jp/techblog/6705

Langfuseで支える AIエージェントの監視・評価

Langfuseで支える AIエージェントの監視・評価

Haruki Nagasawa

More Decks by Haruki Nagasawa

Featured

Transcript