Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Langfuseで支える AIエージェントの監視・評価

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Haruki Nagasawa Haruki Nagasawa
February 17, 2026
62

Langfuseで支える AIエージェントの監視・評価

https://sansan.connpass.com/event/380668/
こちらのイベントにて登壇させていただいた時の発表資料になります

Avatar for Haruki Nagasawa

Haruki Nagasawa

February 17, 2026
Tweet

Transcript

  1. 自己紹介 長澤春希 (Nagasawa Haruki) • 東北大学 Tohoku NLP 出身 ◦

    学部早期卒業後、修士課程に進学・修了 ◦ ACL・EMNLP・ICASSP採択歴あり • 2023/10 よりサイバーエージェントに Join ◦ AI Shiftで機械学習エンジニアとして勤務 ◦ 音声認識精度の向上、チャットボットの改修、論文執筆、 自律型エージェントの開発、監視基盤のデプロイ・組み込み etc. • 好きなもの ◦ 梅干しとHipHopとLa La Land @sp_1999N
  2. 自律型エージェント、開発当時の状況 • 開発当時の状況と僕らの当初のアイディア ◦ エージェント開発のベストプラクティスも曖昧 ◦ まずはシングルエージェントから始め、難しければマルチエージェント ◦ 「ユーザーの1リクエスト =

    1つのタスク」として捉え、 このタスクを解決するために、プラン・実行・レビュー・最終回答を 行うようにマルチエージェントアーキテクチャを組んでみた • 作ってみて実際どうだったか ◦ 🤔「リクエストに応じて適切にツールを呼び分けているし、足りない情報 はヒアリングするよう動いてくれて、ワークフロー型よりは柔軟に動いて いる。まあ、良さそう。」
  3. どうしてLangfuseを選んだのか • AI Worker は TypeScript で実装→エージェント開発フレームワークは TypeScriptネイティブなMastraを利用していた • ビジネス要件などの観点から、データの保存場所は自分たちで管理したい

    • 監視して終わりではなく、評価基盤としても機能できるものが良い 調査して色々見比べた結果、条件を満たす Langfuse or Arize Phoenix の二択に Langfuse: ダッシュボードの機能が充実している Mastra には公式にサポートしている監視基盤がいくつかあり、Langfuse は当時その1つ Phoenix: 評価基盤が充実している
  4. 小噺: Langfuse v2 vs. v3 • Langfuse もかつては Phoenix と似たようなバックエンド構成だったが、

    スケールの難しさを理由にリアーキテクチャされている ◦ https://langfuse.com/blog/2024-12-langfuse-v3-infrastructure-evolution
  5. 改めて考える、LLM時代のOps • LLMのパラメータはすでに完成されているものとして享受できる • その代わり、エージェントアーキテクチャやコンテキスト全体のデザイン などの対象が変化 • LLM Observability はLLM時代のOpsを支える「基盤」として必要

    ChatGPTの登場 2023年 第3次AIブーム 2000年代 いかに良いモデルを作るか が主眼の時代 十分に高性能な汎用モデル をどう活用するか が主眼に AlexNet BERT GPT-2, 3 ResNet GPT-4o Gemini2.5 Claude Opus4.6
  6. Evalも(**の方が**)大事 “Using evals strategically can make a customer-facing product or

    internal tool more reliable at scale, decrease high-severity errors, protect against downside risk, and give an organization a measurable path to higher ROI. “ – OpenAI “Good evaluations help teams ship AI agents more confidently. Without them, it’s easy to get stuck in reactive loops — catching issues only in production, where fixing one failure creates others.” – Anthropic https://openai.com/index/evals-drive-next-chapter-of-ai/ https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents