Upgrade to Pro — share decks privately, control downloads, hide ads and more …

頼れる Agentic AI を支える Datadog のオブザーバビリティ / Poweri...

頼れる Agentic AI を支える Datadog のオブザーバビリティ / Powering Reliable Agentic AI with Datadog Observability

Avatar for Kento Kimura

Kento Kimura PRO

March 18, 2026
Tweet

More Decks by Kento Kimura

Other Decks in Technology

Transcript

  1. 話すこと 01 Agentic AI で変化する「開発」 04 「頼れる」 Agentic AI を目指して

    03 Agentic AI ライフサイクルを支える オブザーバビリティ 02 DevOps から派生する Agentic AI ライフサイクル
  2. 話すこと 01 Agentic AI で変化する「開発」 04 「頼れる」 Agentic AI を目指して

    03 Agentic AI ライフサイクルを支える オブザーバビリティ 02 DevOps から派生する Agentic AI ライフサイクル XX AI エージェントの具体的な機能 話さないこと XX XX LLM-as-a-Judge などの「評価」手法 Datadog の基本的な機能 XX Datadog の具体的な設定方法
  3. Agentic AI 時代のソフトウェア開発 コーディング テスト ビルド デプロイ 実行 運用 開発エンジニア

    QA エンジニア CI/CD エンジニア 運用エンジニア AI コーディング AI コードレビュー AIOps AI エージェント 人間
  4. Agentic AI 時代のソフトウェア開発 コーディング テスト ビルド デプロイ 実行 運用 開発エンジニア

    QA エンジニア CI/CD エンジニア 運用エンジニア AI コーディング AI コードレビュー AIOps AI エージェント 人間 AI エージェント開発も ソフトウェア開発と同じ?
  5. Google と ソフトウェア開発 Antigravity AI コーディング エージェント /IDE • Gemini

    3 に合わせて 発表された自律型 IDE • Multi-Agent, Manager, Artifact などの独自設計 • 自律的に並行して 計画から実装・検証 Gemini CLI オープンソースの CLI の AI エージェント • Gemini の力を最大限 活用できる CLI ツール • Google 検索, Vertex AI, MCP と簡単に統合 • ReAct ループでの 調査・修正・検証 Gemini Code Assist AI ペアプログラミング 支援ツール /拡張機能 • IDE(VS Code / JetBrain) とシームレスに統合 • コード理解・修正・ テスト生成 を支援 • Agent Mode(Preview) で MCP を利用
  6. Google と AI エージェント開発 Antigravity AI コーディング エージェント /IDE Gemini

    CLI オープンソースの CLI の AI エージェント Gemini Code Assist AI ペアプログラミング 支援ツール /拡張機能 Google ADK オープンソースの AI エージェント SDK • ソフトウェア開発 のように、AI エージェント を開発 • Python, TypeScript, Go, Java に対応 • テスト・評価・デプロイ を含む開発基盤
  7. Google と AI エージェント開発 1. 柔軟なオーケストレーション BaseAgent を拡張した基盤となるクラスを用いて、 予測可能なパイプライン を定義

    2. マルチエージェントシステム アーキテクチャ 階層構 を形成する複数のエージェント が連携・調整 3. 豊富なツールエコシステム Google Cloud をはじめとする外部ツール 4. 組み込み評価とオブザーバビリティ 組み込みの評価とオブザーバビリティ による、 パフォーマンス と品質の可視化
  8. Google と AI エージェント開発 1. 柔軟なオーケストレーション BaseAgent を拡張した基盤となるクラスを用いて、 予測可能なパイプライン を定義

    2. マルチエージェントシステム アーキテクチャ 階層構 を形成する複数のエージェント が連携・調整 3. 豊富なツールエコシステム Google Cloud をはじめとする外部ツール 4. 組み込み評価とオブザーバビリティ 組み込みの評価とオブザーバビリティ による、 パフォーマンス と品質の可視化 Google ADKはエージェント開発を ソフトウェア開発に近い感覚で 行えるように設計されている
  9. Google Cloud の AI エージェント マネージド セルフホスト Google / Google

    Cloud が提供する AI エージェント NotebookLM, Gemini Enterprise, カスタム Gem など… Gemini を元にした、業務効率化を促進する AI エージェント Vertex AI Agent Builder で構築した AI エージェント Vertex AI のエコシステムの恩恵を受け、Python AI エージェント を実行・管理・評価できるマネージドなインフラストラクチャ Cloud Run 上で実行する AI エージェント Google Cloud のスケーラブルなインフラストラクチャを活用し、 AI エージェントを実行できるサーバレスランタイム
  10. AI エージェント を支えるアーキテクチャ ユーザー Vertex AI Agent Engine Cloud Run

    サービス ランタイム LangGraph ADK OpenAI Agents フレームワーク Gemini API Vertex AI Endpoint Cloud SQL Memorystore AI エージェント ツール AI エージェント A2A 質問・要求 ストリーミング 確認・追及 ストリーミング
  11. AI エージェント を支えるアーキテクチャ Google Cloud = AI エージェント に最適な実行環境 柔軟性

    :ゼロスケール可能なインフラストラクチャ 信頼性 :管理不要で堅牢なネットワーク とセキュリティ 開発体験:コンテナ・ソースコードから直接デプロイ AI 統合 :複数のフレームワーク対応 と API キー不要の認証 通信 :HTTP/2, Websocket でのストリーミングエンドポイント ユーザー Vertex AI Agent Engine Cloud Run サービス ランタイム LangGraph ADK OpenAI Agents フレームワーク Gemini API Vertex AI Endpoint Cloud SQL Memorystore AI エージェント ツール AI エージェント A2A 質問・要求 ストリーミング 確認・追及 ストリーミング
  12. 「使う」DevOps と AI エージェント 開発(Dev) 運用(Ops) AI コーディング AI コードレビュー

    AIOps Agentic AI 時代では、 AI エージェントが ソフトウェアの DevOps に組み込まれる
  13. 「作る」DevOps から AgentOps へ 開発(Dev) 運用(Ops) 評価(Evaluate) 改善(Improve) Agentic AI

    時代では、 評価を中心とした AgentOps が AI エージェントの DevOps となる
  14. 「使う・作る」 AgentOps と AI エージェント 開発(Dev) 運用(Ops) 評価(Evaluate) 改善(Improve) AI

    コーディング AI コードレビュー AIOps LLM-as-a-Judge LLM-as-a-Judge
  15. Harness Engineering: コードではなくハーネスを Closing the verification loop: Observability-driven harnesses for

    building with agents エージェントが書くコードそのものではなく 、 仕様・制約・テスト・テレメトリなどの「ハーネス」を設計・強化し、 エージェントを安全かつ高信頼 で動かすためのソフトウェア開発の実践 “ “
  16. オブザーバビリティ とは 入力 出力 システム 計装 転送 バックエンド 保存・ 可視化

    オブザーバビリティ とは、つまり… システムの外側から何が起こっている かを知れる “ “
  17. オブザーバビリティ とは 入力 出力 システム 計装 転送 バックエンド 保存・ 可視化

    オブザーバビリティ とは、つまり… システムの外側から何が起こっている かを知れる “ “ オブザーバビリティは AI エージェントのための ハーネスの一つ
  18. とは 入力 出力 システム 計装 転送 バックエンド 保存・ 可視化 Datadog

    = オブザーバビリティ のソフトウェアサービス システムに実装し・監視データを収集・可視化 するサービス “ “
  19. AgentOps と AI エージェント × Datadog 開発(Dev) 運用(Ops) 評価(Evaluate) 改善(Improve)

    AI コーディング AI コードレビュー AIOps LLM-as-a-Judge
  20. AI のための Datadog AIスタック全体のエンドツーエンドな オブザーバビリティとセキュリティ • LLM Observability • Data

    Observability • GPU Monitoring (preview) • AI Guard (preview) • AI Agents Console (preview) Datadog のための AI DatadogプラットフォームのAI活用機能 • MCP Server • Bits AI SRE Agent • Bits AI Dev Agent (preview) • Bits AI Security Analyst (preview) • Bits AI Assistant (preview) AI エージェント × Datadog の機能群
  21. AI のための Datadog AIスタック全体のエンドツーエンドな オブザーバビリティとセキュリティ • LLM Observability • Data

    Observability • GPU Monitoring (preview) • AI Guard (preview) • AI Agents Console (preview) Datadog のための AI DatadogプラットフォームのAI活用機能 • MCP Server • Bits AI SRE Agent • Bits AI Dev Agent (preview) • Bits AI Security Analyst (preview) • Bits AI Assistant (preview) AI エージェント × Datadog の機能群
  22. Coding エージェントの課題 ①制限されたアクセス 開発時点のソースコードだけでは、本番環境の 外部シグナル(監視データ)がなく、実際の挙動に対す るデバッグが遅くなる。 ②コンテキストの枯渇 開発者とのやりとりに加えて、エラーやログなどのコン テキストを追加すると、エージェントの コンテキストウィンドウを必要以上に圧迫する。

    ③調査の不安定性 どの外部シグナル(監視データ)を見るべきかの 判断が難しい際、誤ったコンテキストを渡すことで意 図しない修正や機能追加が行われる。 ④煩雑な設定と保守 ツールごとに API や認証が分かれていることで、 エージェントを利用する開発者の本来的な時間を損 なって設定に時間をかけてしまう。
  23. Coding エージェントの課題 ①制限されたアクセス 開発時点のソースコードだけでは、本番環境の 外部シグナル(監視データ)がなく、実際の挙動に対す るデバッグが遅くなる。 ②コンテキストの枯渇 開発者とのやりとりに加えて、エラーやログなどのコン テキストを追加すると、エージェントの コンテキストウィンドウを必要以上に圧迫する。

    ③調査の不安定性 どの外部シグナル(監視データ)を見るべきかの 判断が難しい際、誤ったコンテキストを渡すことで意 図しない修正や機能追加が行われる。 ④煩雑な設定と保守 ツールごとに API や認証が分かれていることで、 エージェントを利用する開発者の本来的な時間を損 なって設定に時間をかけてしまう。 Coding エージェントを強化する「ハーネス」
  24. Coding エージェント が「頼れる」コードを生成する ために、 MCP サーバーを介してツールとしてテレメトリ を参照する 開発者 「頼れる」 Coding

    エージェント : Datadog MCP ログ トレース メトリクス LLM トレース SRE Dev Agent Security Analyst Datadog Bits AI Antigravity Gemini CLI Code Assist Agent Mode Coding エージェント ツール MCP サーバー
  25. AI エージェント構築の課題 ①ソフトウェア開発との乖離 AI エージェントの開発フレームワーク・SDK に 依存して、AI エージェントの自律的な動作が決定され る。そのため、通常のソフトウェア以上に ソースコードから実際の動作を予測できない。

    ②システム依存関係の増加 システムの構成要素に LLM が加わる。 マネージドな API 経由で呼び出す LLM の品質・ パフォーマンス・エラー・障害などがシステムの信頼性 に影響を与える。 ③人間が起こさない特有のエラー コンテキストの忘却やコンテキストウィンドウ外の無限 ループなど、人間では起こさない特有で 致命的なエラーが発生する。 ④定性的な入出力の品質 ユーザー・エージェントがやりとりをする入出力のプロ ンプトは、その定性的な品質を定量化して評価するこ とが難しい。 AI エージェント独自の要素を可視化
  26. 「頼れる」 AI エージェント : LLM Observability AI エージェント が「頼れる」回答を出力する ために、

    LLM Observability で AI エージェントの動作を可視化 する Vertex AI Agent Engine Cloud Run サービス ランタイム LangGraph ADK OpenAI Agents フレームワーク AI エージェント ログ トレース メトリクス LLM トレース SRE Dev Agent Security Analyst Bits AI ユーザー Datadog 開発者
  27. Datadog LLM Observability MCP Tools • Datadog MCP Server で利用できる

    LLM Observability ツール search_llmobs_spans, get_llmobs_trace, get_llmobs_span_details, get_llmobs_span_content, find_llmobs_error_spans, expand_llmobs_spans, get_llmobs_agent_loop, get_llmobs_experiment_summary, list_llmobs_experiment_events, get_llmobs_experiment_event, get_llmobs_experiment_metric_values, get_llmobs_experiment_dimension_values
  28. Datadog の「頼れる」 Agentic AI エコシステム Vertex AI Agent Engine Cloud

    Run サービス ランタイム LangGraph ADK OpenAI Agents フレームワーク AI エージェント ログ トレース メトリクス LLM トレース SRE Dev Agent Bits AI ユーザー Datadog 開発者 Antigravity Gemini CLI Code Assist Agent Mode Coding エージェント ツール MCP サーバー ユーザー: AI エージェント / 開発者:Coding エージェント 人間が「頼れる」Agentic AI のライフサイクル を支えるのが、 Datadog の MCP Server × LLM Observability のアプローチ
  29. SRE(Site Reliability Engineering) とは 「サイト 信頼性 エンジニアリング 」 オンライン で本番環境の

    ユーザーが実際に使う サービス・プロダクト ユーザーの期待 通りに サービスが動き続ける 科学や数学 の知見による 実践的な技術と仕組み IT システムに携わる組織的な開発と運用 (作る人と守る人 )の分断を、 ソフトウェアエンジニアリングで調和するアプローチ
  30. SRE の信頼性階層 信頼性階層とは? システムの信頼性を担保する、 実践的なアプローチ の階層 階層の基礎的な部分 から、 より高度なアプローチへ それぞれのアプローチで、

    エンジニアリングの手法 を用いて 定量的に信頼性を測る 製品・UX 開発 キャパシティ計画 テスト・製品リリース 事後検証・根本原因分析 インシデント対応 監視・オブザーバビリティ
  31. SRE の信頼性階層 信頼性階層とは? システムの信頼性を担保する、 実践的なアプローチ の階層 階層の基礎的な部分 から、 より高度なアプローチへ それぞれのアプローチで、

    エンジニアリングの手法 を用いて 定量的に信頼性を測る 製品・UX 開発 キャパシティ計画 テスト・製品リリース 事後検証・根本原因分析 インシデント対応 監視・オブザーバビリティ
  32. 信頼性:ユーザーがシステムを 「頼れる」指標 システムが求められる機能 を、定められた条件 の下で、 定められた期間 に渡り、障害を起こすことなく実行する確率 “ “ •

    応答 度(Latency) • 可用性(Availability) • エラー率(Error rate) • データ鮮度 (Data freshness) • スループット (Throughput) Agentic AI 時代の信頼性は 従来の信頼性と同じものか? = AI エージェントによって 求めるものは変わるのでは?
  33. AI Agent Demo: Google ADK on Vertex AI + Datadog

    Vertex AI Endpoints DATADOG ORGANIZATION LLM Observability Google Gemini Client Browser Metrics, Trace, Logs Evaluations & Playgrounds Cloud Run Vertex AI Agent Engine ADK WEB AI Agent dd-trace SDK Datadog Agent Monitoring Logging + Developer User Coding Editor MCP Server Experiments
  34. Expreriments:実験的なデータから信頼性の向上 Datadog LLM トレース n = 1 Playground n ≧

    1 Dataset Experiments AI エージェント LLM 実データ 試験データ 実データ CSV モデル・ プロンプト・ パラメータ調整
  35. Evaluations:実際のデータから信頼性の測定 Datadog LLM トレース n ≧ 1 n = 1

    Playground n ≧ 1 Dataset Experiments AI エージェント LLM 実データ 試験データ 実データ CSV モデル・ プロンプト・ パラメータ調整 Evaluations 評価
  36. まとめ:Agentic AI 時代のソフトウェア開発 Agentic AI の開発・構築・運用 のライフサイクル全体を、 Datadog が「ハーネス」 として支える

    ç 「頼れる」 AI エージェントを作る 「頼れる」 Coding エージェントを使う Datadog LLM Observability で プロンプト やパラメータ を評価し実験 的に調整・改善 Datadog MCP Server で 外部シグナル から開発 / デバッグを 促進