頼れる Agentic AI を支える Datadog のオブザーバビリティ / Powering Reliable Agentic AI with Datadog Observability

頼れる Agentic AI を支える Datadog のオブザーバビリティ 19th Mar, Google Cloud
Agentic AI Summit '26 Spring Speaker: Kento Kimura

Kento Kimura Datadog Sales Engineer, Google Cloud Partner Top Engineer
2023-26(Serverless App Development)

話すこと 01 Agentic AI で変化する「開発」 04 「頼れる」 Agentic AI を目指して
03 Agentic AI ライフサイクルを支えるオブザーバビリティ 02 DevOps から派生する Agentic AI ライフサイクル

話すこと 01 Agentic AI で変化する「開発」 04 「頼れる」 Agentic AI を目指して
03 Agentic AI ライフサイクルを支えるオブザーバビリティ 02 DevOps から派生する Agentic AI ライフサイクル XX AI エージェントの具体的な機能話さないこと XX XX LLM-as-a-Judge などの「評価」手法 Datadog の基本的な機能 XX Datadog の具体的な設定方法

Agentic AI で変化する「開発」

Agentic AI 時代のソフトウェア開発コーディングテストビルドデプロイ実行運用開発エンジニア
QA エンジニア CI/CD エンジニア運用エンジニア人間

Agentic AI 時代のソフトウェア開発コーディングテストビルドデプロイ実行運用開発エンジニア
QA エンジニア CI/CD エンジニア運用エンジニア AI コーディング AI コードレビュー AIOps AI エージェント人間

Google とソフトウェア開発 Antigravity AI コーディングエージェント /IDE • Gemini
3 に合わせて発表された自律型 IDE • Multi-Agent, Manager, Artifact などの独自設計 • 自律的に並行して計画から実装・検証 Gemini CLI オープンソースの CLI の AI エージェント • Gemini の力を最大限活用できる CLI ツール • Google 検索, Vertex AI, MCP と簡単に統合 • ReAct ループでの調査・修正・検証 Gemini Code Assist AI ペアプログラミング支援ツール /拡張機能 • IDE(VS Code / JetBrain) とシームレスに統合 • コード理解・修正・テスト生成を支援 • Agent Mode(Preview) で MCP を利用

Google とソフトウェア開発ターミナルを操作 Antigravity から Gemini CLI の呼び出し単一ファイルの操作
アプリ全体の開発 Gemini Code Assist Gemini CLI Antigravity

AI エージェントは「使う」だけ？

Agentic AI 時代：「使う」から「作る」へ社内の業務改善から、顧客向けの価値提供へサービス社内業務改善サービス社内業務改善
価値提供

Google と AI エージェント開発 Antigravity AI コーディングエージェント /IDE Gemini
CLI オープンソースの CLI の AI エージェント Gemini Code Assist AI ペアプログラミング支援ツール /拡張機能 Google ADK オープンソースの AI エージェント SDK • ソフトウェア開発のように、AI エージェントを開発 • Python, TypeScript, Go, Java に対応 • テスト・評価・デプロイを含む開発基盤

Google と AI エージェント開発 1. 柔軟なオーケストレーション BaseAgent を拡張した基盤となるクラスを用いて、予測可能なパイプラインを定義
2. マルチエージェントシステムアーキテクチャ階層構を形成する複数のエージェントが連携・調整 3. 豊富なツールエコシステム Google Cloud をはじめとする外部ツール 4. 組み込み評価とオブザーバビリティ組み込みの評価とオブザーバビリティによる、パフォーマンスと品質の可視化

Google と AI エージェント開発 1. 柔軟なオーケストレーション BaseAgent を拡張した基盤となるクラスを用いて、予測可能なパイプラインを定義
2. マルチエージェントシステムアーキテクチャ階層構を形成する複数のエージェントが連携・調整 3. 豊富なツールエコシステム Google Cloud をはじめとする外部ツール 4. 組み込み評価とオブザーバビリティ組み込みの評価とオブザーバビリティによる、パフォーマンスと品質の可視化 Google ADKはエージェント開発をソフトウェア開発に近い感覚で行えるように設計されている

AI エージェントを「作る」には？

Google Cloud の AI エージェントマネージドセルフホスト Google / Google
Cloud が提供する AI エージェント NotebookLM, Gemini Enterprise, カスタム Gem など… Gemini を元にした、業務効率化を促進する AI エージェント Vertex AI Agent Builder で構築した AI エージェント Vertex AI のエコシステムの恩恵を受け、Python AI エージェントを実行・管理・評価できるマネージドなインフラストラクチャ Cloud Run 上で実行する AI エージェント Google Cloud のスケーラブルなインフラストラクチャを活用し、 AI エージェントを実行できるサーバレスランタイム

AI エージェントを支えるアーキテクチャユーザー Vertex AI Agent Engine Cloud Run
サービスランタイム LangGraph ADK OpenAI Agents フレームワーク Gemini API Vertex AI Endpoint Cloud SQL Memorystore AI エージェントツール AI エージェント A2A 質問・要求ストリーミング確認・追及ストリーミング

AI エージェントを支えるアーキテクチャ Google Cloud = AI エージェントに最適な実行環境柔軟性
：ゼロスケール可能なインフラストラクチャ信頼性：管理不要で堅牢なネットワークとセキュリティ開発体験：コンテナ・ソースコードから直接デプロイ AI 統合：複数のフレームワーク対応と API キー不要の認証通信：HTTP/2, Websocket でのストリーミングエンドポイントユーザー Vertex AI Agent Engine Cloud Run サービスランタイム LangGraph ADK OpenAI Agents フレームワーク Gemini API Vertex AI Endpoint Cloud SQL Memorystore AI エージェントツール AI エージェント A2A 質問・要求ストリーミング確認・追及ストリーミング

22 DevOps から派生する Agentic AI ライフサイクル

ソフトウェアの開発・運用を個別に捉えるのではなく、ソフトウェアに関わる人々の共通の取り組みとして組織・文化に根付かせる DevOps から振り返るソフトウェアデリバリーの度とサービスの信頼性の向上、ソフトウェアの関係者間の共有オーナーシップの構築
を目的とする、組織的で文化的な取り組み “ “

DevOps：開発と運用を一体化したライフサイクル開発(Dev) 運用(Ops)

「使う」DevOps と AI エージェント開発(Dev) 運用(Ops) AI コーディング AI コードレビュー
AIOps

「使う」DevOps と AI エージェント開発(Dev) 運用(Ops) AI コーディング AI コードレビュー
AIOps Agentic AI 時代では、 AI エージェントがソフトウェアの DevOps に組み込まれる

「作る」DevOps から AgentOps へ開発(Dev) 運用(Ops)

「作る」DevOps から AgentOps へ開発(Dev) 運用(Ops) 評価(Evaluate) 改善(Improve)

「作る」DevOps から AgentOps へ開発(Dev) 運用(Ops) 評価(Evaluate) 改善(Improve) Agentic AI
時代では、評価を中心とした AgentOps が AI エージェントの DevOps となる

「使う・作る」 AgentOps と AI エージェント開発(Dev) 運用(Ops) 評価(Evaluate) 改善(Improve) AI
コーディング AI コードレビュー AIOps LLM-as-a-Judge LLM-as-a-Judge

Harness Engineering: コードではなくハーネスを Closing the verification loop: Observability-driven harnesses for
building with agents エージェントが書くコードそのものではなく、仕様・制約・テスト・テレメトリなどの「ハーネス」を設計・強化し、エージェントを安全かつ高信頼で動かすためのソフトウェア開発の実践 “ “

33 Agentic AI ライフサイクルを支えるオブザーバビリティ

オブザーバビリティとはオブザーバビリティとは、外部シグナルからシステムの内部状態を推測できる能力システム？外部シグナル
システムの内部状態入力出力 “ “

オブザーバビリティとは入力出力システム計装転送バックエンド保存・可視化
オブザーバビリティとは、つまり… システムの外側から何が起こっているかを知れる “ “

オブザーバビリティとは入力出力システム計装転送バックエンド保存・可視化
オブザーバビリティとは、つまり… システムの外側から何が起こっているかを知れる “ “ オブザーバビリティは AI エージェントのためのハーネスの一つ

とは入力出力システム計装転送バックエンド保存・可視化 Datadog
= オブザーバビリティのソフトウェアサービスシステムに実装し・監視データを収集・可視化するサービス “ “

AgentOps と AI エージェント開発(Dev) 運用(Ops) 評価(Evaluate) 改善(Improve) AI コーディング
AI コードレビュー AIOps LLM-as-a-Judge

AgentOps と AI エージェント × Datadog 開発(Dev) 運用(Ops) 評価(Evaluate) 改善(Improve)
AI コーディング AI コードレビュー AIOps LLM-as-a-Judge

AI のための Datadog AIスタック全体のエンドツーエンドなオブザーバビリティとセキュリティ • LLM Observability • Data
Observability • GPU Monitoring (preview) • AI Guard (preview) • AI Agents Console (preview) Datadog のための AI DatadogプラットフォームのAI活用機能 • MCP Server • Bits AI SRE Agent • Bits AI Dev Agent (preview) • Bits AI Security Analyst (preview) • Bits AI Assistant (preview) AI エージェント × Datadog の機能群

Coding エージェントの課題 ①制限されたアクセス開発時点のソースコードだけでは、本番環境の外部シグナル(監視データ)がなく、実際の挙動に対するデバッグが遅くなる。 ②コンテキストの枯渇開発者とのやりとりに加えて、エラーやログなどのコンテキストを追加すると、エージェントのコンテキストウィンドウを必要以上に圧迫する。
③調査の不安定性どの外部シグナル(監視データ)を見るべきかの判断が難しい際、誤ったコンテキストを渡すことで意図しない修正や機能追加が行われる。 ④煩雑な設定と保守ツールごとに API や認証が分かれていることで、エージェントを利用する開発者の本来的な時間を損なって設定に時間をかけてしまう。

Coding エージェントの課題 ①制限されたアクセス開発時点のソースコードだけでは、本番環境の外部シグナル(監視データ)がなく、実際の挙動に対するデバッグが遅くなる。 ②コンテキストの枯渇開発者とのやりとりに加えて、エラーやログなどのコンテキストを追加すると、エージェントのコンテキストウィンドウを必要以上に圧迫する。
③調査の不安定性どの外部シグナル(監視データ)を見るべきかの判断が難しい際、誤ったコンテキストを渡すことで意図しない修正や機能追加が行われる。 ④煩雑な設定と保守ツールごとに API や認証が分かれていることで、エージェントを利用する開発者の本来的な時間を損なって設定に時間をかけてしまう。 Coding エージェントを強化する「ハーネス」

Coding エージェントが「頼れる」コードを生成するために、 MCP サーバーを介してツールとしてテレメトリを参照する開発者「頼れる」 Coding
エージェント : Datadog MCP ログトレースメトリクス LLM トレース SRE Dev Agent Security Analyst Datadog Bits AI Antigravity Gemini CLI Code Assist Agent Mode Coding エージェントツール MCP サーバー

AI エージェント構築の課題 ①ソフトウェア開発との乖離 AI エージェントの開発フレームワーク・SDK に依存して、AI エージェントの自律的な動作が決定される。そのため、通常のソフトウェア以上にソースコードから実際の動作を予測できない。
②システム依存関係の増加システムの構成要素に LLM が加わる。マネージドな API 経由で呼び出す LLM の品質・パフォーマンス・エラー・障害などがシステムの信頼性に影響を与える。 ③人間が起こさない特有のエラーコンテキストの忘却やコンテキストウィンドウ外の無限ループなど、人間では起こさない特有で致命的なエラーが発生する。 ④定性的な入出力の品質ユーザー・エージェントがやりとりをする入出力のプロンプトは、その定性的な品質を定量化して評価することが難しい。 AI エージェント独自の要素を可視化

「頼れる」 AI エージェント : LLM Observability AI エージェントが「頼れる」回答を出力するために、
LLM Observability で AI エージェントの動作を可視化する Vertex AI Agent Engine Cloud Run サービスランタイム LangGraph ADK OpenAI Agents フレームワーク AI エージェントログトレースメトリクス LLM トレース SRE Dev Agent Security Analyst Bits AI ユーザー Datadog 開発者

Datadog LLM Observability MCP Tools • Datadog MCP Server で利用できる
LLM Observability ツール search_llmobs_spans, get_llmobs_trace, get_llmobs_span_details, get_llmobs_span_content, find_llmobs_error_spans, expand_llmobs_spans, get_llmobs_agent_loop, get_llmobs_experiment_summary, list_llmobs_experiment_events, get_llmobs_experiment_event, get_llmobs_experiment_metric_values, get_llmobs_experiment_dimension_values

Datadog の「頼れる」 Agentic AI エコシステム Vertex AI Agent Engine Cloud
Run サービスランタイム LangGraph ADK OpenAI Agents フレームワーク AI エージェントログトレースメトリクス LLM トレース SRE Dev Agent Bits AI ユーザー Datadog 開発者 Antigravity Gemini CLI Code Assist Agent Mode Coding エージェントツール MCP サーバーユーザー： AI エージェント / 開発者：Coding エージェント人間が「頼れる」Agentic AI のライフサイクルを支えるのが、 Datadog の MCP Server × LLM Observability のアプローチ

49 「頼れる」 Agentic AI を目指して

SRE(Site Reliability Engineering) とは「サイト信頼性エンジニアリング」オンラインで本番環境の
ユーザーが実際に使うサービス・プロダクトユーザーの期待通りにサービスが動き続ける科学や数学の知見による実践的な技術と仕組み IT システムに携わる組織的な開発と運用 (作る人と守る人 )の分断を、ソフトウェアエンジニアリングで調和するアプローチ

SRE の信頼性階層信頼性階層とは？システムの信頼性を担保する、実践的なアプローチの階層階層の基礎的な部分から、より高度なアプローチへそれぞれのアプローチで、
エンジニアリングの手法を用いて定量的に信頼性を測る製品・UX 開発キャパシティ計画テスト・製品リリース事後検証・根本原因分析インシデント対応監視・オブザーバビリティ

信頼性：ユーザーがシステムを「頼れる」指標システムが求められる機能を、定められた条件の下で、定められた期間に渡り、障害を起こすことなく実行する確率 “ “ •
応答度(Latency) • 可用性(Availability) • エラー率(Error rate) • データ鮮度 (Data freshness) • スループット (Throughput)

信頼性：ユーザーがシステムを「頼れる」指標システムが求められる機能を、定められた条件の下で、定められた期間に渡り、障害を起こすことなく実行する確率 “ “ •
応答度(Latency) • 可用性(Availability) • エラー率(Error rate) • データ鮮度 (Data freshness) • スループット (Throughput) Agentic AI 時代の信頼性は従来の信頼性と同じものか？＝ AI エージェントによって求めるものは変わるのでは？

非決定(論)的なワークロードの信頼性を考える SRE Magazine 008号 SLI設計：プロンプト管理と LLM-as-a-Judge 通常のシステムよりも早い応答が求められない代わりに、出力の一貫性と精度を定量化する評価専用LLM(LLM-as-a-Judge)で「閾値を超えた良い出力の割合」を定量化する SLO設計：過剰な厳密さを避ける
出力も評価も LLM の非決定的な性質に左右されるため、厳密な閾値を定めるのではなく、品質の傾向を把握するための指標として SLO を比較的低い値に設定する

AI Agent Demo: Google ADK on Vertex AI + Datadog
Vertex AI Endpoints DATADOG ORGANIZATION LLM Observability Google Gemini Client Browser Metrics, Trace, Logs Evaluations & Playgrounds Cloud Run Vertex AI Agent Engine ADK WEB AI Agent dd-trace SDK Datadog Agent Monitoring Logging + Developer User Coding Editor MCP Server Experiments

Expreriments：実験的なデータから信頼性の向上 Datadog LLM トレース n = 1 Playground n ≧
1 Dataset Experiments AI エージェント LLM 実データ試験データ実データ CSV モデル・プロンプト・パラメータ調整

Evaluations：実際のデータから信頼性の測定 Datadog LLM トレース n ≧ 1 n = 1
Playground n ≧ 1 Dataset Experiments AI エージェント LLM 実データ試験データ実データ CSV モデル・プロンプト・パラメータ調整 Evaluations 評価

まとめ

まとめ：Agentic AI 時代のソフトウェア開発 Agentic AI の開発・構築・運用のライフサイクル全体を、 Datadog が「ハーネス」として支える
ç 「頼れる」 AI エージェントを作る「頼れる」 Coding エージェントを使う Datadog LLM Observability でプロンプトやパラメータを評価し実験的に調整・改善 Datadog MCP Server で外部シグナルから開発 / デバッグを促進

Thank you!

頼れる Agentic AI を支える Datadog のオブザーバビリティ / Poweri...

頼れる Agentic AI を支える Datadog のオブザーバビリティ / Powering Reliable Agentic AI with Datadog Observability

Video

Resources

Agentic AI Summit '26 Spring

非決定的なワークロードの信頼性を考える

More Decks by Kento Kimura

Other Decks in Technology

Featured

Transcript