Upgrade to Pro — share decks privately, control downloads, hide ads and more …

実践 Datadog MCP Server

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.

実践 Datadog MCP Server

Avatar for 株式会社ヌーラボ

株式会社ヌーラボ PRO

March 13, 2026
Tweet

More Decks by 株式会社ヌーラボ

Other Decks in Technology

Transcript

  1. iwa Yuki Yoshiiwa / Principal Engineer, Platform Engineering @ Nulab

    Inc. EXPERTISE Kubernetes / Platform Engineering / SRE / Observability / Developer Experiences SNS X @mananyuki / GitHub mananyuki INTERESTS 🐕 いぬ / 🎮 ゲーム / ☕ コーヒー / 🐠 アクアリウム FAVORITE DATADOG TRACER ENV VAR DD_TRACE_OTEL_ENABLED
  2. 3 Datadog と私 • ヌーラボに Datadog を導⼊した⼈ • JDDUG 福岡運営・創設メンバー

    ‒ JDDUG = Japan Datadog User Group • Datadog Live Tokyo 2025 ‒ 20分登壇後にパネルディスカッションしました!
  3. 4 こんな経験ありませんか? • Logs Explorer → APM → Metrics…ダッシュボードを何往復? ‒

    Datadog なら Service Page で⼀覧できるものの… • 「ちょっと確認するだけ」が画⾯の⾏き来で5分消える その往復、AI エージェントとの対話で解決できます
  4. 5 本セッションについて • 3/9 に⼀般提供 (GA) が発表されました ‒ https://www.datadoghq.com/about/latest-news/press-releases/datadog-launches -mcp-server/

    • 公式ブログでは組織レベルの⾃動化事例を紹介 ‒ https://www.datadoghq.com/blog/datadog-mcp-server-use-cases/ • 今⽇は個⼈の実践にフォーカス • 事例は Claude Code + Datadog MCP Server で検証 ‒ とはいえ、MCP 対応クライアント全般で動作します!
  5. 7 Bits AI ファミリー Datadog の AI プロダクト群: 開発・運⽤・セキュリティを AI

    で⽀援 • Bits AI SRE: アラート⾃動対応、インシデント対応の補佐 • Bits Dev Agent: エラー検出とコード修正の⾃動化 • Bits AI Security Analyst: Cloud SIEM シグナルの⾃律トリアージ • Bits Assistant: Datadog UI / Slack で⾃然⾔語によるデータ探索 • MCP Server: AI エージェントから Datadog に接続 ← 今⽇の話
  6. 8 Datadog MCP Server とは AI エージェントと Datadog をつなぐブリッジ •

    MCP 対応クライアントから接続 ‒ Claude Desktop / Cursor / VS Code / Claude Code / Codex など • 「ログを⾒せて」「メトリクスを調べて」と話しかけるだけ • Datadog に存在しないデータと統合した分析が可能 ‒ コードベース、ドキュメント、他の MCP サーバーのデータと横断
  7. 9 Datadog MCP Server とは • リモート MCP サーバー: Datadog

    がホスト、常に最新 ‒ インストール不要、設定ファイルに URL を書くだけ • ログ検索、メトリクス取得、APM 分析など 約80ツール • ⼤量データも要約・集計して返してくれる (サーバーサイド処理)
  8. 10 もう⼀つの選択肢: pup CLI • Datadog Labs が開発する AI エージェントネイティブな

    CLI • ターミナルから Datadog API を叩く • Unix パイプで jq / grep / sort と⾃在に組み合わせ • コーディングエージェントが⾃⼰発⾒可能なコマンド体系
  9. 11 使い分け: どこで使うか • Bits Assistant: Datadog UI / Slack

    → ブラウザだけで完結 • MCP Server: エージェント全般 → 設定ファイルだけで接続 ‒ ⾮エンジニアも⽐較的容易に利⽤できる • pup: コーディングエージェント + CI → CLI 実⾏、パイプライン統合
  10. 12 使い分け: MCP Server と pup の設計差 • MCP Server:

    ユーザージャーニーに基づいた構造化ツール ‒ API の薄いラッパーではなく、集約・要約をサーバーサイドで処理 ‒ 例: search_datadog_logs がパターン検出、kubernetes_onboarding がフルスタック セットアップ • pup: Datadog API の CLI ラッパー ‒ 出⼒がコンパクトでトークン効率が⾼い ‒ Unix パイプとの組み合わせでスクリプト・CI に統合しやすい
  11. 14 Case 1: Slack で聞かれた、すぐ答えたい 同僚から Slack で「最近 web-api のエラー通知が多くない?」

    • ダッシュボードを開いてフィルタして…だと5分かかる • エディタの会話でそのまま聞く
  12. 19 Case 2: SLO の Fast Burn Alert が発⽕した 🔥

    Fast Burn Alert: Error Budget の消費速度が通常の14.4倍 • burn rate = Error Budget がどれくらいの速さで減っているか • 14.4x = 約2⽇で budget を使い切るペース • まず SLO の状態を確認する
  13. 20 Case 2: SLO から根本原因へ 💬 Latency SLO の Fast

    Burn Alert が来た。状態を確認して 🤖 SLO の状態を確認しました。Error Budget が急速に減少中です。直近 でレイテンシ閾値を超えるリクエストが急増していますね 🤖 レイテンシ悪化の原因を調べます。get_datadog_metric で DB の待 ちキューを確認すると、閾値に対して2倍以上に急増しています。DB 接続 プール飽和が根本原因のようです
  14. 21 Case 2: 影響範囲の特定 🤖 search_datadog_spans でスパンも⾒てみます。5秒超のスパンが数千 件、最遅50秒超。DB 接続プール飽和と⼀致しますね 💬

    影響範囲は? 🤖 search_datadog_service_dependencies で依存関係を確認しまし た。DB, 検索エンジンなど下流の複数サービスに波及しています
  15. 22 Case 2: 学び 1件のアラートが、根因と影響の地図になる • SLO 起点で4ツール横断: SLO →

    metrics → spans → deps • Burn Rate: どれくらい急ぐかの判断材料 • 分析結果: そのままインシデント報告に転記
  16. 24 Case 3: Datadog のコストが跳ねた • ⽉次レビューで Datadog の利⽤料が前⽉より⼤幅に増加 •

    Billing ページでは合計は⾒えるが、何が増えたのかわからない • どこから調べればいい? → Cloud Cost Management (CCM) で 前⽉と⽐較 ‒ Datadog ⾃⾝のコスト分析なら無料で利⽤可能
  17. 25 Case 3: CCM で原因プロダクトを特定 💬 Datadog のコストが跳ねている。CCM で前⽉と⽐較して 🤖

    get_datadog_metric で CCM のデータを前⽉⽐較しました。 Custom Metrics の usage が⼤幅に増加しています。他のプロダクトは横 ばいですね 💬 どのメトリクスが原因? 🤖 by_metric の top-N を確認しました。1つのメトリクスだけで4万 timeseries を占めています。⾼カーディナリティなタグが原因ですね
  18. 27 Case 3: 学び コストの急増が、原因プロダクト特定と削減策に変わる • CCM で前⽉⽐較: どのプロダクトが増えたかを即座に特定 •

    by_metric の top-N: 犯⼈メトリクスを⼀発で特定 • Metrics without Limits: indexed タグを絞り込み、コストを制御
  19. 29 ツールセットを広げる • Toolset: ツールをグループ化する単位 ‒ URL に ?toolsets=core,apm,dbm のように指定して必要なものだけ有効化

    ‒ コンテキストウィンドウの消費量をコントロールできる • デフォルトの core 以外にも apm、onboarding、security など 13 toolset • Onboarding toolset はユーザージャーニーベース設計の好例 ‒ kubernetes_onboarding 1ツールで Agent / Infra / Logs / APM をフルスタックセット アップ
  20. 30 さらにカスタマイズする • Agent Skills: ワークフローをスキルとして定義する考え⽅ ‒ 繰り返す⼿順を⼀⾔で呼び出せるようにする • dd-docs

    skill: llms.txt の探し⽅・読み⽅をエージェントに教える ‒ datadog-labs/agent-skills で公開されている ‒ llms.txt (知識) + MCP Server (ライブデータ) = 環境を考慮した回答 • マルチ MCP 連携: Datadog + Backlog MCP 等で調査→ Issue 起票 を⾃動化 ‒ 公式ブログに組織レベルの活⽤パターン4選
  21. 33 References • https://docs.datadoghq.com/bits_ai/mcp_server/ • https://docs.datadoghq.com/bits_ai/mcp_server/setup/ • https://www.datadoghq.com/blog/datadog-mcp-server-use-cases/ • https://www.datadoghq.com/product/ai/bits-ai-agents/

    • https://docs.datadoghq.com/bits_ai/bits_assistant/ • https://github.com/datadog-labs/pup • https://github.com/datadog-labs/agent-skills • https://docs.datadoghq.com/llms.txt • https://modelcontextprotocol.io/