Upgrade to Pro — share decks privately, control downloads, hide ads and more …

予測から調査へ、AI エージェントで叶える AIOps の未来 / From Predicti...

予測から調査へ、AI エージェントで叶える AIOps の未来 / From Prediction to Investigation: The Future of AIOps with AI Agents

Cloud Operator Days 2025 クロージングイベント
https://cloudopsdays.com/closing/

AIOps は運用に AI のプラクティスを取り込むことで、様々なアプローチで成長を続けています。では、AI エージェントの登場によって AIOps はどのような変革を迎えるのでしょうか。
本セッションでは Datadog の製品である Bits AI, Watchdog™︎ の機能に触れながら、皆様とともに AIOps の未来を覗いてみます。従来の AIOps が担う予測・異常検知だけではなく、調査・分析・事後検証までを AI エージェントを活用する方法をご紹介します。

Avatar for Kento Kimura

Kento Kimura PRO

September 05, 2025
Tweet

More Decks by Kento Kimura

Other Decks in Technology

Transcript

  1. 話すこと 01 AIOps ができること 04 まとめと展望 03 Datadog の障害対応: AI

    エージェントと AIOps 02 プラットフォームに組み込まれる AIOps 話さないこと XX AIOps の定義 XX Datadog LLM Observability XX Datadog 以外のプラットフォーム
  2. 話すひと • 所属: Technical Solutions / Sales Engineering • 担当:

    パブリッククラウドのアーキテクト知識を活かした   Datadog のプリセールス技術支援 • コミュニティ: Google Cloud のユーザーコミュニティ「Jagu'e'r」 Datadog のユーザーコミュニティ「JDDUG」 AWS のユーザーコミュニティ「JAWS」 • カンファレンス: 初開催!Observability Conference Tokyo 2025 木村 健人 (Kento Kimura) Datadog Japan GK
  3. AIOps の変遷 2016年 AIOps のはじまり Gartner が「Algorithmic IT Operations」を提唱 その後「AIOps」に整理

    2017-19年 AIOps の広がり 監視運用に AI を導入し、 異常検知やアラート集約の 取り組みが行われる 2020-22年 AIOps の高度化 根本原因分析や自動修復等、 発展的なアプローチが出現 クラウドや監視ツールに 機能として組み込まれ始める 2023年 LLM の登場 生成 AI、特に LLM により 従来の運用監視業務を 効率化する試みが始まる
  4. AIOps の変遷と Datadog 2016年 AIOps のはじまり Gartner が「Algorithmic IT Operations」を提唱

    その後「AIOps」に整理 2017-19年 AIOps の広がり 監視運用に AI を導入し、 異常検知やアラート集約の 取り組みが行われる 2020-22年 AIOps の高度化 根本原因分析や自動修復等、 発展的なアプローチが出現 クラウドや監視ツールに 機能として組み込まれ始める 2023年 LLM の登場 生成 AI、特に LLM により 従来の運用監視業務を 効率化する試みが始まる Watchdog™ Bits AI Watchdog RCA
  5. AIOps AIOps が貢献できる領域 AIOps はいくつかのカテゴリに大別できる • 障害管理は信頼性に大きな影響を与えうる 運用オペレーションを効率化 • リソース割当はシステムの最適化を促す

    運用オペレーションを高度化 SRE やオブザーバビリティのプラクティスに 取り入れられやすいのは障害管理のカテゴリ 障害管理 障害予測 根本原因 分析 障害予防 修復 障害検知 リソース割当 スケジュー リング 供給管理 リソース 管理 負荷推定 サービス 解析 参考:Notaro '20『Taxonomy of AIOps as observed in the identified contributions』
  6. 2025年 AI エージェントの登場 特定の目的を自律的に遂行する AI エージェントの登場により、 一部のタスクを効率化する機能が 試験的に登場する “ “

    “ “ AI エージェントの定義 AIOps AI エージェント 環境と対話し、データを収集し、そのデータを使用して 自己決定タスクを実行して、事前に決められた 目標を達成するためのソフトウェアプログラム AIを活用してユーザーに代わって 目標達成やタスク完了を行うソフトウェアシステム 引用:AWS『AI エージェントとは?』 Google Cloud『AI エージェントとは』
  7. 2025年 AI エージェントの登場 特定の目的を自律的に遂行する AI エージェントの登場により、 一部のタスクを効率化する機能が 試験的に登場する 環境と対話し、データを収集し、そのデータを使用して 自己決定タスクを実行して、事前に決められた

    目標を達成するためのソフトウェアプログラム AIを活用してユーザーに代わって 目標達成やタスク完了を行うソフトウェアシステム “ “ “ “ AI エージェントの定義 AIOps AI SRE エージェント 引用:AWS『AI エージェントとは?』 Google Cloud『AI エージェントとは』
  8. AIOps AIOps × AI エージェントが貢献できる領域 システム運用で AI エージェントができること • システム運用で必要なオペレーションから、

    より複雑なものを AI エージェントが効率化 • 既存のデータから洞察を得る AIOps から、 AI エージェントは延長線上にない情報を活用 監視データの分析による障害管理から、 人間による運用オペレーションの代替へ 障害管理 障害予測 根本原因 分析 障害予防 修復 障害検知 リソース割当 スケジュー リング 供給管理 リソース 管理 負荷推定 サービス 解析 AI SRE エージェント 根本原因 分析 事後検証 トリアージ 修復 検知抑制 自動応対 参考・加筆:Notaro '20『Taxonomy of AIOps as observed in the identified contributions』
  9. 実際の障害情報を元にした調査 過去の時系列データからの予測 インシデント管理プロセス 準備 トリアージ インシデント 宣言 オンコール 根本原因 分析

    復旧 事後検証 AI エージェント AIOps 根本原因 分析 事後検証 トリアージ 修復 検知抑制 アラート 検知 障害予測 根本原因 分析 障害予防 修復 障害検知 自動応対 起票対応 事例学習
  10. 監視プラットフォーム AIOps と監視プラットフォーム:黎明期 AIOps 黎明期は監視プラットフォームと別で AIOps プラットフォームが存在 • 分析できる監視データが定まっていない •

    効率化できるオペレーションが決まっていない • 機械学習アルゴリズムが AIOps に最適化されていない トレース ログ メトリクス AIOps プラットフォーム 転送 様々なモデル
  11. AIOps と監視プラットフォーム:普及期 AIOps 普及期は監視プラットフォームが最適化した AIOps 機能を組み込み • 時系列データを中心に監視データを分析する • 障害管理やリソース割当などのオペレーションに注力する

    • 軽量で精度の高い時系列分析アルゴリズムが確立する 監視プラットフォーム 最適化した AIOps 機能 トレース ログ メトリクス 時系列データ 時系列モデル • 異常検知 • 予兆検知 • 外れ値分析 • 相関分析
  12. Example: AWS の AIOps の変遷 AWS の AIOps 関連サービス(Lookout for

    Metrics)の提供終了を例に、 プラットフォームに組み込まれる AIOps サービスの利用を促す発表
  13. AIOps と監視プラットフォーム:現在+α 現在は監視プラットフォームが AIOps はもちろん AI エージェントを組み込み • データの種別に制限なくオペレーションを効率化できる •

    従来人間が行なうオペレーションを半自動・自律的に実行できる • 汎用な LLM を裏側で利用する AI エージェントが生まれ始める 監視プラットフォーム 最適化した AIOps 機能 トレース ログ メトリクス 時系列モデル • 異常検知 • 予兆検知 • 外れ値分析 • 相関分析 時系列データ AI エージェント アラート エラー プロファイラ セキュリティ 時系列データ コード 自然言語 大規模言語モデル 新しい価値
  14. 実際の障害情報を元にした調査 過去の時系列データからの予測 インシデント管理プロセス 準備 トリアージ インシデント 宣言 オンコール 根本原因 分析

    復旧 事後検証 AI エージェント AIOps 根本原因 分析 事後検証 トリアージ 修復 検知抑制 アラート 検知 障害予測 根本原因 分析 障害予防 修復 障害検知 自動応対 起票対応 事例学習
  15. 実障害の監視データを元にした調査 過去の時系列データからの予測 AI Voice Interface (Preview) Datadog のインシデント管理プロセス Monitor Incident

    Mgmt On-Call Notebooks Watchdog Insight Watchdog RCA Workflow Automation AI エージェント AIOps Watchdog Faulty Deployment 準備 トリアージ インシデント 宣言 オンコール 根本原因 分析 復旧 事後検証 アラート 検知 SLOs &
  16. Watchdog™ の設計思想 1.透明性 - Transparency • 検出した異常に対して根拠となるデータへのアクセスを提供 • ブラックボックスではなく、納得して判断できる可視性を重視 2.

    任意性 - Optional • 人間中心のトラブルシューティングを補助する立場 • 利用は強制されず、必要に応じて無視・非表示にすることも可能 • 「支配する」のではなく、「支援する」ことが前提 3. ガイダンス - Guidance • 異常の根本原因が特定できない場合も、次のアクションを提案 • 迷わず初動対応を行うための、実行可能なヒントやリンクを提示 4. コードとの接続 - Link to the code • デプロイの問題は、GitHub Repo へのリンクを提供 • 調査から修正までの流れを大幅に短縮
  17. 実障害の監視データを元にした調査 過去の時系列データからの予測 AI Voice Interface (Preview) Datadog のインシデント管理プロセス Monitor Incident

    Mgmt On-Call Notebooks Watchdog Insight Watchdog RCA Workflow Automation AI エージェント AIOps Watchdog Faulty Deployment 準備 トリアージ インシデント 宣言 オンコール 根本原因 分析 復旧 事後検証 アラート 検知 SLOs &
  18. Bits AI Agents のループ AI Voice Interface (Preview) アラートの 抑制

    トリアージ オンコール 根本原因分析 事後検証 事例学習 修復
  19. まとめ • AI エージェントの登場により、AIOps は貢献領域が拡大しそう • Datadog は AIOps 黎明期から

    Watchdog™ を提供するなど、 最新技術を取り入れるオブザーバビリティプラットフォーム • Bits AI SRE/Dev Agent は従来人間が行なっていた 調査主体の運用オペレーションを代替する AI エージェント