インシデント対応に必要となるAIの利用パターンとPagerDutyの関係

インシデント対応に必要となる AIの利用パターンと PagerDutyの関係 PagerDuty Product Evangelist Kazuto Kusama @jacopen

Kazuto Kusama @jacopen Product Evangelist @PagerDuty Japan Organizer @Platform Engineering
Meetup Founder @Cloud Native Innovators Association

1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防
0. 備えインシデント対応フローここにどうAIを適用できるか

⽣成AI / AIエージェント AIOps 「AI」を区別して抑える 2017年にGartnerが提唱。 “AI for IT Operations”
の略監視データをMLで処理し運用タスクを自動化するのが原点構造化テレメトリ（メトリクス、ログ、トレース、イベント）を入力し、アラートノイズ削減、イベント相関・根本原因の解析を行う 2022年以降のLLMブームで登場。自然言語を理解・生成できるLLMを中心にした仕組みドキュメント、Slack スレッド、インシデントタイムライン、Runbook、ソースコードなど非構造テキストや画像を入力として扱える

⽣成AI / AIエージェント AIOps 「AI」を区別して抑える大量イベントをインプット → 相関・判断 → 自動アクション
というストリーム処理パイプライン大量のデータを素早く分析して結果を出す、検知やトリアージのフェーズに向いているプロンプト →推論 →外部ツール呼び出し → 追加質問という対話ループ非構造化データからインサイトを導き出したり、言語生成によりコミュニケーションに活用できる

0. 備え障害の「検知」をAIで高度化する各オブザーバビリティベンダーが積極的に機能を開発中 • 異常検知 • 因果分析 • インサイト • 早期アラート主にAIOps

0. 備え上がってきたアラートからノイズの除去を行い、対応すべきアラートのみを抽出する。抽出したアラートを過去の情報をもとに優先順位付けを行う主にAIOps

0. 備えトリアージされたアラートを元に適切なエスカレーションを行う。基本はルールベースただし、これまで人間の感覚に頼ってきた「いつ誰にエスカレーションすべきか」をAIエージェントに判断させる。 • 所属チーム • 有給休暇 • 稼働率

原因特定復旧 4. 協⼒/解決コミュニケーション AIOps + LLM 大量のアラート、メトリクス、ログからの分析 (AIOps)
上記のインサイトを受けてAIエージェントが自律的に判断。次の一手を打つその結果を受けて再度判断して・・・を繰り返し、最終的に考えられる原因を提示する

原因特定復旧 4. 協⼒/解決コミュニケーション LLM + Runbook 原因が判明したら、復旧に向けての取り組みを行う。原因が既知のものであり、対処のための
Runbookが存在するのであればAIエージェントが自動的に実行。原因がある程度分かっているが全てではない場合、 AIエージェントが主体となって切り分けを実行。未知の障害の場合は人間が主体になって作業に当たる

インシデントの類型⼗分理解しているチームはこのシナリオを経験済みで、何をすべきかを熟知している 100% AIと⾃動化 AIと⾃動化 +
対応者によるアシスト対応者主導+ AIと⾃動化部分的に理解しているチームはこのような事態を経験済みで、潜在的な修復⼿段を知っている。未知で新しい新規、または専⾨家の注意が必要なインシデント

原因特定復旧 4. 協⼒/解決コミュニケーション LLM インシデント対応の半分はコミュニケーションステークホルダー (経営陣、CS、関連チーム etc..)に
適切な粒度で適切なタイミングでコミュニケーションを取ることが重要 • ZoomやTeamsの会話を自動的に文字起こししてサマライズ • 会話やSlackログ、チケットなどの情報をまとめて対応状況の把握 • 上記の情報を元に、自動的にステークホルダーに情報を共有 LLMの強みが全力で生かせる領域

0. 備え LLM ポストモーテム・ポストインシデントレビューでも LLM は大いに活用出来るインシデントのサマリー、タイムラインの生成、根本原因のサマリー、ネクストアクションの抽出

0. 備え Runbookの整備原因特定や復旧をスムーズに行えるようにするための Runbookを整備しておく。過去のインシデントや構成情報を元に手順書や FAQを整備。さらに自動化スクリプトを生成シミュレーション/演習シナリオ作成障害ストーリーの生成やロールプレイを生成。チャットで対話的にインシデント対応の演習を行うことも。このあたりもLLMの強みを発揮できる分野

PagerDuty AI Agent 通知担当者アサイン様々な⼿段で応答復旧作業案の提⽰と実⾏事後報告と
改善策⽴案診断、復旧ジョブ⾃動実⾏情報収集状況の把握データ分析問題の可視化絶え間ないコミュニケーション、アクション、学習の実施を AI Agent が⽀援インシデント起票判断開発者＆パートナーエコシステム PagerDuty AI Agent を活⽤したシステム運⽤のライフサイクルセキュリティコンプライアンス対応 AI 運⽤基盤システム利⽤者へのコミュニケーション検知トリアージ動員診断‧復旧解決サードパーティ製 Agent ⼈と AI Agent が協調してインシデント対応アラート発⽣ AI Agent が過去データを元に初動対応 AI Agent が対応履歴を元に改善案を提⽰改善策の適⽤＆パートナー様の AI Agent と連携し、様々なツールと繋がる

AI Powered Incident Management Platform AI Agent を活⽤した次世代の運⽤基盤全体像システム
構成情報インシデント情報監視データインシデント対応⼿順主要なインシデント情報システム変更情報 Cloud Infrastructure Monitoring - On-prem DC Monitoring - Public Cloud Security JP1 Senju Systemwalker Code/Conﬁg Management ITSM/Ticket 管理 Amazon Q Business on Amazon Bedrock PagerDuty Operations Cloud PagerDuty AI Agent Bedrock Guardrails セキュリティ保護とコンプライアンスの遵守インシデントコマンダー∕運⽤担当者 Plug-in （標準提供）その他の 3rd party AI Agent 今後対応予定 Web 会議やチャットの会話データソース（DB/Document/SNS/etc.）

AIがスケジュールのバッティングや急な欠勤などに対応し、オンコール担当の調整が必要になったときは代わりの人を手配人手をかけずに、各サービスで途切れることのない当番体制を自動的に維持 Shift Agent

SRE Agent AIエージェントがインシデントを自動で見つけて種類分けし、関連する過去の障害情報などの大切な背景情報を提示して、次にどう対応すべきかをアドバイス対応スピードが上がり、運用費用が下がり、対応する人の頭の負担も軽くなる

Scribe Agent ZoomとMS Teamsの会話をリアルタイムで取り込み包括的で一貫した記録管理を確保し、ナレッジ共有を向上手動での情報収集作業が不要にインシデント後のレビューを充実させ、継続的な改善をサポート

Insights Agent 複雑なツール群から賢くデータを集約して、パターンを見つけ出し、戦略的・運用的な意思決定に役立てるインサイトを提供 PagerDuty内での運用を最適化・効率化するための推奨事項を提供

AI Agent の利⽤イメージ PagerDuty Advance の Bot が⼈と AI Agent
を繋ぐ⼀元的な窓⼝となる

インシデント対応に必要となるAIの利用パターンとPagerDutyの関係

インシデント対応に必要となるAIの利用パターンとPagerDutyの関係

Kazuto Kusama

More Decks by Kazuto Kusama

Other Decks in Technology

Featured

Transcript