Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI によってシステム障害が増える!? ~AI エージェント時代だからこそ必要な、インシ...

Avatar for Kazuto Kusama Kazuto Kusama
June 30, 2025
68

AI によってシステム障害が増える!? ~AI エージェント時代だからこそ必要な、インシデントとの向き合い方~

Avatar for Kazuto Kusama

Kazuto Kusama

June 30, 2025
Tweet

More Decks by Kazuto Kusama

Transcript

  1. AIエージェントの活用方法 コーディング Cursor Cline Devin など 複雑なリサーチ Deep Research 業務プロセス

    自動化 カスタマー サポート自動化 Proprietary & Confidential ぱっと思い浮かぶのはこんな感じですが、 他にも無限に活用方法がありますね
  2. AIエージェントに対する期待値 出典『PagerDuty 2025 State of Digital Operations report』 (N=1,103) 質問「今後1〜2年以内にAIエージェントが運⽤⾯でどれくらい重要になると思いますか?」

    38% 50% 10% 1% 重要ではない 判断は時期尚早 部分導⼊ 本格導⼊ 今後1〜2年以内に AIエージェントを 導⼊予定と回答した 企業の割合 88%
  3. 結果として起こること Proprietary & Confidential チームの分割 これまで手が回らず作れ なかったものが作れるよう になる 開発の高速化 必要な時に必要なものが

    素早く生み出されるように なる 作り手の層の拡大 ドメイン知識を持った非エ ンジニアによって、より業 務に即したものが作られ るようになる 総じて良い効果があるように思います。 いずれも、アプリケーションの数やデプロイ頻度が急 増する理由になるでしょう
  4. ではどうするか Proprietary & Confidential アプリケーションの 数を制限 高速開発を諦めて 従来の方法に戻す 非エンジニアによる 開発を辞めさせる

    じゃあ、AIやめますか 高速開発諦めて、アプリケーションの数は減らしてシン プルに、そして専門家のみによる開発に
  5. 1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防

    ライフサイクル全体を通して、インシデントの状況をリアルタイムで可視化 インシデントを特定 ⾃動処理 運⽤改善のための 知⾒を提供 最適な担当者に通知 迅速な解決を⽀援 あらゆるツールから イベントを受信 架電、 SMS、メール Appプッシュ通知、チャット ⾃動エスカレーション スケジュール管理 診断‧修復作業の⾃動化 チーム内外と円滑に連携 クラウド コンテナ マイクロサービス ネットワーク アプリ‧サービス セキュリティ データベース サーバー ソーシャル PagerDuty Operations Cloud インシデントをより早く‧少ないリソースで解決 / 将来のインシデントを未然に防ぐ 担当者が最適な 通知⽅法を選択 対応履歴 MTTA/MTTR 分析 担当者の負荷状況 ポストモーテム 解決のヒントを提⽰ • 過去の類似インシデント • 直近の構成/コード変更 ...etc. 80%-99% ノイズ削減 700+ Integrations
  6. まずは基本をしっかりと Proprietary & Confidential インシデント対応 プロセス構築 初動対応から復旧、事後 分析までの標準化された フロー オブザーバビリティ

    メトリクス、ログ、トレース が整備され、異常の検知 と原因追跡が可能な状態 情報共有と 連絡手段 コミュニケーションチャネ ル整備、ステークホル ダーとの定期報告や広報 プロトコル AIエージェント時代に必要なこと。派手な新技術でどう にかしたくなりますが、まずは基本に忠実になることが 大事です。基本が無ければ、新技術も活用できませ ん。
  7. PagerDuty によるエンドツーエンドのインシデント管理 MOBILIZE RESOLVE DOCUMENT MITIGATE LEARN DETECT アラート発⽣ &

    チームの招集 学習 インシデント 復旧作業 インシデント 事後レビュー インシデント 対応 重要な コミュニケーションの 維持 改善 インシデント分析
  8. 「開発者に運用もやらせる」ではなく 「ライフサイクルに責任を持たせる」 Build Test Ship Run スケールアウトがしやすい実装 (コンテナオーケストレーターの自 律復旧に委ねる) ビルドやパッケージングの自

    動化 素早いビルドの工夫 実行パラメータの外部注 入(環境依存の排除) トラブルシュートしやす いログの工夫 インフラのコード化 フィードバックループで改善を続け、呼び出しの頻度を減らす
  9. さまざまな業界のユースケース LLM Ops Data Ops ⾦融サービス テクノロジー および電気通信 旅⾏および ホスピタリティ

    公的機関 Fin Ops ⼩売 メディアおよび エンターテインメ ント Operations Cloud セキュリティ インシデント 管理 DORA コンプライアンス クライシス オペレーション ソリューション サービスオーナーシップの拡張 デジタル運⽤レジリエンス 顧客体験運⽤ 遠隔オペレーションの⾃動化 インシデント管理のトランスフォーム 運⽤センターの現代化 ⾃動化の標準化 広範な API と インテグレーション 独⾃の基礎データモデル ノーコードからプロコード までを⾃動化 メンテナンス時間帯ゼロ 埋め込みAI∕ML、⽣成AI
  10. インシデントの類型 ⼗分理解 している チームはこのシナリオを 経験済みで、何をすべきか を熟知している 100% AIと⾃動化 AIと⾃動化 +

    対応者によるアシスト 対応者主導+ AIと⾃動化 部分的に 理解している チームはこのような事態を経 験済みで、潜在的な修復⼿段 を知っている。 未知で新しい 新規、または専⾨家の 注意が必要なインシデント