Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SREの仕事を自動化する際にやっておきたい5つのポイント
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Kazuto Kusama
January 25, 2026
Technology
6
1.4k
SREの仕事を自動化する際にやっておきたい5つのポイント
AEON TECH HUB #23でお話しした資料です
https://aeon.connpass.com/event/379256/
Kazuto Kusama
January 25, 2026
Tweet
Share
More Decks by Kazuto Kusama
See All by Kazuto Kusama
OpenClawで回す組織運営
jacopen
3
610
AI時代のインシデント対応 〜時代を切り抜ける、組織アーキテクチャ〜
jacopen
4
310
AI時代の開発とPlatform Engineeringについて考える
jacopen
0
91
AI によってシステム障害が増える!? ~AI エージェント時代だからこそ必要な、インシデントとの向き合い方~
jacopen
4
360
インシデント対応に必要となるAIの利用パターンとPagerDutyの関係
jacopen
0
310
今日からはじめるプラットフォームエンジニアリング
jacopen
8
4.6k
Platform Engineeringで クラウドの「楽しくない」を解消しよう
jacopen
8
1.7k
トラシューアニマルになろう ~開発者だからこそできる、安定したサービス作りの秘訣~
jacopen
4
6.1k
あなたの興味は信頼性?それとも生産性? SREとしてのキャリアに悩むみなさまに伝えたい選択肢
jacopen
7
11k
Other Decks in Technology
See All in Technology
Introduction to Sansan Meishi Maker Development Engineer
sansan33
PRO
0
370
Security Diaries of an Open Source IAM
ahus1
0
200
AWSをCLIで理解したい! / I want to understand AWS using the CLI
mel_27
2
130
Kaggleの経験が実務にどう活きているか / kaggle_findy
sansan_randd
6
950
IBM Bobを使って、PostgreSQLのToDoアプリをDb2へ変換してみよう/202603_Dojo_Bob
mayumihirano
0
180
LLM活用の壁を超える:リクルートR&Dの戦略と打ち手
recruitengineers
PRO
1
270
組織のSREを推進するためのPlatform EngineeringとEKS / Platform Engineering and EKS to drive SRE in your organization
chmikata
0
190
vLLM Community Meetup Tokyo #3 オープニングトーク
jpishikawa
0
190
Claude Cowork Plugins を読む - Skills駆動型業務エージェント設計の実像と構造
knishioka
0
280
研究開発部メンバーの働き⽅ / Sansan R&D Profile
sansan33
PRO
4
22k
LINE Messengerの次世代ストレージ選定
lycorptech_jp
PRO
19
7.5k
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
6
72k
Featured
See All Featured
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.2k
Utilizing Notion as your number one productivity tool
mfonobong
4
250
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
120
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
The SEO Collaboration Effect
kristinabergwall1
0
380
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
330
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
140
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4k
Navigating Weather and Climate Data
rabernat
0
130
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
GitHub's CSS Performance
jonrohan
1032
470k
How to Think Like a Performance Engineer
csswizardry
28
2.5k
Transcript
SREの仕事を自動化する際に やっておきたい 5つのポイント PagerDuty Product Evangelist Kazuto Kusama @jacopen
Kazuto Kusama @jacopen Product Evangelist @PagerDuty Japan Organizer @Platform Engineering
Meetup Founder @Cloud Native Innovators Association 先週末は延べ20時間くらいClawdbot触ってました おかげでこの資料が完成したのは 30分前です
2025年 AIエージェント元年
2026年 システム運用でも AIエージェントが普及
AI Agent for system operations - PagerDuty SRE Agent -
Azure SRE Agent - AWS DevOps Agent 運用現場の「AIチームメイト」として機能する時代へ
PagerDuty AI エージェント - インサイトからアクションまで - エージェントがより良く、早く、スマートに業務を⽀援 PagerDuty AI エージェントに含まれるエージェント⼀覧
SRE エージェント 運⽤上の問題を特定して 分類し、関連する過去の インシデントなどの重要 なコンテキストを浮き彫 りにし、対応者に解決を 早めるための推奨事項を 提⽰することにより、業 務の中断によって引き起 こされるビジネスリスク を軽減し、顧客体験を向 上 Insight エージェント 組織内で使われているツー ル全体のデータを分析し、 戦略的な運⽤判断に必要な 情報を特定し、運⽤⼿順と ビジネスの効率を継続的に 改善 Shift エージェント オンコールシフトを動的 に調整して、スケジュー ルや空き時間の競合を未 然に防ぎ、インシデント 担当者のカバレッジを確 保することで、迅速なイ ンシデント解決を促進 し、運⽤コストの削減と 顧客影響の最⼩化を図る Scribe エージェント Web 会議での会話内容を リアルタイムに整理、分析 し、必要なアクションを特 定し、内容をサマリーして 提供することにより、イン シデント解決の迅速化と関 係者への情報共有を促進 インシデント 対応プロセスの改善 On-call 対応 スケジュールの調整 インシデント 対応中の右腕役 インシデント対応の 筆記担当者 ⽇本語対応済み ⽇本語対応予定 ⽇本語対応予定 ⽇本語対応済み
AIエージェントができること インシデント対応の高度化 - 過去の類似インシデント・変更履歴の自動提示 - 原因候補の分析・復旧策の提案 アラートの自動トリアージ - ノイズ低減・重要シグナルの抽出 -
関連アラートの自動グルーピング 復旧作業の自動化 - スケールアップ、再起動、ロールバック - 承認ベースの自動スクリプト実行
AIを入れれば全て解決?
そんな魔法はない
インシデントも AIで対処すればいい なんて考えは 甘え アーキテクチャ Conference資料より
「システム障害で 混乱がおきる ので、AIで何とかしよう 」 (インシデントの元となる ) システム障害が起きると社内に混乱が起きるから、それを防ぐ為に AIを活用し たい。 =技術的な問題だから、技術で対応しようとしている
CIO 一体 どうなってるんだ! 現状を 教えてください! 今何が起きてるの! スココン スココン アラート 動かない! ユーザー担当 別チーム ユーザー システム障害で社内に混乱が起きている様子
混乱が続くとどうなるか
「システム障害で 混乱がおきる ので、AIで何とかしよう 」 (インシデントの元となる ) システム障害が起きると社内に混乱が起きるから、それを防ぐ為に AIを活用し たい =技術的な問題だから、技術で対応しようとしている
CIO 一体 どうなってるんだ! 現状を 教えてください! 今何が起きてるの! スココン スココン アラート 動かない! ユーザー担当 別チーム ユーザー システム障害で社内に混乱が起きている様子 混乱を起こしているのは誰?
障害は技術的に、混乱は 構造的に生まれる • 技術的な障害(Failure)はシステムの 設計不備や未知の条件から発生 する。 • しかし“混乱”(Chaos)は、情報の流れ・ 意思決定の経路・責任の所在が曖昧な 組織構造から生じる。
• つまり障害そのものよりも対応中の構造が 組織全体を危機に陥れる。 CIO 一体 どうなってるんだ! 現状を 教えてください! 今何が起きてるの! スココン スココン アラート 動かない! ユーザー担当 別チーム ユーザー 障害 = 技術の問題 混乱 = 組織アーキテクチャの問題
SREの仕事を自動化する際に やっておきたい 5つのポイント
① 「見えていること」を前提とする オブザーバビリティは AI以前の必須条件 オブザーバビリティができていないと、 AIは "何も見えていない" - Traces -
Metrics - Logs 観測可能にするには計装( instrumentation)が必要で、コードが traces/metrics/logs を 出す必要がある
例: PagerDuty SRE Agent が参照するデータ - 700以上のインテグレーションからのイベント /アラート - Grafana,
New Relic, CloudWatch などからのログ・メトリクス - Confluence, GitHub からのドキュメント - 過去のインシデント履歴 オブザーバビリティがない場合 AIエージェントにとっての判断材料がない → 何もできない
② アラートを減らしてから自動化 LLMは 「ノイズを消す魔法 」ではない アラート設計が悪いと、 AIは賢く混乱する
② アラートを減らしてから自動化 ❌ 誤解 「アラートが多すぎて困っている」 ↓ 「AIを入れればノイズを消してくれる」 ⭕ 現実 AIは「パターン認識」と「相関分析」が得意
↓ そもそもの設計が悪いと、 AIは "賢く" 間違った判断をする ↓ 誤ったアラートを誤って関連付ける
例: PagerDuty AIOps Intelligent Alert Grouping - MLで関連アラートを単一のインシデント に集約 -
チームの対応パターンから 継続的に学習 AIは魔法ではなく、人間の行動から学ぶ
障害は技術的に、混乱は 構造的に生まれる • 技術的な障害(Failure)はシステムの 設計不備や未知の条件から発生 する。 • しかし“混乱”(Chaos)は、情報の流れ・ 意思決定の経路・責任の所在が曖昧な 組織構造から生じる。
• つまり障害そのものよりも対応中の構造が 組織全体を危機に陥れる。 CIO 一体 どうなってるんだ! 現状を 教えてください! 今何が起きてるの! スココン スココン アラート 動かない! ユーザー担当 別チーム ユーザー 障害 = 技術の問題 混乱 = 組織アーキテクチャの問題
③インシデント対応フローの確立 (ICS) 責任の所在 と 意思決定の経路 を明確にし 情報の流れ をコントロールする インシデントコマンダー (IC)を
中心とした命令指揮系統を構築 ICはインシデント対応の指揮者。 重大インシデントを解決に導く ことを目的とし、意思決定 を行う。 このフローがない場合 アラート検知 → ??? AIは「次に何をすべきか」を提案できず、 各人がバラバラに動く インシデントコマンダー 作業担当 CIO ユーザー担当 別チーム ユーザー
平時(peacetime)と戦時(wartime)を分離 インシデントコマンダー 作業担当 CIO ユーザー担 当 別チーム ユーザー 平時は「ビジネスを回すこと」が最重要。戦時は「インシデントの解決」が最重要。 目的が異なるので、区別して組織構造を作る必要がある
平時: 社長が一番偉い 戦時: ICが最も位が高い (インシデント解決の文脈において )
平時(peacetime)と戦時(wartime)を分離 インシデントコマンダー 作業担当 CIO ユーザー担 当 別チーム ユーザー 平時は「ビジネスを回すこと」が最重要。戦時は「インシデントの解決」が最重要。 目的が異なるので、区別して組織構造を作る必要がある
平時: 社長が一番偉い 戦時: ICが最も位が高い (インシデント解決の文脈において )
④ インシデント中にコミュニケーションできる文化 インシデント対応 = 技術対応だけではない インシデント対応とは • システム復旧 • ステークホルダーとの適切なコミュニケーション
• 組織の混乱を防ぐこと "Technical incidents can create chaos when stakeholder notifications are not effectively managed" — PagerDuty Stakeholder Communications Guide
👔 経営層(エグゼクティブ ) 必要なのは「ビジネスインパクト」 • いくらの損失が出るのか • 法的リスクはあるのか • メディア発表は必要か
情報がなければ、適切な判断を下せません 📣 広報・マーケティング SNSでの炎上は秒単位で拡散します。 沈黙は「隠蔽」と受け取られかねません。 適切なタイミングでの発信が、ブランドイメージを 守る鍵となります。 🎧 カスタマーサポート 顧客との最前線にいる人たちです。システムが止ま ると、怒った顧客からの電話やチャットが殺到しま す。 彼らにとって凄まじいストレスであり、 離職の原因にもなり得ます。 技術面だけでなく、各ステークホルダーの不安を解消しなくてはいけない 💼 セールス・営業 商談中の顧客から「御社のサービス信頼して大丈 夫ですか?」と言われたらどうでしょう。 たった一度の障害が、数ヶ月かけて築いた 信頼関係を崩壊させ、契約を白紙に戻す可能性が あります。
リエゾン リエゾン / Communication Leadの重要性 Customer Liaison Internal Liaison PagerDuty
OpsGuides Communications Lead Google SRE Incident Management Guide ステークホルダーへの定期アップデート&連絡窓口として明確に役割定 義されている 人間とのコミュニケーション は、インシデント対応の 必須要素 AIはこの役割を「支援」できるが、「代替」はできない
AIはコミュニケーションを「支援」する Scribe Agentの例 - 会議のリアルタイム文字起こし - ディスカッションポイント・アクションアイテムの自動抽出 - ステークホルダーへの報告書作成を支援 しかし、
AIにはできないこと - 顧客への謝罪の言葉選び - 経営層への影響度説明の「ニュアンス」 - 営業との商談影響の「調整」 「判断」と「合意形成」は人間にしかできない
インシデントコマンダー ICを中心とした、意思決定と指揮を 行う密な連携 レスポンダー 書記 リエゾン ステークホルダーとのコミュニケーションパス CIO Dev Support
Sales 内部では密に、外部とはブロードキャスト型で連携
⑤ その場しのぎではなく、次を楽にする視点 ✅ 直すだけで終わらない ✅ 次回どうするかを考える ✅ 手順や判断を残す Blameless Postmortem
❌ 「誰が悪かったか」を追求 → 問題が隠蔽される → 同じ失敗が繰り返される ⭕ 「何が起きて、どうすれば防げるか」を追求 → 問題がオープンに共有される → 組織の学習につながる
SRE Agentのメモリを活かす トリアージの精度向上 — 過去のパターンを認識 診断の加速 — 変更イベントと症状を関連付け ランブックの更新 —
成功した対処を次回に活かす
まとめ ① 「見えていること」を前提とする ② アラートを減らしてから自動化 ③インシデント対応フローの確立 ④ インシデント中にコミュニケーションできる文化 ⑤ その場しのぎではなく、次を楽にする視点をもつ
AIエージェントは「チームメイト」 チームメイトが活躍できる環境を整えるのは人間の仕事
AIの導入と一緒に 体制作りもやっていきましょう
AI運用勉強会やってます 2/4 AI運用勉強会 #2 開催 AI運用勉強会は、AIをシステム運用に活かすための知見を共有・ 学習する場です。 開発でのAI活用が当たり前になった今、運用でも AIの重要性が 高まっています。しかし、運用では
AIの誤動作が即座にユーザー 体験へ影響するため、開発とは異なるアプローチが必要です。 本勉強会は、そうした AI運用の知見を蓄積していくことを目的とし ています。
None