Upgrade to Pro — share decks privately, control downloads, hide ads and more …

インシデント対応入門

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for gr1m0h gr1m0h
February 21, 2026

 インシデント対応入門

Avatar for gr1m0h

gr1m0h

February 21, 2026
Tweet

More Decks by gr1m0h

Other Decks in Technology

Transcript

  1. whoami Wataru Tsuda / gr1m0h SWE, SRE at Topotal, inc.

    インシデントマネジメントSaaS: Waroom SRE as a Service(SREの技術支援) 竹原市で生まれ育ち、広島市在住 広島商船高専 -> 東京(港区 -> 中野区) -> 2023年にUター ン インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 2
  2. インシデント対応のライフサイクル フェーズ やること 準備 体制・手順・ツールの整備 検知・初動 問題発見、緊急度判定 対応・復旧 調査・復旧作業 振り返り

    原因分析、再発防止策立案 恒久対応 再発防止策の実行 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 5
  3. 準備フェーズでやること 項目 内容 体制整備 当番制、役割定義、連絡網 基準の策定 緊急度の定義、連絡ルール 手順書作成 よくある問題への対応手順 監視整備

    アラート設定、ノイズ削減 ポイント: 準備がないと「どうする?」から始まる Discussion: 手順書はありますか?更新されていますか? インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 7
  4. 検知と初動対応 理想的な検知: 監視システムからの自動通知 避けたい検知: ユーザーからのクレームで気づく 初動でやること 1. 状況確認と影響範囲の把握 2. 緊急度の判断(どれくらい深刻か)

    3. 関係者への連絡 ポイント: 「様子見」している間にも被害は広がる Discussion: 緊急度の判断基準はありますか? インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 9
  5. 対応時の役割分担 役割 責任 対応リーダー 全体の指揮、意思決定 連絡担当 社内外への情報発信 調査・復旧担当 原因調査、復旧作業 最低限:

    「指揮する人」と「作業する人」は分ける 復旧の優先順位: まずサービスを戻す(原因調査は後回しでOK) Discussion: 役割分担は決まっていますか? インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 11
  6. 恒久対応でやること やること 内容 再発防止策の実行 振り返りで決めたことの実施 手順書の更新 今回の学びを反映 監視の改善 検知を早める ポイント:

    期限と担当者を決めて追跡する Discussion: 再発防止策は実行されていますか? インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 15
  7. SEV(Severity)とは インシデントの重大度を数値で表現する レベル 影響 対応 SEV1 サービス全体停止 全員招集、即時対応 SEV2 主要機能の停止

    担当チーム即時対応 SEV3 一部機能の低下 営業時間内に対応 SEV4 軽微な問題 通常の優先度で対応 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 20
  8. SLI/SLO/SLAとは サービス品質を数値で管理する 用語 意味 例 SLI サービスレベル指標 可用性、レイテンシ SLO サービスレベル目標

    可用性 99.9% SLA サービスレベル契約 顧客との約束 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 22
  9. MTTD / MTTRとは インシデント対応の速度を測る指標 指標 意味 MTTD 検知までの平均時間 MTTR 復旧までの平均時間

    MTTRの問題点 インシデントごとのばらつきが大きく、平均値の信頼性が低い 各インシデントの復旧時間を10%短縮しても、約50%のケースでMTTRに反映され ない 粒度が粗く、どこを改善すべきか分からない インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 24
  10. TTX メトリクスで改善する MTTRを細分化した実践的な指標 メトリクス 意味 改善策の例 TTDetect 検知までの時間 監視の強化 TTEngage

    チーム編成の時間 シフト・連絡網の明確化 TTInvestigate 調査の時間 ダッシュボードの整備 TTFix 復旧の時間 ロールバックの高速化 ポイント: フェーズごとに計測することで、改善すべき箇所が明確になる 参考: インシデント主要メトリクスを用いたインシデント対応の改善 / SRE Kaigi 2025 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 25
  11. Runbook / オンコールとは Runbook = 対応手順書 よくあるアラートの対応手順 調査に使うコマンド・クエリ 復旧手順 オンコール

    = 24時間対応の当番制 ローテーションで担当を決める 勤務時間外でもアラートに対応 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 26