Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
インシデント対応
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
akira345
February 21, 2026
Education
480
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
インシデント対応
SRE Lounge Hiroshima #1 〜インシデント対応を語ろう〜
にて飛び入り発表したスライドです。
akira345
February 21, 2026
More Decks by akira345
See All by akira345
ビジネス要件から逆算するマイクロサービスアーキテクチャ選定の「思考プロセス」
akira345
0
74
えれくら!〜電気電子工作系制作・交流会〜#29
akira345
0
48
脱・同期処理!マイクロサービスにおける負荷分散の勘所
akira345
0
140
AWSデプロイツール紹介
akira345
0
86
40歳でやったこと
akira345
0
61
回路を読むために必要なこと
akira345
0
52
おれのAWSがこんなに辛い訳がない!!
akira345
0
56
Dockerを触ってみよう
akira345
0
120
アラフォー世代が基板を作ってみた(公開用)
akira345
0
170
Other Decks in Education
See All in Education
Curso de Consagração ao Sagrado Coração de Jesus - O Sagrado Coração na História (Aula 01)
cm_manaus
0
210
プログラミング言語において文字列を複数行にわたって だらだらと記載するアレ
sapi_kawahara
0
160
Πλουτοκρατία: Η Τυραννία του Μαμμωνά και η Μεταανθρώπινη Δουλεία
amethyst1
0
260
Visionary Initiative: Materials-Positive Society 「モノの進化をポジティブな社会の原動力に」|Science Tokyo(東京科学大学)
sciencetokyo
PRO
0
360
コミュニティを通じた_キャリア設計のススメ_20260424.pdf
masakiokuda
0
320
SARA Annual Report 2025-26
sara2023
1
360
Why the humanities may be your best career bet
figarospeech
0
200
Visualisation Techniques - Lecture 8 - Information Visualisation (4019538FNR)
signer
PRO
1
3.1k
Alumnote inc. Company Deck
yukinumata
1
19k
[2026前期火5] 論理学(京都大学文学部 前期 第8回)「正規化定理の証明」
yatabe
0
140
応募課題(’25広島)
forget1900
0
1.6k
AI-Based Speaking Assessment of a Short-Term Study Abroad Program
uranoken
0
230
Featured
See All Featured
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
140
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
360
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
850
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.5k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Done Done
chrislema
186
16k
Building an army of robots
kneath
306
46k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
62k
Building a Modern Day E-commerce SEO Strategy
aleyda
45
9.1k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8.2k
What does AI have to do with Human Rights?
axbom
PRO
1
2.2k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
300
Transcript
インシデント対応 SRE Lounge Hiroshima #1 〜インシデント対応を語ろう〜 Akira345
インシデント対応の原則 • 事実の記録と共有 • 時刻・状況・操作ログを必ず残す • 「推測」より「事実」を優先 • 精緻な調査より 初動のスピード
• お客様との信頼関係 • 黙っていて悪化するより勘違いでしたの方がまだ マシ •障害は必ず起きる!!!
全体フロー(概要) • 準備(連絡経路・保守範囲の確認) • 検知・分析(事実収集・影響推定) • 一次報告(事実ベースで迅速に) • 対応・復旧(優先度判断・調査・対処) •
事後対応(原因分析・再発防止)
検知・分析(初動) • 障害発生の把握と記録 • 影響範囲の推定 • 本番/ステージング/開発 • この段階では具体的なサブシステムまで調べない •
影響対象の推定 • 社内/顧客企業/顧客の顧客(エンドユーザ) • 影響時間の推定 • すでに影響中か • これから影響が出るか(遅延・波及)
一次報告(最速で) • 目的:関係者の認識を揃える • わかっている「事実」 • わかっていない点 • 影響の可能性 •
次の報告予定時刻 ※ 調査に時間をかけすぎない
対応・復旧 • 関係者を集め、優先度を決定 • 復旧優先か、証拠保全優先か • ロールバック/再起動などの緊急手段の可否 • 顧客調整・リスケ判断 •
後日対応に回すタスクの切り分け • 意思決定者、対応者、顧客調整する人を分ける
事後対応 • 原因分析(技術・運用・コミュニケーション) • 再発防止策の策定 • コード修正 • データ整合性の回復 •
手順書・運用改善 • イレギュラーな手段で対応した場合、忘れず開発・ス テージングへの反映
ケース別の判断ポイント • 本番障害 • 原則:復旧優先 • ただし攻撃が疑われる時は証拠保全とのバランス • 再起動するとログが消えるとか •
インフラ障害 • 再起動・フェイルオーバーなど復旧優先 • 外部からの攻撃 • ログ保全・スナップショット取得 • アクセス遮断の判断 • 正常なアクセスも遮断する可能性→外部連携停止など • 影響度判定 • 影響ユーザ数・売上影響・法的リスク(個人情報など)
ケース別の判断ポイント • ステージング/検証環境: • 原則: サービス影響は限定的なので、原因究明・再現性確保を優先 • ただし本番リリース直前なら、本番への影響(リリース可否)を最 優先で評価 •
開発環境: • 原則: インシデントとしての対応なし • ただし「本番データをコピーしているか」「個人情報が含まれていないか」は確 認(ごく稀に開発環境に本番データを入れて漏洩インシデントがある) • ポイント: • ログや証跡を残す習慣をここで作っておくと、本番障害時の対応訓練 になる
影響範囲の判定 • 社内のみ影響: • 例: 社内管理画面の障害、社内バッチの遅延 • 判断: 顧客影響はないが、他タスクへの波及(作業遅延、締切)を評価し、上長・関 係部署への共有を早めに実施
• 顧客企業に影響: • 例: 顧客担当者が使う業務システムの障害 • 判断: • 顧客側の業務停止度合い(代替手段の有無) • 顧客側の「対外説明」が必要になりそうか(顧客の顧客がいるか) • 顧客の顧客(エンドユーザ)に影響: • 例: ECサイト、会員サイト、一般ユーザ向けアプリの障害 • 判断: • 障害の公表・お知らせが必要か • 法令・ガイドライン(個人情報、決済など)に抵触しないか
影響範囲の判定 • すでに影響が出ているケース: • 例: 「今まさにサービスが落ちている」「処理が止まっている」 • 行動: • 影響範囲のラフな推定
→ 緊急度判定 → 一次報告を最速で出す • 「何がわかっていて、何がまだ不明か」を明示する • これから影響が出そうなケース(遅延・リスケ系): • 例: バッチ遅延で翌朝の帳票が間に合わない可能性 • 行動: • 影響発生までの残り時間と、対処に必要な時間を見積もる • 代替案(手作業、部分的な出力、優先度付け)をセットで提案
復旧手段の選定 • アプリケーション障害(バグ・設定ミスなど) • ロールバック、設定戻し、一時的な機能停止などでの復旧が現実的 • 一時対応でコードやデータをいじった場合は、必ず開発・ステージングに反映し、 差分をドキュメント化 • インフラ障害(サーバ、ネットワーク、ストレージなど)
• 再起動・フェイルオーバー・スケールアウトなど、復旧優先の判断が多い • 復旧後に、監視・キャパシティ・構成管理の見直しを再発防止として整理 • 外部からの攻撃・不正アクセスの疑い • 証拠保全の重要度が高いケース • ログ保全、スナップショット取得、アクセス遮断などを「復旧」とどう両立させる かを事前に方針化しておくとよいが現実は・・・ • 運用ミス・手順逸脱 • 手順書・チェックリスト・権限設計の見直し • 「個人のミス」ではなく「仕組みとして防げるか」を考える!
連絡不能時の対応 • 上司・顧客担当と連絡がつかない場合 • 自身の権限でできる範囲を明確化しておく • ロールバックまではOK。先方未承認で本番DB直更新は NGなど • 次のエスカレーション先へ連絡
• 緊急時は復旧可能性の高い手段を実施 • IP遮断、ロールバック、サーバ再起動など • 実施することで想定されるリスクを天秤にかける • 実施した操作および結果は「必ず記録」と「事後報告」
まとめ • 事実と記録: • 障害検知時刻、誰が何を見て何をしたか、時系列で記録 • ログ・画面・証跡の保全(後から「言った/言わない」を避ける) • 影響評価(範囲・対象・時間): •
どの環境か: 本番/ステージング/開発 • 誰に影響か: 自社/顧客企業/顧客の顧客(エンドユーザ) • いつ影響するか: すでに影響中か/これから影響しそうか/作業遅延・他タスクへの 波及 • コミュニケーションとエスカレーション: • 事実ベースで「暫定報告」を早く出す(精緻さよりスピード) • 連絡経路が詰まったら、自身の権限内で「上位・別経路」にエスカレーション • 復旧 vs 証拠保全・原因究明の優先度判断: • サービス継続が最優先か、攻撃・不正アクセスなどで証拠保全を優先すべきか • 復旧のための一時対応(ロールバック、再起動、データ変更など)を後で必ず開 発・ステージングに反映 • 障害のないシステムは存在しない