Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
障害対応のキホン
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Moriyama Hiroaki
December 06, 2022
Technology
260
8
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
障害対応のキホン
社内勉強会の資料です。
Moriyama Hiroaki
December 06, 2022
More Decks by Moriyama Hiroaki
See All by Moriyama Hiroaki
ITリテラシー教育
moriyamahiroaki
1
150
他職種や経営層とエンジニアを「うまくつなぐ」ためにエンジニアができること
moriyamahiroaki
2
160
DBのキホン
moriyamahiroaki
1
59
急拡大するエンジニア組織で複数PJを進めるカオスな状況を乗り切るチームビルディング
moriyamahiroaki
3
180
Other Decks in Technology
See All in Technology
AIに障害切り分けを全部やってもらった。 。 。 。
estie
0
260
BPaaSで進むAIオペレーションの現在地 AI実装が効く領域とスケーラビリティの選定と実装
kentarofujii
0
210
作る力から、見極める力へ — AI時代に広がるエンジニアの価値と役割
rince
0
360
Fabricをフル活用する AI Agent Hub -製造業特化AIエージェントの設計
iotcomjpadmin
0
160
AIAU_UMEMOGU_ninomiya_slide
ninomiya_ii
0
280
水を運ぶ人としてのリーダーシップ
izumii19
4
1.1k
Why is RC4 still being used?
tamaiyutaro
0
120
Microsoft のサポートとフィードバック総まとめ
murachiakira
PRO
0
120
Hatena Engineer Seminar 37 jj1uzh
jj1uzh
0
150
自作お家AIエージェントスタックチャンFWで困っている所紹介
74th
0
130
AI時代における最適なQA組織の作り方
ymty
3
160
#エンジニアBooks 30分でわかる 「技術記事を書く技術」 / engineer-books 2026-06-30
jnchito
1
130
Featured
See All Featured
GitHub's CSS Performance
jonrohan
1033
470k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
870
We Are The Robots
honzajavorek
0
260
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.3k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.8k
[SF Ruby Conf 2025] Rails X
palkan
2
1.1k
What's in a price? How to price your products and services
michaelherold
247
13k
Code Reviewing Like a Champion
maltzj
528
40k
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
210
Color Theory Basics | Prateek | Gurzu
gurzu
0
370
Context Engineering - Making Every Token Count
addyosmani
9
990
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
870
Transcript
障害対応のキホン 2022/12/06 Moriyama Hiroaki
アジェンダ • 障害対応 is 何? • 障害対応の原則 is 何? •
障害対応フロー • 障害対応の心得 • 障害対応後も大切だよ
障害対応 is 何?
障害対応 is 何? 本番環境におけるバグ・デグレなど 予期せぬ状態(障害)に対する 緊急性の高い対応業務のことを指す
障害対応 is 何? 本番環境におけるバグ・デグレなど 予期せぬ状態(障害)に対する 緊急性の高い対応業務のことを指す
緊急性の高い対応業務 文字通り緊急度がMaxな業務 ↓ すべての業務に優先される業務
障害対応の原則 is 何?
障害対応の原則 is 何? • 認知 • 判断 • 行動
障害対応の原則 is 何? • 認知:状況を正しく知る • 判断:対応方法を正しく決定する • 行動:決めた対応方法を速やかに実行する
認知 【Must】 • 何が起こっているのか? • 誰にどのくらい影響が出ているのか? 【Want】 • どこに原因があるのか?
判断 【Must】 • 今すべきことは何か?を判断する • 誰がどんな対応をするか?を決める 【Want】 • いつまでに何をするか?を決める
行動 【Must】 • 作業状況を時系列に沿ってログを取る • 予定との乖離は最速で共有する 【Want】 • 最速で動けるように臨機応変さを持つ
この原則さえ理解すれば 大きなミスは犯さない
障害対応フロー
バグでもデグレでもない 障害対応フロー おかしいな?と思う ことに気付く まず声を上げて 周囲に知らせる 集まったメンバーで状 況の把握 障害の可能性 があるのか?
何もなくてよかった ね!で業務復帰 障害の可能性が0% 担当割り振り 障害の可能性が0.1%以上 障害の可能性ありと 事業部周知 事象の詳細調査と 原因調査(バグ観点) 事象の詳細調査と 原因調査(デグレ観点) 暫定対応方法検討 恒久対応方法検討 バグやデグレか? 障害と断定 随時経過報告 調査の結果 問題ないと報告 発生原因の根本を 潰す対応 バグやデグレ 早急に事象を 解消するための対応 状況によってチーム編成を検討 状況によって、対応内容の判断を行う ここまでは、10分以内くらいを目指したい... バグやデグレ
障害対応の心得
障害対応の心得〜全般〜 • 役割などの担当とレポートラインを明確化する • 他部署への状況共有も怠らない • 障害復旧に関するチーム(≒暫定対応チーム)に その領域のエキスパート(≒実装経験者)を集める • スピード優先でリアルタイムの会話を重視
◦ Slackで連絡<<<Web会議や対面での会話 ◦ ただし、会話内容はSlackなど見える場所にログを残す • 社外との打ち合わせ以外はすべてリスケして対応最優先
• 作業に入らず全体を俯瞰する人を必ず1人確保する。 ◦ マネージャーやリーダーが担当することが多い ◦ この人は、各チームを動き回り情報をキャッチ ◦ 必要に応じて、別チームに共有に動く • 時間軸も気にする
◦ 対応に入る際、◯時に再集合など、ブレイクポイントを設定 し、状況共有などをはさみ認知のギャップ解消や、重複調 査や重複対応といったムダを防ぐ 障害対応の心得〜全般〜
• 障害かも?と思ったらすぐ周知に動くことが大事 ◦ 「障害かも?」→「障害じゃない」:大きな問題なし ◦ 「障害じゃないでしょ!」→「障害でした」:大問題 • 初動時 ◦ 何が起こっているかの事実の共有を最優先
◦ その後、影響範囲の認識合わせ ◦ 最後に対応方針やチーム体制を決定 • 声を上げる、声を出すを意識 障害対応の心得〜検知から対応開始まで〜
• 最優先すべきは、障害状態の回復 ◦ 最短の時間で回復する方法を考える ◦ デグレが原因なら原則は切り戻し一択 ◦ バグの根本対応より、影響を極小化する方法が優先 ◦ 急ぐあまりの二次災害に注意
• 思考の変遷、検討の結果、など情報はこまめにログに残す。 ◦ スプシなどでまとめてもいいけど、Slackにも必ず残す 障害対応の心得〜対応〜
障害対応後も大切だよ
• ポストモーテム ◦ 事実の洗い出し ▪ 発生事象と影響範囲 ▪ 直接/間接原因 ▪ 今回の暫定/根本(恒久)対応の内容
▪ 対応のチーム編成やタイムライン 振り返り(ポストモーテム)をやろう!
• ポストモーテム ◦ 対応のGood/Badを議論 ▪ 全体を俯瞰する ▪ 対応で良かった事を議論 ▪ 対応で改善できることを議論
振り返り(ポストモーテム)をやろう!
振り返り(ポストモーテム)をやろう! • ポストモーテム ◦ 2軸での再発防止策の検討 ▪ 類似障害を起こさない対応策 • 「心がける」等ではなく仕組みで対応する ▪
類似障害が起こっても問題ないようにする対応策 • 発生しても自動対応できる仕組み • 発生してもすぐに検知し対応に入れる仕組み
• ポストモーテム系の参考記事 ◦ ポストモーテムを理解する - Qiita ◦ freeeが再び全社訓練 ◦ SREチームでポストモーテムを1年半運用してみた
振り返り(ポストモーテム)をやろう!
安心・安全・確実な障害対応で より良い開発者体験を
おわり