Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OpsJAWS MEETUP25_みんなが幸せなインシデント管理
Search
Ryo Yoshii
September 05, 2023
Technology
0
1.3k
OpsJAWS MEETUP25_みんなが幸せなインシデント管理
2023年9月4日開催 OpsJAWS Meetup#25 インシデント管理 で登壇した資料を公開します。
幸せになってほしい
Ryo Yoshii
September 05, 2023
Tweet
Share
More Decks by Ryo Yoshii
See All by Ryo Yoshii
2025-02-21 ゆるSRE勉強会 Enhancing SRE Using AI
yoshiiryo1
1
590
Enhancing SRE Using AI
yoshiiryo1
1
920
Amazon Bedrock Agents と Chatbot で無敵のOpsになる
yoshiiryo1
1
200
組織横断型であるがゆえの楽しみと苦しみ
yoshiiryo1
4
1.2k
EC2 の運用と監視の基本をおさらい 「監視、バックアップ、操作」
yoshiiryo1
0
660
re:Invent2023 現地レポ& Cloud Operation サービス Update
yoshiiryo1
0
200
Amazon CloudWatch Application Signals(Preview) 徹底解説
yoshiiryo1
0
1.8k
増え続ける公開アプリケーションへの悪意あるアクセス_多層防御を取り入れるSRE活動_.pdf
yoshiiryo1
2
2.6k
AWS Systems Manager Incident Manager で実現するインシデント管理
yoshiiryo1
0
1.9k
Other Decks in Technology
See All in Technology
Sansanのデータプロダクトマネジメントのアプローチ
sansantech
PRO
0
170
整頓のジレンマとの戦い〜Tidy First?で振り返る事業とキャリアの歩み〜/Fighting the tidiness dilemma〜Business and Career Milestones Reflected on in Tidy First?〜
bitkey
3
17k
データ基盤からデータベースまで?広がるユースケースのDatabricksについて教えるよ!
akuwano
3
130
開発生産性を測る前にやるべきこと - 組織改善の実践 / Before Measuring Dev Productivity
kaonavi
13
6k
高速なプロダクト開発を実現、創業期から掲げるエンタープライズアーキテクチャ
kawauso
3
9.6k
united airlines ™®️ USA Contact Numbers: Complete 2025 Support Guide
flyunitedhelp
1
420
OSSのSNSツール「Misskey」をさわってみよう(右下ワイプで私のOSCの20年を振り返ります) / 20250705-osc2025-do
akkiesoft
0
170
VS CodeとGitHub Copilotで爆速開発!アップデートの波に乗るおさらい会 / Rapid Development with VS Code and GitHub Copilot: Catch the Latest Wave
yamachu
2
160
Contributing to Rails? Start with the Gems You Already Use
yahonda
2
100
クラウド開発の舞台裏とSRE文化の醸成 / SRE NEXT 2025 Lunch Session
kazeburo
1
240
Enhancing SaaS Product Reliability and Release Velocity through Optimized Testing Approach
ropqa
1
240
使いたいMCPサーバーはWeb APIをラップして自分で作る #QiitaBash
bengo4com
0
2k
Featured
See All Featured
Thoughts on Productivity
jonyablonski
69
4.7k
Art, The Web, and Tiny UX
lynnandtonic
299
21k
How to Think Like a Performance Engineer
csswizardry
25
1.7k
Designing for humans not robots
tammielis
253
25k
Building Adaptive Systems
keathley
43
2.7k
Fireside Chat
paigeccino
37
3.5k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Intergalactic Javascript Robots from Outer Space
tanoku
271
27k
KATA
mclloyd
30
14k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
161
15k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Build The Right Thing And Hit Your Dates
maggiecrowley
36
2.8k
Transcript
Ops JAWS Meetup#25 みんなが幸せなインシデント管理 2023年9月4日
2 自己紹介 経歴 HWエンジニア → 中小SIer → ERPコンサル → AWS
パートナー → つながる会社 Follow Me prairie.cards →→→→→→→→→→→→ Community OpsJAWS, (AWS Community Builder) 好きな言葉 No human labor is no human error. Ryo Yoshii 吉井 亮
インシデントとは サービス停止、または、品質低下によって ユーザーに影響を与える事象 3
インシデント管理とは 各所への影響を最小限に留め、 早期にサービスを復旧させるプロセス 4
インシデント管理プロセス 1. 検出 2. 分類 3. 解決策の立案 4. 解決策の実施 5.
回復、クローズ 5
どこに不幸が あるでしょうか? 6 1. 検出 2. 分類 3. 解決策の立案 4.
解決策の実施 5. 回復、クローズ
アラート疲れ • 重要度や緊急度で通知先を変える • アラート本文に”意味”を持たせる 7
SLO と見比べる 稼働率 99.5 → 年間 43.8時間、月間 3.65時間 99.9 →
年間 8.76時間、月間 43.8分 99.95 → 年間 4.36時間、月間 21.9分 ※ 数時間ならオンコールでもいけそう ※ 43分だとNOCが必要 8
無いぞ、無いぞ、手順書 • まずサービス回復 • 根本解決のための証拠保全 • エスカレーションも手順のうち 9
眠いけど引き継ぎはしよう • ライブインシデント状況ドキュメント • 対面、WebMtg 会話で引き継ぎ 10
俺たちはアベンジャーズだ • つよつよエンジニアに頼らない • 当人も悪い気がしていないようだ… 11
繰り返すこのインシデント、あのアラートはまるで恋だね また繰り返す このインシデント 繰り返さないように根本対策を! 12
私達は人間です • 精神的、肉体的負担が増えてきたら インシデント対応から離れてもいい • 持ち回り公平に 13
訓練 • 最初のアサインはシャドーから • 適切な研修 14
プロには報酬で報いる オンコール 応答・対応したら💴 対応しなくても当番になったら💴 15
THANK YOU 16