Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OpsJAWS MEETUP25_みんなが幸せなインシデント管理
Search
Ryo Yoshii
September 05, 2023
Technology
0
1k
OpsJAWS MEETUP25_みんなが幸せなインシデント管理
2023年9月4日開催 OpsJAWS Meetup#25 インシデント管理 で登壇した資料を公開します。
幸せになってほしい
Ryo Yoshii
September 05, 2023
Tweet
Share
More Decks by Ryo Yoshii
See All by Ryo Yoshii
組織横断型であるがゆえの楽しみと苦しみ
yoshiiryo1
3
1k
EC2 の運用と監視の基本をおさらい 「監視、バックアップ、操作」
yoshiiryo1
0
280
re:Invent2023 現地レポ& Cloud Operation サービス Update
yoshiiryo1
0
140
Amazon CloudWatch Application Signals(Preview) 徹底解説
yoshiiryo1
0
1.1k
増え続ける公開アプリケーションへの悪意あるアクセス_多層防御を取り入れるSRE活動_.pdf
yoshiiryo1
1
2.2k
AWS Systems Manager Incident Manager で実現するインシデント管理
yoshiiryo1
0
1.3k
インシデント対応の成熟度とベストプラクティス
yoshiiryo1
0
1.6k
OpsJAWS Meetup24 静的安定性を考える、依存しないアーキテクチャ
yoshiiryo1
0
880
DevelopersIO DayOne モノリスかマイクロサービスか、その選択に迷っている人へ届けたい話
yoshiiryo1
3
6.5k
Other Decks in Technology
See All in Technology
いまからでも遅くない! コンテナでWebアプリケーションを 動かしてみよう(1)Gitハンズオン
nomu
0
280
Zero Data Loss Autonomous Recovery Service サービス概要
oracle4engineer
PRO
0
3.1k
APIのドキュメント化何使ってますか?
miu_crescent
2
160
AWS版GitHub?Amazon CodeCatalystの全体像をまとめてみた
oshanqq
1
3.2k
New Relicで実践する外形監視
aeonpeople
1
120
Staff Engineer / 20240827 Yuichiro Masui
shift_evolve
0
150
エンジニア採用ノウハウ0から継続的な採用に至るまで / Try recruiting engineers
ohageeq
0
130
FastlyとfalcoでNode.jsレスな Webサーバー構築 : IPTV版 ABEMAアプリインフラ刷新 / Building web server using Fastly and falco without Node.js for IPTV ABEMA app
nodaguti
0
240
株式会社M2X エンジニアチーム紹介資料
m2xsoftware
0
320
Evolving DevOps Teams and Flexible Organizational Culture
kakehashi
1
140
RAGHack: Kickoff and RAG 101
pamelafox
0
200
LLMに日本語テキストを学習させる意義
ksaito
13
3.4k
Featured
See All Featured
Principles of Awesome APIs and How to Build Them.
keavy
125
16k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
226
52k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
88
15k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
45
4.8k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
157
15k
Docker and Python
trallard
39
3k
The Straight Up "How To Draw Better" Workshop
denniskardys
230
130k
Facilitating Awesome Meetings
lara
49
5.9k
Embracing the Ebb and Flow
colly
83
4.4k
Scaling GitHub
holman
458
140k
Code Review Best Practice
trishagee
62
16k
Into the Great Unknown - MozCon
thekraken
28
1.4k
Transcript
Ops JAWS Meetup#25 みんなが幸せなインシデント管理 2023年9月4日
2 自己紹介 経歴 HWエンジニア → 中小SIer → ERPコンサル → AWS
パートナー → つながる会社 Follow Me prairie.cards →→→→→→→→→→→→ Community OpsJAWS, (AWS Community Builder) 好きな言葉 No human labor is no human error. Ryo Yoshii 吉井 亮
インシデントとは サービス停止、または、品質低下によって ユーザーに影響を与える事象 3
インシデント管理とは 各所への影響を最小限に留め、 早期にサービスを復旧させるプロセス 4
インシデント管理プロセス 1. 検出 2. 分類 3. 解決策の立案 4. 解決策の実施 5.
回復、クローズ 5
どこに不幸が あるでしょうか? 6 1. 検出 2. 分類 3. 解決策の立案 4.
解決策の実施 5. 回復、クローズ
アラート疲れ • 重要度や緊急度で通知先を変える • アラート本文に”意味”を持たせる 7
SLO と見比べる 稼働率 99.5 → 年間 43.8時間、月間 3.65時間 99.9 →
年間 8.76時間、月間 43.8分 99.95 → 年間 4.36時間、月間 21.9分 ※ 数時間ならオンコールでもいけそう ※ 43分だとNOCが必要 8
無いぞ、無いぞ、手順書 • まずサービス回復 • 根本解決のための証拠保全 • エスカレーションも手順のうち 9
眠いけど引き継ぎはしよう • ライブインシデント状況ドキュメント • 対面、WebMtg 会話で引き継ぎ 10
俺たちはアベンジャーズだ • つよつよエンジニアに頼らない • 当人も悪い気がしていないようだ… 11
繰り返すこのインシデント、あのアラートはまるで恋だね また繰り返す このインシデント 繰り返さないように根本対策を! 12
私達は人間です • 精神的、肉体的負担が増えてきたら インシデント対応から離れてもいい • 持ち回り公平に 13
訓練 • 最初のアサインはシャドーから • 適切な研修 14
プロには報酬で報いる オンコール 応答・対応したら💴 対応しなくても当番になったら💴 15
THANK YOU 16