Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Incident Response / infra study 3
Search
tjun
June 16, 2020
Technology
3
3.3k
Incident Response / infra study 3
Infra Study Meetup #3の発表資料です。
https://forkwell.connpass.com/event/176885/
tjun
June 16, 2020
Tweet
Share
More Decks by tjun
See All by tjun
SREとしてスタッフエンジニアを目指す / SRE Kaigi 2025
tjun
15
8.6k
CloudNative環境におけるトラブルシューティングガイド / CloudNative Days Tokyo 2023
tjun
6
2.1k
2023-12-07 SRE Talk クラウドと長く付き合う
tjun
0
170
インシデント対応を改善しよう/2024 TechFeed Experts Night 17
tjun
1
420
メルペイにおけるマイクロサービス運用の苦労と改善 / CloudNative Days Tokyo2020
tjun
16
4.4k
絶え間なく変化するメルカリ・メルペイにおけるSREの組織と成長 / SRE Next 2020
tjun
6
18k
メルペイのマイクロサービスとCloud Native / CloudNative Days Kansai2019
tjun
22
22k
メルペイを支えるGKEとCloud Spanner / 2019 Google Cloud Architect Night 1
tjun
1
2.4k
メルペイのマイクロサービスの構築と運用 / CloudNative Days Tokyo2019
tjun
26
15k
Other Decks in Technology
See All in Technology
現場の種を事業の芽にする - エンジニア主導のイノベーションを事業戦略に装着する方法 -
kzkmaeda
2
2.1k
【Developers Summit 2025】プロダクトエンジニアから学ぶ、 ユーザーにより高い価値を届ける技術
niwatakeru
2
1.4k
目の前の仕事と向き合うことで成長できる - 仕事とスキルを広げる / Every little bit counts
soudai
24
7.1k
2024.02.19 W&B AIエージェントLT会 / AIエージェントが業務を代行するための計画と実行 / Algomatic 宮脇
smiyawaki0820
13
3.4k
エンジニアの育成を支える爆速フィードバック文化
sansantech
PRO
3
1.1k
スタートアップ1人目QAエンジニアが QAチームを立ち上げ、“個”からチーム、 そして“組織”に成長するまで / How to set up QA team at reiwatravel
mii3king
2
1.5k
ユーザーストーリーマッピングから始めるアジャイルチームと並走するQA / Starting QA with User Story Mapping
katawara
0
210
次世代KYC活動報告 / 20250219-BizDay17-KYC-nextgen
oidfj
0
260
Platform Engineeringは自由のめまい
nwiizo
4
2.1k
エンジニアが加速させるプロダクトディスカバリー 〜最速で価値ある機能を見つける方法〜 / product discovery accelerated by engineers
rince
4
350
現場で役立つAPIデザイン
nagix
33
12k
地方拠点で エンジニアリングマネージャーってできるの? 〜地方という制約を楽しむオーナーシップとコミュニティ作り〜
1coin
1
230
Featured
See All Featured
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
Making Projects Easy
brettharned
116
6k
A designer walks into a library…
pauljervisheath
205
24k
A Philosophy of Restraint
colly
203
16k
Bootstrapping a Software Product
garrettdimon
PRO
306
110k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
30
2.2k
A Tale of Four Properties
chriscoyier
158
23k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
27
1.6k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
133
33k
Transcript
Incident Response Infra Study Meetup #3 LT Merpay SRE @tjun
Junichiro Takagi https://speakerdeck.com/tjun/infra-study-3
「インシデント対応やってますか?」
今日のテーマ Incident Response • できればやりたくない • でもSREをやるなら避けられない • どうすれば、より健全なIncident Responseができるか
今日の話は https://response.pagerduty.com/ の超ざっくりしたまとめ なので、詳しくは読んでほしい
はじめに Incident とは 予期せず提供しているサービスが利用できない状態になったり、 期待している機能が提供できない状態
はじめに Incident とは 予期せず提供しているサービスが利用できない状態になったり、 期待している機能が提供できない状態 Incident Response とは Incidentを解決・管理するための組織的なしくみ。 問題を解決するだけでなく、被害を減らしたり解決までの時間やコストを減らす
取り組みも含まれる。 エンジニアだけじゃなく、Customer Support、PM、PRなども関わる。
Incident 前に やること • 心構え: Incidentは必ず起きる…! • Incident, Severity を定義する
• Trigger を用意する • 役割を決める(Incident Commander等) • コミュニケーションの仕組みを 用意する
Incident 中に やること • 心構え: 慌てない • 必要なメンバーを招集する • 役割ごとに必要な対応を行う
◦ Incident Commander 関係者に連絡しSlackで指示を出す ◦ エンジニア 問題を調査し解決方法を提案・実行する
Incident 後に やること • 心構え: Blameless ( 人を責めない ) •
Post-mortem(振り返り) を行う ◦ What Happened? ◦ Impact ◦ Resolution ◦ Timeline ◦ うまくできたこと、だめだったこと ◦ Action Items
Incident Response をはじめよう 1. インシデントを定義する 2. コミュニケーションの仕組みを作る ◦ アラート設定、Slackで集まるChannel、などを用意 3.
インシデント対応の役割を決める ◦ Incident Commanderを決める 4. Post-mortemのテンプレを作る ◦ https://landing.google.com/sre/sre-book/chapters/postmortem/ などが参考になる 5. 練習する 6. 実際のインシデントで実行する
まとめ • Incident Response はSREだけのものではない、組織的な 仕組みづくりが必要。できるところから始めよう • 適切な準備をして、健全な運用を作りましょう