Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Incident Response / infra study 3
Search
tjun
June 16, 2020
Technology
3
3.5k
Incident Response / infra study 3
Infra Study Meetup #3の発表資料です。
https://forkwell.connpass.com/event/176885/
tjun
June 16, 2020
Tweet
Share
More Decks by tjun
See All by tjun
SREとしてスタッフエンジニアを目指す / SRE Kaigi 2025
tjun
17
17k
CloudNative環境におけるトラブルシューティングガイド / CloudNative Days Tokyo 2023
tjun
6
2.4k
2023-12-07 SRE Talk クラウドと長く付き合う
tjun
0
220
インシデント対応を改善しよう/2024 TechFeed Experts Night 17
tjun
1
490
メルペイにおけるマイクロサービス運用の苦労と改善 / CloudNative Days Tokyo2020
tjun
16
4.6k
絶え間なく変化するメルカリ・メルペイにおけるSREの組織と成長 / SRE Next 2020
tjun
6
19k
メルペイのマイクロサービスとCloud Native / CloudNative Days Kansai2019
tjun
22
23k
メルペイを支えるGKEとCloud Spanner / 2019 Google Cloud Architect Night 1
tjun
1
2.5k
メルペイのマイクロサービスの構築と運用 / CloudNative Days Tokyo2019
tjun
27
15k
Other Decks in Technology
See All in Technology
Ruby で作る大規模イベントネットワーク構築・運用支援システム TTDB
taketo1113
1
210
日本Rubyの会の構造と実行とあと何か / hokurikurk01
takahashim
4
950
Noを伝える技術2025: 爆速合意形成のためのNICOフレームワーク速習 #pmconf2025
aki_iinuma
2
2.1k
今年のデータ・ML系アップデートと気になるアプデのご紹介
nayuts
1
150
AI 駆動開発勉強会 フロントエンド支部 #1 w/あずもば
1ftseabass
PRO
0
210
AIと二人三脚で育てた、個人開発アプリグロース術
zozotech
PRO
0
690
Debugging Edge AI on Zephyr and Lessons Learned
iotengineer22
0
120
会社紹介資料 / Sansan Company Profile
sansan33
PRO
11
390k
Lambdaの常識はどう変わる?!re:Invent 2025 before after
iwatatomoya
1
350
生成AI・AIエージェント時代、データサイエンティストは何をする人なのか?そして、今学生であるあなたは何を学ぶべきか?
kuri8ive
2
2.1k
pmconf2025 - 他社事例を"自社仕様化"する技術_iRAFT法
daichi_yamashita
0
790
モバイルゲーム開発におけるエージェント技術活用への試行錯誤 ~開発効率化へのアプローチの紹介と未来に向けた展望~
qualiarts
0
660
Featured
See All Featured
Building Adaptive Systems
keathley
44
2.9k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.3k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Automating Front-end Workflow
addyosmani
1371
200k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
196
70k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
A designer walks into a library…
pauljervisheath
210
24k
Building Flexible Design Systems
yeseniaperezcruz
330
39k
Code Reviewing Like a Champion
maltzj
527
40k
Making the Leap to Tech Lead
cromwellryan
135
9.7k
Done Done
chrislema
186
16k
A better future with KSS
kneath
240
18k
Transcript
Incident Response Infra Study Meetup #3 LT Merpay SRE @tjun
Junichiro Takagi https://speakerdeck.com/tjun/infra-study-3
「インシデント対応やってますか?」
今日のテーマ Incident Response • できればやりたくない • でもSREをやるなら避けられない • どうすれば、より健全なIncident Responseができるか
今日の話は https://response.pagerduty.com/ の超ざっくりしたまとめ なので、詳しくは読んでほしい
はじめに Incident とは 予期せず提供しているサービスが利用できない状態になったり、 期待している機能が提供できない状態
はじめに Incident とは 予期せず提供しているサービスが利用できない状態になったり、 期待している機能が提供できない状態 Incident Response とは Incidentを解決・管理するための組織的なしくみ。 問題を解決するだけでなく、被害を減らしたり解決までの時間やコストを減らす
取り組みも含まれる。 エンジニアだけじゃなく、Customer Support、PM、PRなども関わる。
Incident 前に やること • 心構え: Incidentは必ず起きる…! • Incident, Severity を定義する
• Trigger を用意する • 役割を決める(Incident Commander等) • コミュニケーションの仕組みを 用意する
Incident 中に やること • 心構え: 慌てない • 必要なメンバーを招集する • 役割ごとに必要な対応を行う
◦ Incident Commander 関係者に連絡しSlackで指示を出す ◦ エンジニア 問題を調査し解決方法を提案・実行する
Incident 後に やること • 心構え: Blameless ( 人を責めない ) •
Post-mortem(振り返り) を行う ◦ What Happened? ◦ Impact ◦ Resolution ◦ Timeline ◦ うまくできたこと、だめだったこと ◦ Action Items
Incident Response をはじめよう 1. インシデントを定義する 2. コミュニケーションの仕組みを作る ◦ アラート設定、Slackで集まるChannel、などを用意 3.
インシデント対応の役割を決める ◦ Incident Commanderを決める 4. Post-mortemのテンプレを作る ◦ https://landing.google.com/sre/sre-book/chapters/postmortem/ などが参考になる 5. 練習する 6. 実際のインシデントで実行する
まとめ • Incident Response はSREだけのものではない、組織的な 仕組みづくりが必要。できるところから始めよう • 適切な準備をして、健全な運用を作りましょう