Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Incident Response / infra study 3
Search
tjun
June 16, 2020
Technology
3
3.1k
Incident Response / infra study 3
Infra Study Meetup #3の発表資料です。
https://forkwell.connpass.com/event/176885/
tjun
June 16, 2020
Tweet
Share
More Decks by tjun
See All by tjun
CloudNative環境におけるトラブルシューティングガイド / CloudNative Days Tokyo 2023
tjun
6
1.9k
2023-12-07 SRE Talk クラウドと長く付き合う
tjun
0
160
インシデント対応を改善しよう/2024 TechFeed Experts Night 17
tjun
1
370
メルペイにおけるマイクロサービス運用の苦労と改善 / CloudNative Days Tokyo2020
tjun
16
4.3k
絶え間なく変化するメルカリ・メルペイにおけるSREの組織と成長 / SRE Next 2020
tjun
6
17k
メルペイのマイクロサービスとCloud Native / CloudNative Days Kansai2019
tjun
22
22k
メルペイを支えるGKEとCloud Spanner / 2019 Google Cloud Architect Night 1
tjun
1
2.3k
メルペイのマイクロサービスの構築と運用 / CloudNative Days Tokyo2019
tjun
26
15k
Merpay Microservices On Microservice Platform 20190522
tjun
3
7.7k
Other Decks in Technology
See All in Technology
SORACOMで実現するIoTのマルチクラウド対応 - IoTでのクリーンアーキテクチャの実現 -
kenichirokimura
0
380
Tricentisにおけるテスト自動化へのAI活用ご紹介/20240910Shunsuke Katakura
shift_evolve
0
180
ネットワークだけ隔離されたコンテナ作成デモ / Kichijoji.pm36
tenforward
1
210
AI でアップデートする既存テクノロジーと、クラウドエンジニアの生きる道
soracom
PRO
2
550
Google CloudのLLM活用の選択肢を広げるVertex AIのパートナーモデル
nayuts
0
130
Next.js のページ遷移を全力で止める
ypresto
3
1.6k
やってやろうじゃないかメカアジャイル! / Let's do it, mechanical agile!
psj59129
1
600
事前準備が肝!AI活用のための業務改革
layerx
PRO
1
370
不動産 x AIことはじめ~データの真価を拓くために
estie
0
110
『GRANBLUE FANTASY: Relink』最高の「没入感」を実現するカットシーン制作手法とそれを支える技術
cygames
0
100
Discovering AI Models
picardparis
4
3.9k
AIを活用した柔軟かつ効率的な社内リソース検索への取り組み
cygames
0
110
Featured
See All Featured
Designing Dashboards & Data Visualisations in Web Apps
destraynor
227
52k
The Power of CSS Pseudo Elements
geoffreycrofte
71
5.3k
Put a Button on it: Removing Barriers to Going Fast.
kastner
58
3.4k
Rebuilding a faster, lazier Slack
samanthasiow
78
8.6k
Creatively Recalculating Your Daily Design Routine
revolveconf
215
12k
The Language of Interfaces
destraynor
153
23k
Ruby is Unlike a Banana
tanoku
96
11k
Keith and Marios Guide to Fast Websites
keithpitt
408
22k
Designing the Hi-DPI Web
ddemaree
278
34k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
248
20k
What's new in Ruby 2.0
geeforr
340
31k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
1
48
Transcript
Incident Response Infra Study Meetup #3 LT Merpay SRE @tjun
Junichiro Takagi https://speakerdeck.com/tjun/infra-study-3
「インシデント対応やってますか?」
今日のテーマ Incident Response • できればやりたくない • でもSREをやるなら避けられない • どうすれば、より健全なIncident Responseができるか
今日の話は https://response.pagerduty.com/ の超ざっくりしたまとめ なので、詳しくは読んでほしい
はじめに Incident とは 予期せず提供しているサービスが利用できない状態になったり、 期待している機能が提供できない状態
はじめに Incident とは 予期せず提供しているサービスが利用できない状態になったり、 期待している機能が提供できない状態 Incident Response とは Incidentを解決・管理するための組織的なしくみ。 問題を解決するだけでなく、被害を減らしたり解決までの時間やコストを減らす
取り組みも含まれる。 エンジニアだけじゃなく、Customer Support、PM、PRなども関わる。
Incident 前に やること • 心構え: Incidentは必ず起きる…! • Incident, Severity を定義する
• Trigger を用意する • 役割を決める(Incident Commander等) • コミュニケーションの仕組みを 用意する
Incident 中に やること • 心構え: 慌てない • 必要なメンバーを招集する • 役割ごとに必要な対応を行う
◦ Incident Commander 関係者に連絡しSlackで指示を出す ◦ エンジニア 問題を調査し解決方法を提案・実行する
Incident 後に やること • 心構え: Blameless ( 人を責めない ) •
Post-mortem(振り返り) を行う ◦ What Happened? ◦ Impact ◦ Resolution ◦ Timeline ◦ うまくできたこと、だめだったこと ◦ Action Items
Incident Response をはじめよう 1. インシデントを定義する 2. コミュニケーションの仕組みを作る ◦ アラート設定、Slackで集まるChannel、などを用意 3.
インシデント対応の役割を決める ◦ Incident Commanderを決める 4. Post-mortemのテンプレを作る ◦ https://landing.google.com/sre/sre-book/chapters/postmortem/ などが参考になる 5. 練習する 6. 実際のインシデントで実行する
まとめ • Incident Response はSREだけのものではない、組織的な 仕組みづくりが必要。できるところから始めよう • 適切な準備をして、健全な運用を作りましょう