Incident Response / infra study 3

Incident Response Infra Study Meetup #3 LT Merpay SRE @tjun
Junichiro Takagi https://speakerdeck.com/tjun/infra-study-3

「インシデント対応やってますか？」

今日のテーマ Incident Response • できればやりたくない • でもSREをやるなら避けられない • どうすれば、より健全なIncident Responseができるか
今日の話は https://response.pagerduty.com/ の超ざっくりしたまとめなので、詳しくは読んでほしい

はじめに Incident とは予期せず提供しているサービスが利用できない状態になったり、期待している機能が提供できない状態

はじめに Incident とは予期せず提供しているサービスが利用できない状態になったり、期待している機能が提供できない状態 Incident Response とは Incidentを解決・管理するための組織的なしくみ。問題を解決するだけでなく、被害を減らしたり解決までの時間やコストを減らす
取り組みも含まれる。エンジニアだけじゃなく、Customer Support、PM、PRなども関わる。

Incident 前にやること • 心構え: Incidentは必ず起きる…！ • Incident, Severity を定義する
• Trigger を用意する • 役割を決める（Incident Commander等） • コミュニケーションの仕組みを用意する

Incident 中にやること • 心構え: 慌てない • 必要なメンバーを招集する • 役割ごとに必要な対応を行う
◦ Incident Commander 関係者に連絡しSlackで指示を出す ◦ エンジニア問題を調査し解決方法を提案・実行する

Incident 後にやること • 心構え: Blameless ( 人を責めない ) •
Post-mortem（振り返り）を行う ◦ What Happened? ◦ Impact ◦ Resolution ◦ Timeline ◦ うまくできたこと、だめだったこと ◦ Action Items

Incident Response をはじめよう 1. インシデントを定義する 2. コミュニケーションの仕組みを作る ◦ アラート設定、Slackで集まるChannel、などを用意 3.
インシデント対応の役割を決める ◦ Incident Commanderを決める 4. Post-mortemのテンプレを作る ◦ https://landing.google.com/sre/sre-book/chapters/postmortem/ などが参考になる 5. 練習する 6. 実際のインシデントで実行する

まとめ • Incident Response はSREだけのものではない、組織的な仕組みづくりが必要。できるところから始めよう • 適切な準備をして、健全な運用を作りましょう

Incident Response / infra study 3

Incident Response / infra study 3

tjun

More Decks by tjun

Other Decks in Technology

Featured

Transcript

Incident Response Infra Study Meetup #3 LT Merpay SRE @tjun

「インシデント対応やってますか？」

今日のテーマ Incident Response • できればやりたくない • でもSREをやるなら避けられない • どうすれば、より健全なIncident Responseができるか

はじめに Incident とは予期せず提供しているサービスが利用できない状態になったり、期待している機能が提供できない状態

Incident 前にやること • 心構え: Incidentは必ず起きる…！ • Incident, Severity を定義する

Incident 中にやること • 心構え: 慌てない • 必要なメンバーを招集する • 役割ごとに必要な対応を行う

Incident 後にやること • 心構え: Blameless ( 人を責めない ) •

Incident Response をはじめよう 1. インシデントを定義する 2. コミュニケーションの仕組みを作る ◦ アラート設定、Slackで集まるChannel、などを用意 3.

まとめ • Incident Response はSREだけのものではない、組織的な仕組みづくりが必要。できるところから始めよう • 適切な準備をして、健全な運用を作りましょう