Upgrade to Pro — share decks privately, control downloads, hide ads and more …

インシデント対応を改善しよう/2024 TechFeed Experts Night 17

tjun
April 26, 2023

インシデント対応を改善しよう/2024 TechFeed Experts Night 17

2024/04/26に開催されるTechFeed Experts Night#17 〜 事例で学ぶSRE 〜 ツール、プラクティスから組織づくりまで の発表資料です。

https://techfeed.io/events/techfeed-experts-night-17

tjun

April 26, 2023
Tweet

More Decks by tjun

Other Decks in Programming

Transcript

  1. 自己紹介 @tjun Merpay SRE ├ Engineering Manager └ Tech Lead

    2018年 Merpay入社 2019年 Merpayリリース 2023年 Mercoinリリース 金融系のサービスのSREを5年近くやっています SRE team: Merpay/Mercoinのサービスを見る合計12名のチーム
  2. 1: インシデントを管理する 各インシデントが適切に対応されているか、そのステータスを管理し ます インシデントステータスの例 • 対応中 • 復旧済み •

    振り返り済み これによって振り返りが実施されていないインシデントに対して振り 返りを促したり、アクションをすることができます インシデント数 振り返り未完了 恒久対応未完了 インシデントステータスの例 • 調査中 • 復旧済み • 振り返り済み • 恒久対応完了
  3. 2: インシデントの恒久対応の実施 インシデントの振り返りで、恒久対応について決定します。 恒久対応には以下のようなものがあります • 再発防止のための仕組み • 同様のインシデント対応を改善する仕組み ◦ 監視設定の強化

    ◦ 対応方法のドキュメント化 インシデントレポートをマネージャーやSRE、ITRiskチームが レビューして、これらの対応が十分かどうか、対応がちゃんと実施 されているか確認しています