Upgrade to Pro — share decks privately, control downloads, hide ads and more …

プロダクトチームへのSystem Risk Records導入・運用事例の紹介/Introdu...

プロダクトチームへのSystem Risk Records導入・運用事例の紹介/Introduction and Case Studies on Implementing and Operating System Risk Records for Product Teams

SRE NEXT 2024をふりかえって 〜学びをもとにした取り組み事例紹介〜で発表した資料です。

SadayoshiTada

October 30, 2024
Tweet

More Decks by SadayoshiTada

Other Decks in Technology

Transcript

  1. © LayerX Inc. C on fid en tial プロダクトチームへのSystem Risk

    Records 導入・運用事例の紹介 2024/10/30 多田貞剛(@taddy_919) SRE NEXT 2024を振り返って 〜学びをもとにした取り組み事例紹介〜
  2. © LayerX Inc. 2 バクラク事業部 PlatformEngineering部 DevOpsチーム 多田 貞剛 (Sadayoshi

    Tada)/ taddy 自己紹介 • SIerやスタートアップを経て5社目 ◦ 2022/03〜 株式会社LayerX SNS 𝕏 taddy_919   tasogare0919
  3. © LayerX Inc. 6 この運用で感じていた課題感 定期システムモニタリングにおける課題 • Slackで調査するメンバーがアサインされた際、対応ステータスが 見えづらかった •

    バックログに追加する時、バックログに載せるべきかを判断するプ ロセスがなく取り急ぎ追加し、対応のアイテムが積み上がっていた • 対応した結果を共有されるが他のメンバーはどんな対応したかは大 まかに把握しているものの、どういう調査や修正の判断をしたかは 見えづらかった
  4. 8 © LayerX Inc. System Risk Recordsとは System Risk Recordsとは

    • SRE NEXT 2024で株式会社diniiの浦山さんが紹介された取り 組み ◦ 発表資料 ◦ Zennの記事 ◦ Youtube • Google SpreadsheetとGoogle Docsでのテンプレートが公開 されている
  5. 9 © LayerX Inc. System Risk Recordsの紹介 [Template] System Risk

    Records より引用 System Risk Recordsのイメージ(一覧画面)
  6. 10 © LayerX Inc. System Risk Recordsの紹介 [Template] System Risk

    Records より引用 System Risk Recordsのイメージ(詳細画面) • 概要 • リスクの認知〜原因特定までのログ • 原因 • 対策方針 • 対策ログ • Next Action
  7. 11 © LayerX Inc. 発表を聞いての所感 System Risk Recordsとは • 弊社でもNotionを使っているため、発表を参考にSystem

    Risk Recordsを取り入れやすいと感じた • 定期モニタリングの課題に対する改善として参考になった
  8. © LayerX Inc. 13 弊社の運用イメージ(Notionのアイテムプロパティ) 弊社内での導入・運用事例紹介 • 公開済みテンプレートをベースに 設定した •

    追加したプロパティとして以下が ある ◦ DatadogのURL ◦ 調査後修正する対象のバック ログのリンク ◦ ポストモーテム後のアクショ ンアイテムのリンク
  9. © LayerX Inc. 15 System Risk Records導入後の変化や課題 弊社内での導入・運用事例紹介 • アサインメンバーの対応状況がNotionに残るようになった

    ◦ 調査後修正を行う場合、バックログで対応を行うフローができた ◦ どういうプロセスを経て調査・修正の対応が行われたかが関係 者が確認できるようになった • 異常な挙動に対する調査・修正に対して、今後のリスクとその優先度 が可視化されるようになった • 1ヶ月強ほど運用して約50件ほど登録されている ◦ リスクの粒度が細かすぎたり、既に恒久対応が完了しているもの もあり管理方針を見直す
  10. © LayerX Inc. 17 • SRE NEXT 2024で学んだ、System Risk Recordsを自社に

    持ち帰って実践した事例を紹介しました • これからのやっていき!もあるので、開発チームと協力して取り組ん でいきます まとめ まとめ