Upgrade to Pro — share decks privately, control downloads, hide ads and more …

バクラクでのSystem Risk Records導入による変化と改善の取り組み/Change...

バクラクでのSystem Risk Records導入による変化と改善の取り組み/Changes and Improvement Initiatives Resulting from the Implementation of System Risk Records

2025/03/25開催のLayerX SRE & Cloud Native Night!発表資料です。

SadayoshiTada

March 25, 2025
Tweet

More Decks by SadayoshiTada

Other Decks in Technology

Transcript

  1. © LayerX Inc. C on fid en tial バクラクでのSystem Risk

    Records導⼊による 変化と改善の取り組み 2025/03/25 多⽥貞剛(@taddy_919) LayerX SRE & Cloud Native Night!
  2. © LayerX Inc. 2 バクラク事業部 PlatformEngineering部 SREチーム 多⽥ 貞剛 (Sadayoshi

    Tada)/ taddy ⾃⼰紹介 • SIerやスタートアップを経て5社⽬ ◦ 2022/03〜 株式会社LayerX SNS 𝕏 taddy_919   tasogare0919
  3. © LayerX Inc. 7 運⽤で感じていた課題感 定期システムモニタリングにおける課題 • Slackで調査するメンバーがアサインされた際、対応ステータスが⾒ えづらかった •

    バックログに追加する時、バックログに載せるべきかを判断するプ ロセスがなく取り急ぎ追加し、対応のアイテムが積み上がっていた • 対応した結果を共有されるが他のメンバーはどんな対応したかは⼤ まかに把握しているものの、どういう調査や修正の判断をしたかは ⾒えづらかった
  4. 9 © LayerX Inc. System Risk Recordsとは System Risk Recordsとは

    • SRE NEXT 2024で株式会社diniiの浦⼭さんが紹介された取り組み ◦ 発表資料 ◦ Zennの記事 ◦ Youtube • Google SpreadsheetとGoogle Docsでのテンプレートが公開されてい る
  5. 10 © LayerX Inc. System Risk Recordsの紹介 [Template] System Risk

    Records より引⽤ System Risk Recordsのイメージ(⼀覧画⾯)
  6. 11 © LayerX Inc. System Risk Recordsの紹介 [Template] System Risk

    Records より引⽤ System Risk Recordsのイメージ(詳細画⾯) • 概要 • リスクの認知〜原因特定までのログ • 原因 • 対策⽅針 • 対策ログ • Next Action
  7. 12 © LayerX Inc. 発表を聞いての所感 System Risk Recordsとは • 弊社でもdiniiさんと同様にNotionを使っており、発表を参考に

    System Risk Recordsを取り⼊れやすいと感じた • 当時プロダクトの定期モニタリングで抱えていた課題に対する改善と して参考になった ◦ 関わりのあるプロダクトチームの運⽤の中に取り込むことにした
  8. © LayerX Inc. 14 System Risk Records導⼊にあたって⾏ったこと 導⼊時に⾏ったこと • リスクを起票する、Notionテンプレートとリスクを可視化する、

    Notionデータベースを⽤意 • System Risk Recordsの起票および状況を確認する、定期イベントを プロダクトチームと策定 ◦ 週次でエラーログやシステムメトリクスをプロダクトチーム主体 で確認‧調査する時間を持っているので、その時間に⾏うことに した
  9. © LayerX Inc. 16 Notionのアイテムプロパティのイメージ 導⼊時に⾏ったこと • 公開済みテンプレートをベースに 設定した •

    追加したプロパティとして以下が ある ◦ DatadogのURL ◦ 調査後修正する対象のバックロ グのリンク ◦ ポストモーテム後のアクション アイテムのリンク
  10. © LayerX Inc. 18 System Risk Records導入で改善できたこと 導入時に行ったこと • アサインメンバーの対応状況がNotionに残るようになった

    ◦ 調査後修正を行う場合、バックログで対応を行うフローができた ◦ 後から見た時に他の関係者が調査・修正のプロセスを確認できるよう になった • 異常な挙動に対する調査・修正に対して、今後のリスクとその優先度が 可視化されるようになった
  11. © LayerX Inc. 21 プロダクトチームと⾏った、運⽤の⾒直し 導⼊後の運⽤や改善事例紹介 • System Risk Recordsに登録するアイテムの⽅針をプロダクトチーム

    とすり合わせした ◦ 短期的に修正することが明らかなことはバックログで扱う ◦ 短期的な調査で原因究明ができず、中⻑期的に原因と対策を検討す るリスクを登録する • System Risk Recordsの起票は任意のタイミングで実施し、確認を⽉ 次に変更 • System Risk Recordsの棚卸し ◦ 昨年末に緊急度が低かったり、中⻑期で注視すべきリスクではない ものを整理した
  12. © LayerX Inc. 22 運⽤によって起こった変化 導⼊後の運⽤や改善事例紹介 • 個別メンバーの暗黙知になっていた事象をチーム全体で認識する動き がでてきた ◦

    チームでどう問題に対応するかを考える場になっている • プロダクトチームの慣習の中にリスクの⾃律的な管理‧登録
  13. © LayerX Inc. 23 System Risk Recordsの運⽤から⽣まれた改善 導⼊後の運⽤や改善事例紹介 • プロダクトチームが関与する、サブシステ

    ムでメモリ増加を観測したが、短期的な調 査で原因を特定できなかった ◦ System Risk Recordsに登録して注視する ようにした • メモリ増加の詳細な調査を⾏うために Datadog APMやProfilerを導⼊ • その後、継続的なアイテム状況確認でメモ リ増加傾向の調査を⾏い、原因を特定でき つつある
  14. © LayerX Inc. 27 • System Risk Recordsを継続的に取り組んでみての振り返りと得られ たことをお話しました •

    プロダクトチームと協同で改善に取り組む⼿法として良いと感じてい るため、今後も継続して取り組みます まとめ まとめ