Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
バクラクでのSystem Risk Records導入による変化と改善の取り組み/Change...
Search
SadayoshiTada
March 25, 2025
Technology
0
290
バクラクでのSystem Risk Records導入による変化と改善の取り組み/Changes and Improvement Initiatives Resulting from the Implementation of System Risk Records
2025/03/25開催のLayerX SRE & Cloud Native Night!発表資料です。
SadayoshiTada
March 25, 2025
Tweet
Share
More Decks by SadayoshiTada
See All by SadayoshiTada
プロダクトチームへのSystem Risk Records導入・運用事例の紹介/Introduction and Case Studies on Implementing and Operating System Risk Records for Product Teams
taddy_919
1
1k
開発者が安心して実行可能なSQL実行基盤の取り組み/Initiatives for a Secure SQL Execution Platform for Developers
taddy_919
2
7.8k
バックアップのリストア検証が可能な AWS Backup Restore testing を使ってみた/AWS Backup Restore testing, which enables backup restore verification
taddy_919
0
630
今日から実践!継続的に自分の軌跡を残す方法/Start practicing today! How to Continuously Keep Track of Yourself
taddy_919
0
3.7k
スタートアップ企業での散乱した システムリリースフローをととのえる話/Maintain the system release flow
taddy_919
1
4.1k
スタートアップ企業でのデータ活用に向けての取り組み/Working with Startups to Leverage Data
taddy_919
0
3.4k
スタートアップ企業でのAWS マルチアカウント運用の実践と普及/Practice and dissemination of AWS multi-account operation in a start-up company
taddy_919
1
5.4k
AWS Organizations と一緒にはじめるアカウント分離/Starting Account Separation with AWS Organaizations
taddy_919
0
2.1k
データドリブンな組織を目指す、AWSを活用したデータ分析基盤の取り組み/AWS-based data analytics infrastructure initiatives for a data-driven organization
taddy_919
0
3k
Other Decks in Technology
See All in Technology
Clineを含めたAIエージェントを 大規模組織に導入し、投資対効果を考える / Introducing AI agents into your organization
i35_267
4
1.4k
IIWレポートからみるID業界で話題のMCP
fujie
0
740
Liquid Glass革新とSwiftUI/UIKit進化
fumiyasac0921
0
150
Definition of Done
kawaguti
PRO
6
470
25分で解説する「最小権限の原則」を実現するための AWS「ポリシー」大全
opelab
10
2.3k
Amazon Bedrockで実現する 新たな学習体験
kzkmaeda
1
410
2025/6/21 日本学術会議公開シンポジウム発表資料
keisuke198619
2
480
Snowflake Summit 2025 データエンジニアリング関連新機能紹介 / Snowflake Summit 2025 What's New about Data Engineering
tiltmax3
0
260
TechLION vol.41~MySQLユーザ会のほうから来ました / techlion41_mysql
sakaik
0
160
PHP開発者のためのSOLID原則再入門 #phpcon / PHP Conference Japan 2025
shogogg
2
470
AWS テクニカルサポートとエンドカスタマーの中間地点から見えるより良いサポートの活用方法
kazzpapa3
1
120
成立するElixirの再束縛(再代入)可という選択
kubell_hr
0
960
Featured
See All Featured
Faster Mobile Websites
deanohume
307
31k
Facilitating Awesome Meetings
lara
54
6.4k
The Language of Interfaces
destraynor
158
25k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
281
13k
Rails Girls Zürich Keynote
gr2m
94
14k
Why You Should Never Use an ORM
jnunemaker
PRO
56
9.4k
Into the Great Unknown - MozCon
thekraken
39
1.9k
GraphQLとの向き合い方2022年版
quramy
46
14k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Making the Leap to Tech Lead
cromwellryan
134
9.3k
BBQ
matthewcrist
89
9.7k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
137
34k
Transcript
© LayerX Inc. C on fid en tial バクラクでのSystem Risk
Records導⼊による 変化と改善の取り組み 2025/03/25 多⽥貞剛(@taddy_919) LayerX SRE & Cloud Native Night!
© LayerX Inc. 2 バクラク事業部 PlatformEngineering部 SREチーム 多⽥ 貞剛 (Sadayoshi
Tada)/ taddy ⾃⼰紹介 • SIerやスタートアップを経て5社⽬ ◦ 2022/03〜 株式会社LayerX SNS 𝕏 taddy_919 tasogare0919
© LayerX Inc. 3 本発表の前提 本発表の前提 • 本発表は以前発表した内容の続きになります • 前回の発表をさらいつつ、最近の取り組みを共有させていただきま
す
目次 Agenda 1. 定期モニタリングにおける課題 2. System Risk Recordsとは 3. 導⼊時に⾏ったこと
4. 導⼊後の運⽤状況や改善事例紹介 5. まとめ
定期モニタリングにおける課題
© LayerX Inc. 6 以前の定期システムモニタリング運⽤イメージ 定期システムモニタリングにおける課題 定期的にシステムのメトリクスやログを確認し、怪しい挙動があった場 合、Slackへの投稿やバックログに積んでいた
© LayerX Inc. 7 運⽤で感じていた課題感 定期システムモニタリングにおける課題 • Slackで調査するメンバーがアサインされた際、対応ステータスが⾒ えづらかった •
バックログに追加する時、バックログに載せるべきかを判断するプ ロセスがなく取り急ぎ追加し、対応のアイテムが積み上がっていた • 対応した結果を共有されるが他のメンバーはどんな対応したかは⼤ まかに把握しているものの、どういう調査や修正の判断をしたかは ⾒えづらかった
System Risk Recordsとは
9 © LayerX Inc. System Risk Recordsとは System Risk Recordsとは
• SRE NEXT 2024で株式会社diniiの浦⼭さんが紹介された取り組み ◦ 発表資料 ◦ Zennの記事 ◦ Youtube • Google SpreadsheetとGoogle Docsでのテンプレートが公開されてい る
10 © LayerX Inc. System Risk Recordsの紹介 [Template] System Risk
Records より引⽤ System Risk Recordsのイメージ(⼀覧画⾯)
11 © LayerX Inc. System Risk Recordsの紹介 [Template] System Risk
Records より引⽤ System Risk Recordsのイメージ(詳細画⾯) • 概要 • リスクの認知〜原因特定までのログ • 原因 • 対策⽅針 • 対策ログ • Next Action
12 © LayerX Inc. 発表を聞いての所感 System Risk Recordsとは • 弊社でもdiniiさんと同様にNotionを使っており、発表を参考に
System Risk Recordsを取り⼊れやすいと感じた • 当時プロダクトの定期モニタリングで抱えていた課題に対する改善と して参考になった ◦ 関わりのあるプロダクトチームの運⽤の中に取り込むことにした
導⼊時に⾏ったこと
© LayerX Inc. 14 System Risk Records導⼊にあたって⾏ったこと 導⼊時に⾏ったこと • リスクを起票する、Notionテンプレートとリスクを可視化する、
Notionデータベースを⽤意 • System Risk Recordsの起票および状況を確認する、定期イベントを プロダクトチームと策定 ◦ 週次でエラーログやシステムメトリクスをプロダクトチーム主体 で確認‧調査する時間を持っているので、その時間に⾏うことに した
© LayerX Inc. 15 Notionデータベースのイメージ 導⼊時に⾏ったこと
© LayerX Inc. 16 Notionのアイテムプロパティのイメージ 導⼊時に⾏ったこと • 公開済みテンプレートをベースに 設定した •
追加したプロパティとして以下が ある ◦ DatadogのURL ◦ 調査後修正する対象のバックロ グのリンク ◦ ポストモーテム後のアクション アイテムのリンク
© LayerX Inc. 17 Notionテンプレートイメージ 導⼊時に⾏ったこと • こちらもテンプレートをベー スに記載する項⽬を設定した ◦
概要 ◦ リスクの認知〜原因特定ま でのログ ◦ 原因 ◦ 対策 ◦ Next Action
© LayerX Inc. 18 System Risk Records導入で改善できたこと 導入時に行ったこと • アサインメンバーの対応状況がNotionに残るようになった
◦ 調査後修正を行う場合、バックログで対応を行うフローができた ◦ 後から見た時に他の関係者が調査・修正のプロセスを確認できるよう になった • 異常な挙動に対する調査・修正に対して、今後のリスクとその優先度が 可視化されるようになった
導⼊後の運⽤や改善事例紹介
© LayerX Inc. 20 作った運⽤フローでの課題 導⼊後の運⽤や改善事例紹介 • リスクの粒度が細かすぎたり、短期で調査‧解消できるリスクを積ん でもらった結果、登録されたアイテムが1ヶ⽉強ほどで約50件になっ ていた
• System Risk Recordsの起票と確認を週次で⾏っていたが、プロダク トチームの負担になっていた
© LayerX Inc. 21 プロダクトチームと⾏った、運⽤の⾒直し 導⼊後の運⽤や改善事例紹介 • System Risk Recordsに登録するアイテムの⽅針をプロダクトチーム
とすり合わせした ◦ 短期的に修正することが明らかなことはバックログで扱う ◦ 短期的な調査で原因究明ができず、中⻑期的に原因と対策を検討す るリスクを登録する • System Risk Recordsの起票は任意のタイミングで実施し、確認を⽉ 次に変更 • System Risk Recordsの棚卸し ◦ 昨年末に緊急度が低かったり、中⻑期で注視すべきリスクではない ものを整理した
© LayerX Inc. 22 運⽤によって起こった変化 導⼊後の運⽤や改善事例紹介 • 個別メンバーの暗黙知になっていた事象をチーム全体で認識する動き がでてきた ◦
チームでどう問題に対応するかを考える場になっている • プロダクトチームの慣習の中にリスクの⾃律的な管理‧登録
© LayerX Inc. 23 System Risk Recordsの運⽤から⽣まれた改善 導⼊後の運⽤や改善事例紹介 • プロダクトチームが関与する、サブシステ
ムでメモリ増加を観測したが、短期的な調 査で原因を特定できなかった ◦ System Risk Recordsに登録して注視する ようにした • メモリ増加の詳細な調査を⾏うために Datadog APMやProfilerを導⼊ • その後、継続的なアイテム状況確認でメモ リ増加傾向の調査を⾏い、原因を特定でき つつある
© LayerX Inc. 24 現状の課題 導⼊後の運⽤や改善事例紹介 • ⼀定運⽤が回り始めているが、課題もある ◦ 特定のメンバーにアサインが偏ってしまってしまい、進捗が滞る場合
がある ▪ 対応の優先度を上げるためにメンバーアサインを変更相談したり、状況 確認を⼊れている
© LayerX Inc. 25 今後の展望 導⼊後の運⽤や改善事例紹介 • 今後の展望としてプロダクトのロードマップ検討にも参照してもらえ るような連携を果たしていきたい ◦
プロダクトの中⻑期計画を検討する際に、参照してもらって役⽴つも のに育てていきたい
まとめ
© LayerX Inc. 27 • System Risk Recordsを継続的に取り組んでみての振り返りと得られ たことをお話しました •
プロダクトチームと協同で改善に取り組む⼿法として良いと感じてい るため、今後も継続して取り組みます まとめ まとめ