Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
バクラクでのSystem Risk Records導入による変化と改善の取り組み/Change...
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
SadayoshiTada
March 25, 2025
Technology
800
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
バクラクでのSystem Risk Records導入による変化と改善の取り組み/Changes and Improvement Initiatives Resulting from the Implementation of System Risk Records
2025/03/25開催のLayerX SRE & Cloud Native Night!発表資料です。
SadayoshiTada
March 25, 2025
More Decks by SadayoshiTada
See All by SadayoshiTada
バクラクのSREにおけるAgentic AIへの挑戦/Our Journey with Agentic AI
taddy_919
2
1.7k
システムのアラート調査をサポートするAI Agentの紹介/Introduction to an AI Agent for System Alert Investigation
taddy_919
2
4.5k
プロダクトチームへのSystem Risk Records導入・運用事例の紹介/Introduction and Case Studies on Implementing and Operating System Risk Records for Product Teams
taddy_919
1
1.2k
開発者が安心して実行可能なSQL実行基盤の取り組み/Initiatives for a Secure SQL Execution Platform for Developers
taddy_919
2
9.6k
バックアップのリストア検証が可能な AWS Backup Restore testing を使ってみた/AWS Backup Restore testing, which enables backup restore verification
taddy_919
0
790
今日から実践!継続的に自分の軌跡を残す方法/Start practicing today! How to Continuously Keep Track of Yourself
taddy_919
0
3.9k
スタートアップ企業での散乱した システムリリースフローをととのえる話/Maintain the system release flow
taddy_919
1
4.5k
スタートアップ企業でのデータ活用に向けての取り組み/Working with Startups to Leverage Data
taddy_919
0
3.6k
スタートアップ企業でのAWS マルチアカウント運用の実践と普及/Practice and dissemination of AWS multi-account operation in a start-up company
taddy_919
1
5.9k
Other Decks in Technology
See All in Technology
エラーバジェットのアラートのタイミングを考える.pdf
kairim0
0
180
スタートアップにAmazon EKSは早すぎる? マルチプロダクト戦略を加速する Platform Engineeringの実践 / Is Amazon EKS Too Soon for Startups? Practical Platform Engineering to Accelerate a Multi-Product Strategy
elmodev09
1
490
Claude Codeをどのように キャッチアップしているか
oikon48
13
8.6k
現地で盛り上がった WWDC26 Keynote
zozotech
PRO
1
270
2026TECHFRESH畢業分享會 - Lightning Talk - 打造精準高效的 MCP 設計模式與測試實務
line_developers_tw
PRO
0
1.3k
脆弱性対応、どこで線を引くか
rymiyamoto
1
420
OTel × Datadog で 「AI活用」を計測し、改善に繋げる
shihochan
2
450
[チョークトーク資料]AWS DevOps Agent を使いこなす / AWS Dev Ops Agent Chalk Talk AWS Summit Japan 2026
kinunori
3
600
FPGAの開発コンペでZephyrを使ってみた
iotengineer22
0
150
IaC コードを資産へ:AWS CDK 社内ライブラリと横断展開 / aws-summit-japan-2026
gotok365
8
1.3k
10年間のブログ発信を振り返って見えたWebアプリケーションエンジニアとしての軌跡
stefafafan
0
170
白金鉱業Meetup_Vol.24_「AIエージェントは分けるほど良い」は本当か? / Is it true that “the more you divide AI agents, the better”?
brainpadpr
1
420
Featured
See All Featured
Designing Powerful Visuals for Engaging Learning
tmiket
1
420
A Tale of Four Properties
chriscoyier
163
24k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Odyssey Design
rkendrick25
PRO
2
700
Designing for Performance
lara
611
70k
Everyday Curiosity
cassininazir
0
230
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
600
Agile that works and the tools we love
rasmusluckow
331
21k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
How STYLIGHT went responsive
nonsquared
100
6.2k
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
860
Ethics towards AI in product and experience design
skipperchong
2
310
Transcript
© LayerX Inc. C on fid en tial バクラクでのSystem Risk
Records導⼊による 変化と改善の取り組み 2025/03/25 多⽥貞剛(@taddy_919) LayerX SRE & Cloud Native Night!
© LayerX Inc. 2 バクラク事業部 PlatformEngineering部 SREチーム 多⽥ 貞剛 (Sadayoshi
Tada)/ taddy ⾃⼰紹介 • SIerやスタートアップを経て5社⽬ ◦ 2022/03〜 株式会社LayerX SNS 𝕏 taddy_919 tasogare0919
© LayerX Inc. 3 本発表の前提 本発表の前提 • 本発表は以前発表した内容の続きになります • 前回の発表をさらいつつ、最近の取り組みを共有させていただきま
す
目次 Agenda 1. 定期モニタリングにおける課題 2. System Risk Recordsとは 3. 導⼊時に⾏ったこと
4. 導⼊後の運⽤状況や改善事例紹介 5. まとめ
定期モニタリングにおける課題
© LayerX Inc. 6 以前の定期システムモニタリング運⽤イメージ 定期システムモニタリングにおける課題 定期的にシステムのメトリクスやログを確認し、怪しい挙動があった場 合、Slackへの投稿やバックログに積んでいた
© LayerX Inc. 7 運⽤で感じていた課題感 定期システムモニタリングにおける課題 • Slackで調査するメンバーがアサインされた際、対応ステータスが⾒ えづらかった •
バックログに追加する時、バックログに載せるべきかを判断するプ ロセスがなく取り急ぎ追加し、対応のアイテムが積み上がっていた • 対応した結果を共有されるが他のメンバーはどんな対応したかは⼤ まかに把握しているものの、どういう調査や修正の判断をしたかは ⾒えづらかった
System Risk Recordsとは
9 © LayerX Inc. System Risk Recordsとは System Risk Recordsとは
• SRE NEXT 2024で株式会社diniiの浦⼭さんが紹介された取り組み ◦ 発表資料 ◦ Zennの記事 ◦ Youtube • Google SpreadsheetとGoogle Docsでのテンプレートが公開されてい る
10 © LayerX Inc. System Risk Recordsの紹介 [Template] System Risk
Records より引⽤ System Risk Recordsのイメージ(⼀覧画⾯)
11 © LayerX Inc. System Risk Recordsの紹介 [Template] System Risk
Records より引⽤ System Risk Recordsのイメージ(詳細画⾯) • 概要 • リスクの認知〜原因特定までのログ • 原因 • 対策⽅針 • 対策ログ • Next Action
12 © LayerX Inc. 発表を聞いての所感 System Risk Recordsとは • 弊社でもdiniiさんと同様にNotionを使っており、発表を参考に
System Risk Recordsを取り⼊れやすいと感じた • 当時プロダクトの定期モニタリングで抱えていた課題に対する改善と して参考になった ◦ 関わりのあるプロダクトチームの運⽤の中に取り込むことにした
導⼊時に⾏ったこと
© LayerX Inc. 14 System Risk Records導⼊にあたって⾏ったこと 導⼊時に⾏ったこと • リスクを起票する、Notionテンプレートとリスクを可視化する、
Notionデータベースを⽤意 • System Risk Recordsの起票および状況を確認する、定期イベントを プロダクトチームと策定 ◦ 週次でエラーログやシステムメトリクスをプロダクトチーム主体 で確認‧調査する時間を持っているので、その時間に⾏うことに した
© LayerX Inc. 15 Notionデータベースのイメージ 導⼊時に⾏ったこと
© LayerX Inc. 16 Notionのアイテムプロパティのイメージ 導⼊時に⾏ったこと • 公開済みテンプレートをベースに 設定した •
追加したプロパティとして以下が ある ◦ DatadogのURL ◦ 調査後修正する対象のバックロ グのリンク ◦ ポストモーテム後のアクション アイテムのリンク
© LayerX Inc. 17 Notionテンプレートイメージ 導⼊時に⾏ったこと • こちらもテンプレートをベー スに記載する項⽬を設定した ◦
概要 ◦ リスクの認知〜原因特定ま でのログ ◦ 原因 ◦ 対策 ◦ Next Action
© LayerX Inc. 18 System Risk Records導入で改善できたこと 導入時に行ったこと • アサインメンバーの対応状況がNotionに残るようになった
◦ 調査後修正を行う場合、バックログで対応を行うフローができた ◦ 後から見た時に他の関係者が調査・修正のプロセスを確認できるよう になった • 異常な挙動に対する調査・修正に対して、今後のリスクとその優先度が 可視化されるようになった
導⼊後の運⽤や改善事例紹介
© LayerX Inc. 20 作った運⽤フローでの課題 導⼊後の運⽤や改善事例紹介 • リスクの粒度が細かすぎたり、短期で調査‧解消できるリスクを積ん でもらった結果、登録されたアイテムが1ヶ⽉強ほどで約50件になっ ていた
• System Risk Recordsの起票と確認を週次で⾏っていたが、プロダク トチームの負担になっていた
© LayerX Inc. 21 プロダクトチームと⾏った、運⽤の⾒直し 導⼊後の運⽤や改善事例紹介 • System Risk Recordsに登録するアイテムの⽅針をプロダクトチーム
とすり合わせした ◦ 短期的に修正することが明らかなことはバックログで扱う ◦ 短期的な調査で原因究明ができず、中⻑期的に原因と対策を検討す るリスクを登録する • System Risk Recordsの起票は任意のタイミングで実施し、確認を⽉ 次に変更 • System Risk Recordsの棚卸し ◦ 昨年末に緊急度が低かったり、中⻑期で注視すべきリスクではない ものを整理した
© LayerX Inc. 22 運⽤によって起こった変化 導⼊後の運⽤や改善事例紹介 • 個別メンバーの暗黙知になっていた事象をチーム全体で認識する動き がでてきた ◦
チームでどう問題に対応するかを考える場になっている • プロダクトチームの慣習の中にリスクの⾃律的な管理‧登録
© LayerX Inc. 23 System Risk Recordsの運⽤から⽣まれた改善 導⼊後の運⽤や改善事例紹介 • プロダクトチームが関与する、サブシステ
ムでメモリ増加を観測したが、短期的な調 査で原因を特定できなかった ◦ System Risk Recordsに登録して注視する ようにした • メモリ増加の詳細な調査を⾏うために Datadog APMやProfilerを導⼊ • その後、継続的なアイテム状況確認でメモ リ増加傾向の調査を⾏い、原因を特定でき つつある
© LayerX Inc. 24 現状の課題 導⼊後の運⽤や改善事例紹介 • ⼀定運⽤が回り始めているが、課題もある ◦ 特定のメンバーにアサインが偏ってしまってしまい、進捗が滞る場合
がある ▪ 対応の優先度を上げるためにメンバーアサインを変更相談したり、状況 確認を⼊れている
© LayerX Inc. 25 今後の展望 導⼊後の運⽤や改善事例紹介 • 今後の展望としてプロダクトのロードマップ検討にも参照してもらえ るような連携を果たしていきたい ◦
プロダクトの中⻑期計画を検討する際に、参照してもらって役⽴つも のに育てていきたい
まとめ
© LayerX Inc. 27 • System Risk Recordsを継続的に取り組んでみての振り返りと得られ たことをお話しました •
プロダクトチームと協同で改善に取り組む⼿法として良いと感じてい るため、今後も継続して取り組みます まとめ まとめ