Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
バクラクでのSystem Risk Records導入による変化と改善の取り組み/Change...
Search
SadayoshiTada
March 25, 2025
Technology
0
720
バクラクでのSystem Risk Records導入による変化と改善の取り組み/Changes and Improvement Initiatives Resulting from the Implementation of System Risk Records
2025/03/25開催のLayerX SRE & Cloud Native Night!発表資料です。
SadayoshiTada
March 25, 2025
Tweet
Share
More Decks by SadayoshiTada
See All by SadayoshiTada
システムのアラート調査をサポートするAI Agentの紹介/Introduction to an AI Agent for System Alert Investigation
taddy_919
2
2.7k
プロダクトチームへのSystem Risk Records導入・運用事例の紹介/Introduction and Case Studies on Implementing and Operating System Risk Records for Product Teams
taddy_919
1
1.2k
開発者が安心して実行可能なSQL実行基盤の取り組み/Initiatives for a Secure SQL Execution Platform for Developers
taddy_919
2
9k
バックアップのリストア検証が可能な AWS Backup Restore testing を使ってみた/AWS Backup Restore testing, which enables backup restore verification
taddy_919
0
720
今日から実践!継続的に自分の軌跡を残す方法/Start practicing today! How to Continuously Keep Track of Yourself
taddy_919
0
3.8k
スタートアップ企業での散乱した システムリリースフローをととのえる話/Maintain the system release flow
taddy_919
1
4.3k
スタートアップ企業でのデータ活用に向けての取り組み/Working with Startups to Leverage Data
taddy_919
0
3.5k
スタートアップ企業でのAWS マルチアカウント運用の実践と普及/Practice and dissemination of AWS multi-account operation in a start-up company
taddy_919
1
5.7k
AWS Organizations と一緒にはじめるアカウント分離/Starting Account Separation with AWS Organaizations
taddy_919
0
2.1k
Other Decks in Technology
See All in Technology
AI駆動開発を事業のコアに置く
tasukuonizawa
1
1.5k
Claude Code for NOT Programming
kawaguti
PRO
1
260
Claude Code で画面の仕様書を作ろう
zozotech
PRO
0
250
通話データから価値を生む 生成AIデータ基盤の実践 / CO-LAB_Tech_Night
sansan_randd
0
110
React 19時代のコンポーネント設計ベストプラクティス
uhyo
9
3.3k
Prox Industries株式会社 会社紹介資料
proxindustries
0
210
Azure Copilot Migration Agent / #jazug
koudaiii
1
170
xDS を活用したサービスディスカバリーで実現するブランチ別 QA 環境の構築手法
knwoop
1
120
登壇駆動学習のすすめ — CfPのネタの見つけ方と書くときに意識していること
bicstone
3
200
生成AIを活用した音声文字起こしシステムの2つの構築パターンについて
miu_crescent
PRO
3
250
デザインもAIに任せる!iPhoneで行うiOS開発
zozotech
PRO
0
240
プロポーザルに込める段取り八分
shoheimitani
2
790
Featured
See All Featured
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
140
The Spectacular Lies of Maps
axbom
PRO
1
540
Accessibility Awareness
sabderemane
0
63
How to Ace a Technical Interview
jacobian
281
24k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
180
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
330
GraphQLとの向き合い方2022年版
quramy
50
14k
エンジニアに許された特別な時間の終わり
watany
106
230k
The Language of Interfaces
destraynor
162
26k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1k
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
93
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
1.8k
Transcript
© LayerX Inc. C on fid en tial バクラクでのSystem Risk
Records導⼊による 変化と改善の取り組み 2025/03/25 多⽥貞剛(@taddy_919) LayerX SRE & Cloud Native Night!
© LayerX Inc. 2 バクラク事業部 PlatformEngineering部 SREチーム 多⽥ 貞剛 (Sadayoshi
Tada)/ taddy ⾃⼰紹介 • SIerやスタートアップを経て5社⽬ ◦ 2022/03〜 株式会社LayerX SNS 𝕏 taddy_919 tasogare0919
© LayerX Inc. 3 本発表の前提 本発表の前提 • 本発表は以前発表した内容の続きになります • 前回の発表をさらいつつ、最近の取り組みを共有させていただきま
す
目次 Agenda 1. 定期モニタリングにおける課題 2. System Risk Recordsとは 3. 導⼊時に⾏ったこと
4. 導⼊後の運⽤状況や改善事例紹介 5. まとめ
定期モニタリングにおける課題
© LayerX Inc. 6 以前の定期システムモニタリング運⽤イメージ 定期システムモニタリングにおける課題 定期的にシステムのメトリクスやログを確認し、怪しい挙動があった場 合、Slackへの投稿やバックログに積んでいた
© LayerX Inc. 7 運⽤で感じていた課題感 定期システムモニタリングにおける課題 • Slackで調査するメンバーがアサインされた際、対応ステータスが⾒ えづらかった •
バックログに追加する時、バックログに載せるべきかを判断するプ ロセスがなく取り急ぎ追加し、対応のアイテムが積み上がっていた • 対応した結果を共有されるが他のメンバーはどんな対応したかは⼤ まかに把握しているものの、どういう調査や修正の判断をしたかは ⾒えづらかった
System Risk Recordsとは
9 © LayerX Inc. System Risk Recordsとは System Risk Recordsとは
• SRE NEXT 2024で株式会社diniiの浦⼭さんが紹介された取り組み ◦ 発表資料 ◦ Zennの記事 ◦ Youtube • Google SpreadsheetとGoogle Docsでのテンプレートが公開されてい る
10 © LayerX Inc. System Risk Recordsの紹介 [Template] System Risk
Records より引⽤ System Risk Recordsのイメージ(⼀覧画⾯)
11 © LayerX Inc. System Risk Recordsの紹介 [Template] System Risk
Records より引⽤ System Risk Recordsのイメージ(詳細画⾯) • 概要 • リスクの認知〜原因特定までのログ • 原因 • 対策⽅針 • 対策ログ • Next Action
12 © LayerX Inc. 発表を聞いての所感 System Risk Recordsとは • 弊社でもdiniiさんと同様にNotionを使っており、発表を参考に
System Risk Recordsを取り⼊れやすいと感じた • 当時プロダクトの定期モニタリングで抱えていた課題に対する改善と して参考になった ◦ 関わりのあるプロダクトチームの運⽤の中に取り込むことにした
導⼊時に⾏ったこと
© LayerX Inc. 14 System Risk Records導⼊にあたって⾏ったこと 導⼊時に⾏ったこと • リスクを起票する、Notionテンプレートとリスクを可視化する、
Notionデータベースを⽤意 • System Risk Recordsの起票および状況を確認する、定期イベントを プロダクトチームと策定 ◦ 週次でエラーログやシステムメトリクスをプロダクトチーム主体 で確認‧調査する時間を持っているので、その時間に⾏うことに した
© LayerX Inc. 15 Notionデータベースのイメージ 導⼊時に⾏ったこと
© LayerX Inc. 16 Notionのアイテムプロパティのイメージ 導⼊時に⾏ったこと • 公開済みテンプレートをベースに 設定した •
追加したプロパティとして以下が ある ◦ DatadogのURL ◦ 調査後修正する対象のバックロ グのリンク ◦ ポストモーテム後のアクション アイテムのリンク
© LayerX Inc. 17 Notionテンプレートイメージ 導⼊時に⾏ったこと • こちらもテンプレートをベー スに記載する項⽬を設定した ◦
概要 ◦ リスクの認知〜原因特定ま でのログ ◦ 原因 ◦ 対策 ◦ Next Action
© LayerX Inc. 18 System Risk Records導入で改善できたこと 導入時に行ったこと • アサインメンバーの対応状況がNotionに残るようになった
◦ 調査後修正を行う場合、バックログで対応を行うフローができた ◦ 後から見た時に他の関係者が調査・修正のプロセスを確認できるよう になった • 異常な挙動に対する調査・修正に対して、今後のリスクとその優先度が 可視化されるようになった
導⼊後の運⽤や改善事例紹介
© LayerX Inc. 20 作った運⽤フローでの課題 導⼊後の運⽤や改善事例紹介 • リスクの粒度が細かすぎたり、短期で調査‧解消できるリスクを積ん でもらった結果、登録されたアイテムが1ヶ⽉強ほどで約50件になっ ていた
• System Risk Recordsの起票と確認を週次で⾏っていたが、プロダク トチームの負担になっていた
© LayerX Inc. 21 プロダクトチームと⾏った、運⽤の⾒直し 導⼊後の運⽤や改善事例紹介 • System Risk Recordsに登録するアイテムの⽅針をプロダクトチーム
とすり合わせした ◦ 短期的に修正することが明らかなことはバックログで扱う ◦ 短期的な調査で原因究明ができず、中⻑期的に原因と対策を検討す るリスクを登録する • System Risk Recordsの起票は任意のタイミングで実施し、確認を⽉ 次に変更 • System Risk Recordsの棚卸し ◦ 昨年末に緊急度が低かったり、中⻑期で注視すべきリスクではない ものを整理した
© LayerX Inc. 22 運⽤によって起こった変化 導⼊後の運⽤や改善事例紹介 • 個別メンバーの暗黙知になっていた事象をチーム全体で認識する動き がでてきた ◦
チームでどう問題に対応するかを考える場になっている • プロダクトチームの慣習の中にリスクの⾃律的な管理‧登録
© LayerX Inc. 23 System Risk Recordsの運⽤から⽣まれた改善 導⼊後の運⽤や改善事例紹介 • プロダクトチームが関与する、サブシステ
ムでメモリ増加を観測したが、短期的な調 査で原因を特定できなかった ◦ System Risk Recordsに登録して注視する ようにした • メモリ増加の詳細な調査を⾏うために Datadog APMやProfilerを導⼊ • その後、継続的なアイテム状況確認でメモ リ増加傾向の調査を⾏い、原因を特定でき つつある
© LayerX Inc. 24 現状の課題 導⼊後の運⽤や改善事例紹介 • ⼀定運⽤が回り始めているが、課題もある ◦ 特定のメンバーにアサインが偏ってしまってしまい、進捗が滞る場合
がある ▪ 対応の優先度を上げるためにメンバーアサインを変更相談したり、状況 確認を⼊れている
© LayerX Inc. 25 今後の展望 導⼊後の運⽤や改善事例紹介 • 今後の展望としてプロダクトのロードマップ検討にも参照してもらえ るような連携を果たしていきたい ◦
プロダクトの中⻑期計画を検討する際に、参照してもらって役⽴つも のに育てていきたい
まとめ
© LayerX Inc. 27 • System Risk Recordsを継続的に取り組んでみての振り返りと得られ たことをお話しました •
プロダクトチームと協同で改善に取り組む⼿法として良いと感じてい るため、今後も継続して取り組みます まとめ まとめ