Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
プロダクトチームへのSystem Risk Records導入・運用事例の紹介/Introdu...
Search
SadayoshiTada
October 30, 2024
Technology
1.2k
1
Share
プロダクトチームへのSystem Risk Records導入・運用事例の紹介/Introduction and Case Studies on Implementing and Operating System Risk Records for Product Teams
SRE NEXT 2024をふりかえって 〜学びをもとにした取り組み事例紹介〜で発表した資料です。
SadayoshiTada
October 30, 2024
More Decks by SadayoshiTada
See All by SadayoshiTada
バクラクのSREにおけるAgentic AIへの挑戦/Our Journey with Agentic AI
taddy_919
2
1.6k
システムのアラート調査をサポートするAI Agentの紹介/Introduction to an AI Agent for System Alert Investigation
taddy_919
2
4.3k
バクラクでのSystem Risk Records導入による変化と改善の取り組み/Changes and Improvement Initiatives Resulting from the Implementation of System Risk Records
taddy_919
0
760
開発者が安心して実行可能なSQL実行基盤の取り組み/Initiatives for a Secure SQL Execution Platform for Developers
taddy_919
2
9.4k
バックアップのリストア検証が可能な AWS Backup Restore testing を使ってみた/AWS Backup Restore testing, which enables backup restore verification
taddy_919
0
750
今日から実践!継続的に自分の軌跡を残す方法/Start practicing today! How to Continuously Keep Track of Yourself
taddy_919
0
3.9k
スタートアップ企業での散乱した システムリリースフローをととのえる話/Maintain the system release flow
taddy_919
1
4.5k
スタートアップ企業でのデータ活用に向けての取り組み/Working with Startups to Leverage Data
taddy_919
0
3.6k
スタートアップ企業でのAWS マルチアカウント運用の実践と普及/Practice and dissemination of AWS multi-account operation in a start-up company
taddy_919
1
5.8k
Other Decks in Technology
See All in Technology
ワールドカフェI /チューターを改良する / World Café I and Improving the Tutors
ks91
PRO
0
320
プラットフォームエンジニアリングの実践 - AWS コンテナサービスで構築する社内プラットフォーム / AWS Containers Platform Meetup #1
literalice
1
200
Do Vibe Coding ao LLM em Produção para Busca Agêntica - TDC 2026 - Summit IA - São Paulo
jpbonson
3
130
マルチエージェント × ハーネスエンジニアリング × GitLab Duo Agent Platformで実現する「AIエージェントに仕事をさせる時代へ。」 / 20260421 GitLab Duo Agent Platform
n11sh1
0
170
20年前の「OSS革命」に学ぶ AI時代の生存戦略
samakada
0
450
AIはハッカーを減らすのか、増やすのか?──現役ホワイトハッカーから見るAI時代のリアル【MEGU-Meet】
cscengineer
0
180
[OpsJAWS 40]リリースしたら終わり、じゃなかった。セキュリティ空白期間をAWS Security Agentで埋める
sh_fk2
3
240
Hacobu Tech Deck
hacobu
PRO
0
110
AzureのIaC管理からログ調査まで、随所に役立つSkillsとCustom-Instructions / Boosting IaC and Log Analysis with Skills
aeonpeople
0
240
社内エンジニア勉強会の醍醐味と苦しみ/tamadev
nishiuma
0
220
QGISプラグイン CMChangeDetector
naokimuroki
1
420
目的ファーストのハーネス設計 ~ハーネスの変更容易性を高めるための優先順位~
gotalab555
8
2.2k
Featured
See All Featured
ラッコキーワード サービス紹介資料
rakko
1
3.1M
How to make the Groovebox
asonas
2
2.1k
Thoughts on Productivity
jonyablonski
76
5.1k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
64
54k
The Curse of the Amulet
leimatthew05
1
11k
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
340
Game over? The fight for quality and originality in the time of robots
wayneb77
1
160
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.4k
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
Prompt Engineering for Job Search
mfonobong
0
270
Joys of Absence: A Defence of Solitary Play
codingconduct
1
350
Into the Great Unknown - MozCon
thekraken
41
2.4k
Transcript
© LayerX Inc. C on fid en tial プロダクトチームへのSystem Risk
Records 導入・運用事例の紹介 2024/10/30 多田貞剛(@taddy_919) SRE NEXT 2024を振り返って 〜学びをもとにした取り組み事例紹介〜
© LayerX Inc. 2 バクラク事業部 PlatformEngineering部 DevOpsチーム 多田 貞剛 (Sadayoshi
Tada)/ taddy 自己紹介 • SIerやスタートアップを経て5社目 ◦ 2022/03〜 株式会社LayerX SNS 𝕏 taddy_919 tasogare0919
目次 Agenda 1. 定期システムモニタリングにおける課題 2. System Risk Recordsとは 3. 弊社内での導入・運用事例紹介
4. まとめ
定期システムモニタリングにおける課題
© LayerX Inc. 5 定期システムモニタリングの運用イメージ 定期システムモニタリングにおける課題 定期的にシステムのメトリクスやログを確認し、怪しい挙動があった場 合、Slackへの投稿やバックログに積んでいた
© LayerX Inc. 6 この運用で感じていた課題感 定期システムモニタリングにおける課題 • Slackで調査するメンバーがアサインされた際、対応ステータスが 見えづらかった •
バックログに追加する時、バックログに載せるべきかを判断するプ ロセスがなく取り急ぎ追加し、対応のアイテムが積み上がっていた • 対応した結果を共有されるが他のメンバーはどんな対応したかは大 まかに把握しているものの、どういう調査や修正の判断をしたかは 見えづらかった
System Risk Recordsとは
8 © LayerX Inc. System Risk Recordsとは System Risk Recordsとは
• SRE NEXT 2024で株式会社diniiの浦山さんが紹介された取り 組み ◦ 発表資料 ◦ Zennの記事 ◦ Youtube • Google SpreadsheetとGoogle Docsでのテンプレートが公開 されている
9 © LayerX Inc. System Risk Recordsの紹介 [Template] System Risk
Records より引用 System Risk Recordsのイメージ(一覧画面)
10 © LayerX Inc. System Risk Recordsの紹介 [Template] System Risk
Records より引用 System Risk Recordsのイメージ(詳細画面) • 概要 • リスクの認知〜原因特定までのログ • 原因 • 対策方針 • 対策ログ • Next Action
11 © LayerX Inc. 発表を聞いての所感 System Risk Recordsとは • 弊社でもNotionを使っているため、発表を参考にSystem
Risk Recordsを取り入れやすいと感じた • 定期モニタリングの課題に対する改善として参考になった
弊社内での導入・運用事例紹介
© LayerX Inc. 13 弊社の運用イメージ(Notionのアイテムプロパティ) 弊社内での導入・運用事例紹介 • 公開済みテンプレートをベースに 設定した •
追加したプロパティとして以下が ある ◦ DatadogのURL ◦ 調査後修正する対象のバック ログのリンク ◦ ポストモーテム後のアクショ ンアイテムのリンク
© LayerX Inc. 14 弊社の運用イメージ(詳細画面) 弊社内での導入・運用事例紹介 • こちらもテンプレートをベース に記載する項目を設定した ◦
概要 ◦ リスクの認知〜原因特定 までのログ ◦ 原因 ◦ 対策 ◦ Next Action
© LayerX Inc. 15 System Risk Records導入後の変化や課題 弊社内での導入・運用事例紹介 • アサインメンバーの対応状況がNotionに残るようになった
◦ 調査後修正を行う場合、バックログで対応を行うフローができた ◦ どういうプロセスを経て調査・修正の対応が行われたかが関係 者が確認できるようになった • 異常な挙動に対する調査・修正に対して、今後のリスクとその優先度 が可視化されるようになった • 1ヶ月強ほど運用して約50件ほど登録されている ◦ リスクの粒度が細かすぎたり、既に恒久対応が完了しているもの もあり管理方針を見直す
まとめ
© LayerX Inc. 17 • SRE NEXT 2024で学んだ、System Risk Recordsを自社に
持ち帰って実践した事例を紹介しました • これからのやっていき!もあるので、開発チームと協力して取り組ん でいきます まとめ まとめ