Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
悩ましきインシデント管理 みてねのケース / Incident management is a...
Search
kohbis
July 31, 2024
Technology
2
810
悩ましきインシデント管理 みてねのケース / Incident management is a tough
[HRMOS (BizReach)x みてね(MIXI)] SREのお悩みぶっつけ合いLT大会
https://mixi.connpass.com/event/323752/
kohbis
July 31, 2024
Tweet
Share
More Decks by kohbis
See All by kohbis
潜在的課題探索活動の近況報告 / Exploration of latent challenges
kohbis
2
85
いま、あらためて考えてみるアカウント管理 with IaC / Account management with IaC
kohbis
3
870
〜『世界中の家族のこころのインフラ』を目指して”次の10年”へ〜 SREが導いたグローバルサービスの信頼性向上戦略とその舞台裏 / Towards the Next Decade: Enhancing Global Service Reliability
kohbis
3
3.7k
Grafana MCP serverでなんかし隊 / Try Grafana MCP server
kohbis
0
760
Custom Prometheus Exporterによる オブザーバビリティ拡張 / Extending observability with Custom Prometheus Exporter
kohbis
1
180
データベースで見る『家族アルバム みてね』の変遷 / The Evolution of Family Album Through the Lens of Databases
kohbis
5
1.4k
SREコミュニティイベントとわたし / Me and SRE community events
kohbis
2
250
サクッと試すNew Relic Kubernetes APM auto-attach / New Relic Kubernetes APM auto-attach
kohbis
0
440
サービス成長と共に肥大化するモノレポ、長くなるCI時間 / As services grow, monorepos get bigger and CI time gets longer
kohbis
5
3.2k
Other Decks in Technology
See All in Technology
re:Invent2025 事前勉強会 歴史と愉しみ方10分LT編
toshi_atsumi
0
180
AIを前提に、業務を”再構築”せよ IVRyの9ヶ月にわたる挑戦と未来の働き方 (BTCONJP2025)
yueda256
1
790
[mercari GEARS 2025] Building Foundation for Mercari’s Global Expansion
mercari
PRO
1
150
ステートレスなLLMでステートフルなAI agentを作る - YAPC::Fukuoka 2025
gfx
8
1.4k
[CV勉強会@関東 ICCV2025] WoTE: End-to-End Driving with Online Trajectory Evaluation via BEV World Model
shinkyoto
0
280
大規模プロダクトで実践するAI活用の仕組みづくり
k1tikurisu
4
1.6k
AS59105におけるFreeBSD EtherIPの運用と課題
x86taka
0
170
Service Monitoring Platformについて
lycorptech_jp
PRO
0
320
未回答質問の回答一覧 / 開発をリードする品質保証 QAエンジニアと開発者の未来を考える-Findy Online Conference -
findy_eventslides
0
320
ECS組み込みのBlue/Greenデプロイを動かしてELB側の動きを観察してみる
yuki_ink
2
220
JavaScript パーサーに using 対応をする過程で与えたエコシステムへの影響
baseballyama
1
110
2ヶ月で新規事業のシステムを0から立ち上げるスタートアップの舞台裏
shmokmt
0
240
Featured
See All Featured
Producing Creativity
orderedlist
PRO
348
40k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
670
RailsConf 2023
tenderlove
30
1.3k
Making Projects Easy
brettharned
120
6.5k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Practical Orchestrator
shlominoach
190
11k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.6k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
31
2.7k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Transcript
悩ましき インシデント管理 @kohbis [HRMOS (BizReach)x みてね(MIXI)] SREのお悩みぶっつけ合いLT大会 2024/07/31
About Me Kohei SUGIMOTO 株式会社MIXI 2022/04 ~『家族アルバム みてね』 SRE X
: @kohbis 2/16 SRE NEXT 2024はMIXIのスポンサーブースにもぜひお越しください!!!
Agenda 1. 「インシデント管理」とは 2. 『家族アルバム みてね』におけるインシデント対応フロー(ざっくり) 3. 悩ましきその①〜④ 4. まとめ
3/16
「インシデント管理」とは • 「インシデント」とは ◦ 「アクシデント(事故)」が発生する前の状況 ◦ 今回は「サービスにおける定義(アラート閾値など)から逸脱した状態」とする SRE本 14章『インシデント管理』より ※1
• “効率的なインシデント管理は、インシデントによって引き起こされる混乱を制限し、 できる限り早く通常の運用に復帰させるための鍵” • “インシデント管理のスキルとプラクティスは、熱意ある個々人のエネルギーを正しい 方向に向けるために存在する” 4/16 ※1 https://www.oreilly.co.jp/books/9784873117911/
『家族アルバム みてね』におけるインシデント対応フロー(ざっくり) 5/16 完了 終息宣言 恒久対応/振り返り 対応 主に暫定対応 切り戻し/緩和 調査
アラート確認 エスカレーション 検知 PagerDuty/Slack オンコール制度については 『家族アルバム みてね』を支えるオンコールエンジニア制度
悩ましきその①
悩ましきその① ランブックの作成・整備不足 理想 • 頻繁に発生する対応はランブック • アラートメッセージにランブックURLがリンクされている 現実 • アラート内容を確認して、慣例的な対処療法
• 「あれ、どこにあったっけ」と社内ドキュメントを検索 できていること • 対応手順の整備は順次実施 • 一部はランブックURLがリンクされている 7/16
悩ましきその②
悩ましきその② 原因調査・特定までの手段が属人的 理想 • 誰が対応してもまず確認するべきもの(ログやメトリクス)が決まっている • 原因となった変更が即座に特定できる 現実 • 「何を確認するか」「どう捉えるか」が属人的
• 都度関連していそうなリポジトリの変更や開発チームに確認 できていること • 一部は手順化されている • 「すぐにエスカレーション」が根付いており (場合によっては)即座に担当チームがロールバック 9/16
悩ましきその③
悩ましきその③ インシデントコマンダー不在 理想 • インシデントコマンダー(「作業」せずに「意思決定」することが役割)が旗振り • ウォールーム(対応指揮室)で統制 現実 • Slackのアラート通知チャンネルでそのまま会話してしまいがち
• 何度目かの「あれ、いま誰がなにやってるんでしたっけ?」 できていること • 最低限決まっていること(エスカレーションなど)は実施 • 作業、確認作業について順次Slackに投稿 • (誰かが言い出せば)対応専用のSlackチャンネルを作成 11/16
悩ましきその④
悩ましきその④ ポストモーテム作成が後回し 理想 • ライブインシデント状況ドキュメントが作成されている • インシデントの対応内容からポストモーテムが(自動)生成される 現実 • とにかく暫定対応が優先されて後回し
• 対応が落ち着いた、完全復旧待ちの時間で作成 できていること • テンプレートが全体に共有され、随時改善 • SREチームだけでなく(インシデントの規模に関わらず) ポストモーテムを書く文化が根付いている 13/16
まとめ
まとめ • 『家族アルバム みてね』の場合、対処療法になっている部分が多い。 • インシデント対応中は復旧が最優先。 明確に場を作らなければ振り返らない • このスライド作成時にチーム内にヒアリングしてあらためて出てきた課題もあった •
あくまでも「できる限り早く通常の運用に復帰させる」(再掲)ことが前提 • インシデント管理フローを改善することによるさらなるメリット ◦ 新メンバーのキャッチアップ/SREチーム以外への移譲 ◦ ランブック作成/整備 恒久対応/自動復旧 やっていき!!!(たい...) 15/16
None