Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
悩ましきインシデント管理 みてねのケース / Incident management is a...
Search
kohbis
July 31, 2024
Technology
2
830
悩ましきインシデント管理 みてねのケース / Incident management is a tough
[HRMOS (BizReach)x みてね(MIXI)] SREのお悩みぶっつけ合いLT大会
https://mixi.connpass.com/event/323752/
kohbis
July 31, 2024
Tweet
Share
More Decks by kohbis
See All by kohbis
『家族アルバム みてね』におけるAmazon EKSコストとの向き合い方 / Optimizing Amazon EKS Costs: The FamilyAlbum Case
kohbis
3
1.3k
潜在的課題探索活動の近況報告 / Exploration of latent challenges
kohbis
2
100
いま、あらためて考えてみるアカウント管理 with IaC / Account management with IaC
kohbis
3
940
〜『世界中の家族のこころのインフラ』を目指して”次の10年”へ〜 SREが導いたグローバルサービスの信頼性向上戦略とその舞台裏 / Towards the Next Decade: Enhancing Global Service Reliability
kohbis
4
4.5k
Grafana MCP serverでなんかし隊 / Try Grafana MCP server
kohbis
0
840
Custom Prometheus Exporterによる オブザーバビリティ拡張 / Extending observability with Custom Prometheus Exporter
kohbis
1
210
データベースで見る『家族アルバム みてね』の変遷 / The Evolution of Family Album Through the Lens of Databases
kohbis
5
1.5k
SREコミュニティイベントとわたし / Me and SRE community events
kohbis
2
270
サクッと試すNew Relic Kubernetes APM auto-attach / New Relic Kubernetes APM auto-attach
kohbis
0
490
Other Decks in Technology
See All in Technology
GitHub Copilot CLI 現状確認会議
torumakabe
8
2.8k
#22 CA × atmaCup 3rd 1st Place Solution
yumizu
1
220
Digitization部 紹介資料
sansan33
PRO
1
6.6k
The Engineer with a Three-Year Cycle
e99h2121
0
160
Scrum Guide Expansion Pack が示す現代プロダクト開発への補完的視点
sonjin
0
780
20260120 Amazon VPC のパブリックサブネットを無くしたい!
masaruogura
2
130
ソフトとハード両方いけるデータ人材の育て方
waiwai2111
1
530
歴史から学ぶ、Goのメモリ管理基礎
logica0419
14
2.9k
All About Sansan – for New Global Engineers
sansan33
PRO
1
1.3k
Kusakabe_面白いダッシュボードの表現方法
ykka
0
350
スクラムを一度諦めたチームにアジャイルコーチが入ってどう変化したか / A Team's Second Try at Scrum with an Agile Coach
kaonavi
0
270
RALGO : AIを組織に組み込む方法 -アルゴリズム中心組織設計- #RSGT2026 / RALGO: How to Integrate AI into an Organization – Algorithm-Centric Organizational Design
kyonmm
PRO
3
1.5k
Featured
See All Featured
GraphQLとの向き合い方2022年版
quramy
50
14k
The Mindset for Success: Future Career Progression
greggifford
PRO
0
220
Product Roadmaps are Hard
iamctodd
PRO
55
12k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
0
240
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.9k
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
69
Art, The Web, and Tiny UX
lynnandtonic
304
21k
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
1
370
Statistics for Hackers
jakevdp
799
230k
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
150
Facilitating Awesome Meetings
lara
57
6.7k
Building AI with AI
inesmontani
PRO
1
640
Transcript
悩ましき インシデント管理 @kohbis [HRMOS (BizReach)x みてね(MIXI)] SREのお悩みぶっつけ合いLT大会 2024/07/31
About Me Kohei SUGIMOTO 株式会社MIXI 2022/04 ~『家族アルバム みてね』 SRE X
: @kohbis 2/16 SRE NEXT 2024はMIXIのスポンサーブースにもぜひお越しください!!!
Agenda 1. 「インシデント管理」とは 2. 『家族アルバム みてね』におけるインシデント対応フロー(ざっくり) 3. 悩ましきその①〜④ 4. まとめ
3/16
「インシデント管理」とは • 「インシデント」とは ◦ 「アクシデント(事故)」が発生する前の状況 ◦ 今回は「サービスにおける定義(アラート閾値など)から逸脱した状態」とする SRE本 14章『インシデント管理』より ※1
• “効率的なインシデント管理は、インシデントによって引き起こされる混乱を制限し、 できる限り早く通常の運用に復帰させるための鍵” • “インシデント管理のスキルとプラクティスは、熱意ある個々人のエネルギーを正しい 方向に向けるために存在する” 4/16 ※1 https://www.oreilly.co.jp/books/9784873117911/
『家族アルバム みてね』におけるインシデント対応フロー(ざっくり) 5/16 完了 終息宣言 恒久対応/振り返り 対応 主に暫定対応 切り戻し/緩和 調査
アラート確認 エスカレーション 検知 PagerDuty/Slack オンコール制度については 『家族アルバム みてね』を支えるオンコールエンジニア制度
悩ましきその①
悩ましきその① ランブックの作成・整備不足 理想 • 頻繁に発生する対応はランブック • アラートメッセージにランブックURLがリンクされている 現実 • アラート内容を確認して、慣例的な対処療法
• 「あれ、どこにあったっけ」と社内ドキュメントを検索 できていること • 対応手順の整備は順次実施 • 一部はランブックURLがリンクされている 7/16
悩ましきその②
悩ましきその② 原因調査・特定までの手段が属人的 理想 • 誰が対応してもまず確認するべきもの(ログやメトリクス)が決まっている • 原因となった変更が即座に特定できる 現実 • 「何を確認するか」「どう捉えるか」が属人的
• 都度関連していそうなリポジトリの変更や開発チームに確認 できていること • 一部は手順化されている • 「すぐにエスカレーション」が根付いており (場合によっては)即座に担当チームがロールバック 9/16
悩ましきその③
悩ましきその③ インシデントコマンダー不在 理想 • インシデントコマンダー(「作業」せずに「意思決定」することが役割)が旗振り • ウォールーム(対応指揮室)で統制 現実 • Slackのアラート通知チャンネルでそのまま会話してしまいがち
• 何度目かの「あれ、いま誰がなにやってるんでしたっけ?」 できていること • 最低限決まっていること(エスカレーションなど)は実施 • 作業、確認作業について順次Slackに投稿 • (誰かが言い出せば)対応専用のSlackチャンネルを作成 11/16
悩ましきその④
悩ましきその④ ポストモーテム作成が後回し 理想 • ライブインシデント状況ドキュメントが作成されている • インシデントの対応内容からポストモーテムが(自動)生成される 現実 • とにかく暫定対応が優先されて後回し
• 対応が落ち着いた、完全復旧待ちの時間で作成 できていること • テンプレートが全体に共有され、随時改善 • SREチームだけでなく(インシデントの規模に関わらず) ポストモーテムを書く文化が根付いている 13/16
まとめ
まとめ • 『家族アルバム みてね』の場合、対処療法になっている部分が多い。 • インシデント対応中は復旧が最優先。 明確に場を作らなければ振り返らない • このスライド作成時にチーム内にヒアリングしてあらためて出てきた課題もあった •
あくまでも「できる限り早く通常の運用に復帰させる」(再掲)ことが前提 • インシデント管理フローを改善することによるさらなるメリット ◦ 新メンバーのキャッチアップ/SREチーム以外への移譲 ◦ ランブック作成/整備 恒久対応/自動復旧 やっていき!!!(たい...) 15/16
None