Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
"君は見ているが観察していない"で考えるインシデントマネジメント
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
gr1m0h
November 09, 2024
Technology
3.9k
4
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
"君は見ているが観察していない"で考えるインシデントマネジメント
gr1m0h
November 09, 2024
More Decks by gr1m0h
See All by gr1m0h
サービス影響を出さずにWafCharmを導入する
grimoh
0
110
インシデント対応入門
grimoh
8
6.5k
フルリモートを支える技術
grimoh
0
110
マイクロモビリティシェアサービスを支える プラットフォームアーキテクチャ
grimoh
1
680
Enabling Client-side SLO
grimoh
7
5.6k
Luupの開発組織におけるインシデントマネジメントの変遷 ver.RoadtoSRENEXT2024
grimoh
2
1.2k
Luupの開発組織におけるインシデントマネジメントの変遷
grimoh
2
1.9k
IoTサービスにおけるSLI設計とLUUPでの実践
grimoh
1
2.4k
Luupの開発組織におけるインシデントマネジメントのこれから
grimoh
2
1.5k
Other Decks in Technology
See All in Technology
RSA暗号を手計算したくなること、ありますよね?? (20260615_orestudy6_rsa)
thousanda
0
120
作って終わりにしない タイミーのセマンティックレイヤー育成の現在地
chanyou0311
3
2k
失敗を経て、Harness Engineering で 大切にしたいことを考える / Learning from Failure: What Matters in Harness Engineering
bitkey
PRO
1
240
DevOps Agentで始めるAWS運用 〜フロンティアエージェントが変える運用の現場〜
nyankotaro
1
360
地球に⽣きるAI —GeoAIと「中間領域」— / AI Living on Earth — GeoAI and the “Intermediate Layer” —
ykiyota
0
170
Dario Amodi『Policy on the AI Exponential』を理解する
nagatsu
0
210
2026TECHFRESH畢業分享會 - Lightning Talk - 打造精準高效的 MCP 設計模式與測試實務
line_developers_tw
PRO
0
600
FDE という解 ― 暗黙知と明示知をつなぐ、伴走型エンジニアリング ―
otanet
0
110
2026TECHFRESH畢業分享會 - AI 時代的人生存檔點
line_developers_tw
PRO
0
610
非定型業務をAI slackbotで自動化する ~ 社内要望を自動壁打ちするbotを作った ~/automating-ad-hoc-work-with-ai-slackbot
shibayu36
0
560
実装は速くなった、レビューはどうする? ― 自身のレビューをAIで再現させるサーヴァントエンジニアリングのすゝめ / Implementation got faster. So what about reviews? — An invitation to Servant Engineering: Recreating your own code reviews with AI
nrslib
8
4.5k
Bucharest Tech Week 2026 - Reinventing testing practices in the AI era
edeandrea
PRO
1
130
Featured
See All Featured
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
720
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4.2k
From π to Pie charts
rasagy
0
200
Stop Working from a Prison Cell
hatefulcrawdad
274
21k
Optimising Largest Contentful Paint
csswizardry
37
3.7k
エンジニアに許された特別な時間の終わり
watany
107
250k
What does AI have to do with Human Rights?
axbom
PRO
1
2.2k
Marketing to machines
jonoalderson
1
5.4k
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
2
390
Building Flexible Design Systems
yeseniaperezcruz
330
40k
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
170
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
440
Transcript
機密・専有情報 株式会社Luupによる個別の明示的な承諾を得ることなく、この資料を使用することを固く禁じます。 Wataru Tsuda / gr1m0h 2024.11.09 オープンセミナー2024@広島 “君は見ているが観察していない” で考えるインシデントマネジメント
Luup, Inc. - Confidential and Proprietary 2 whoami Wataru Tsuda
/ gr1m0h SWE / Reliability Engineer @Luup,inc. 担当領域:SLO, Incident Management 広島商船高専→東京で6年くらい→Luup SRE歴: 5年弱 SRE, Platform Engineeringの勉強会/カン ファレンスの運営をやってます(した)
Luup, Inc. - Confidential and Proprietary 3 #OSH2024
Luup, Inc. - Confidential and Proprietary 4 1. “君は見ているが観察していない” 2.
SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
Luup, Inc. - Confidential and Proprietary 5 1. “君は見ているが観察していない” 2.
SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
機密・専有情報 株式会社Luupによる個別の明示的な承諾を得ることなく、この資料を使用することを固く禁じます。 Wataru Tsuda / gr1m0h 2024.11.09 オープンセミナー2024@広島 “君は見ているが観察していない” で考えるインシデントマネジメント
Luup, Inc. - Confidential and Proprietary 7 “君は見ているが観察していない” 「きみは確かに見てはいる。だが観察はしない。見るのと観察するのとでは、大違いなんだ。たとえばの 話、この家の玄関からこの部屋まで上がってくる階段、きみは何度も見ているだろう」
アーサー・コナン・ドイル、ボヘミアの醜聞 https://www.tsogen.co.jp/np/isbn/9784488101169
Luup, Inc. - Confidential and Proprietary 8 “君は見ているが観察していない” → 表面的な事実をただ見るだけではなく、深く観察し、本質や隠れた意味を理解すること
この考え方は、ソフトウェアエンジニアとして以下のような場面で活きてきた - インシデントレスポンス、ソフトウェアやコードのエラー解決 - コード・アーキテクチャレビュー - キャパシティプランニングとスケーリング - パフォーマンスチューニング → “インシデントマネジメント” においても重要! 「きみは確かに見てはいる。だが観察はしない。見るのと観察するのとでは、大違いなんだ。たとえばの 話、この家の玄関からこの部屋まで上がってくる階段、きみは何度も見ているだろう」 アーサー・コナン・ドイル、ボヘミアの醜聞 https://www.tsogen.co.jp/np/isbn/9784488101169
Luup, Inc. - Confidential and Proprietary 9 インシデントマネジメントとは? インシデントマネジメントとは? -
予期せぬサービスの中断や品質低下といったインシデントが発生した場合に、迅速かつ効果的に対応 するためのプロセスと体制 - 「インシデントの速やかな解決、システムやサービスを運用する担当者の負担軽減、今後のインシデ ント抑制」につながる インシデントレスポンスとは? - インシデントが発生した際、システムやサービスを迅速に復旧させるための取り組み https://www.pagerduty.co.jp/blog/what-is-incident-response https://www.pagerduty.co.jp/blog/ideal-way-to-respond-to-incidents
Luup, Inc. - Confidential and Proprietary 10 インシデントマネジメントとインシデントレスポンス
Luup, Inc. - Confidential and Proprietary 11 1. “君は見ているが観察していない” 2.
SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
Luup, Inc. - Confidential and Proprietary 12 SREとは? rrreeeyyy SREの歩き方・進め方
https://speakerdeck.com/rrreeeyyy/sre-walk-through-procedure
Luup, Inc. - Confidential and Proprietary 13 SREにとってのインシデントマネジメント SREが実現したいのは、データドリブンな信頼性のコントロールを実現すること →インシデントがSREから一時的に信頼性のコントロールを奪う
インシデントマネジメントの効果 - 信頼性の向上と再構築 - インシデントを通じてシステムを改善、信頼性やサービスの安全性を強化 - ユーザー体験とビジネス価値の向上 - 迅速な対応と学びの活用でユーザー体験を改善し、ビジネス価値を最大化
Luup, Inc. - Confidential and Proprietary 14 1. “君は見ているが観察していない” 2.
SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
Luup, Inc. - Confidential and Proprietary 15 “観察” の難しさ インシデントマネジメントにおいて
”君は見ているが観察していない” を実践するのは容易ではない ワトスンとホームズというキャラクターを使って実践の難しさを考える - ワトスン:”観察眼” を発揮できていない人 - ホームズ:”観察眼” を発揮できている人
Luup, Inc. - Confidential and Proprietary 16 インシデントレスポンスにおける難しさ ワトスンのケース -
監視システムからのアラートやエラーメッセージを ”見て” います ホームズのケース - アラートだけでなく、システム全体のメトリクス、ログ、デプロイ情報など、 多角的に情報を ”観察” します
Luup, Inc. - Confidential and Proprietary 17 “観察”の難しさの要素分解 1. 経験と勘所の必要性
システム挙動の理解には経験と勘所が必要 2. 深いドメイン知識の必要性 システム固有の構成や依存関係、ビジネスロジックの理解が必要 3. システムの複雑性とスケールの増大 マイクロサービス化、クラウドネイティブ等によってシステムが複雑化 4. 時間とリソースの制約 インシデント対応や分析に十分な時間を割けない
Luup, Inc. - Confidential and Proprietary 18 “観察”の難しさの要素分解 1. 経験と勘所の必要性
システム挙動の理解には経験と勘所が必要 2. 深いドメイン知識の必要性 システム固有の構成や依存関係、ビジネスロジックの理解が必要 3. システムの複雑性とスケールの増大 マイクロサービス化、クラウドネイティブ等によってシステムが複雑化 4. 時間とリソースの制約 インシデント対応や分析に十分な時間を割けない ワトスンはシャーロック・ホームズに (簡単には)なれない
Luup, Inc. - Confidential and Proprietary 19 1. “君は見ているが観察していない” 2.
SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
Luup, Inc. - Confidential and Proprietary 20 ”観察眼”がないワトスン
Luup, Inc. - Confidential and Proprietary 21 利用ツール紹介 Luupで利用している以下のツールを例として、どんな工夫ができるか紹介します -
Datadog - クラウドアプリケーション向けのモニタリングと分析プラットフォーム - インフラやアプリケーションのメトリクス、ログ、トレースを一元的に可 視化できる - リアルタイムのダッシュボードやアラート機能で、システムの状況を素早 く把握できる - Waroom - インシデント管理と振り返りを支援するサービス - インシデント発生時の情報共有や対応プロセスの効率化をサポート https://www.datadoghq.com/ja/ https://waroom.com/
Luup, Inc. - Confidential and Proprietary 22 “観察眼”を代替する工夫 1. オブザーバビリティ(可観測性)
• オブザーバビリティを導入していない状態 • ただデータを見る、どのデータを見るかは気づいたタイミング • オブザーバビリティを導入した状態 • データの関連が見れるので解釈しやすくなる、データを多角的に確認できる 2. ランブック • ランブックを導入していない状態 • 属人的かつ、場当たり的なインシデント対応 • 重篤度・影響を判断できない、関係者への連携が漏れる、意思決定が遅れる等 • ランブックを導入した状態 • チェックリスト的なインシデント対応 • ネクストアクションがわかりやすく、スムーズな対応ができる
Luup, Inc. - Confidential and Proprietary 23 オブザーバビリティ:LogとTraceの紐づけ https://docs.datadoghq.com/tracing/other_telemetry/connect_logs_and_traces/
Luup, Inc. - Confidential and Proprietary 24 オブザーバビリティ:Deploy Metrics Cloud
Run Functions, Firestore, Firebase hostingのデプロイ情報を表現 エラー率やレイテンシー等を見ながら、デプロイ情報を確認できる インシデントがあった際、直前のデプロイ状況に気付ける
Luup, Inc. - Confidential and Proprietary 25 オブザーバビリティ: Deploy Metrics
Waroomのインシデントページやインサイトでも直前のデプロイ状況を確認できる デプロイ毎のインシデント率等を確認できる https://docs.waroom.com/deploy_tracking_integration
Luup, Inc. - Confidential and Proprietary 26 ランブック インシデント対応の手順やチェックリストをまとめたドキュメント 対応者に必要な「観察」の視点を提供する
https://docs.waroom.com/create_runbook
Luup, Inc. - Confidential and Proprietary 27 インシデント対応時にランブックの手順に沿って対応を進められる - 対応者に対して対応をガイドできる
- 対応状況・ステータスが第三者から見てわかりやすい Waroom - インシデントページ Slack - 対応専用チャンネル ランブック
Luup, Inc. - Confidential and Proprietary 28 ”観察眼”の代替を得たワトスン
Luup, Inc. - Confidential and Proprietary 29 1. “君は見ているが観察していない” 2.
SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
Luup, Inc. - Confidential and Proprietary 30 “観察眼”を鍛える取り組み 1. ポストモーテム
• ポストモーテムを導入していない状態 • ただ振り返りを実施する • レポートが作成されなかったり、個人のミスに着目する可能性がある • ポストモーテムを導入した状態 • 責任追及ではなく、システムやプロセスの改善に焦点を当てた振り返り 2. インシデント対応訓練 • インシデント対応訓練を導入していない状態 • インシデント対応の属人化 • インシデント対応訓練を導入した状態 • インシデント対応の属人化解消 • ランブック等の検証
Luup, Inc. - Confidential and Proprietary 31 非難なきポストモーテム
Luup, Inc. - Confidential and Proprietary 32 非難なきポストモーテム ポストモーテムは、単なる形式的な振り返りではない 原因を分析し、再発防止策を検討するための重要なプロセス
Blameless Postmortem (非難なきポストモーテム) - 責任追及ではなく、システムやプロセスの改善に焦点を当てる - メンバーが正直な情報を共有できるような心理的安全性が必要 - 事実に基づく分析を行う レビューや公表を行う - レビューを通じて知識の共有を行う - 公表することで組織全体が失敗から学べる
Luup, Inc. - Confidential and Proprietary 33 ポストモーテムテンプレート https://docs.waroom.com/create_postmortem ポストモーテムテンプレートを工夫することで、多角的な分析が可能になる
Luup, Inc. - Confidential and Proprietary 34 再発防止策 ポストモーテムのアウトプットとして、再発防止策を考える 再発防止策例
- 自動テストの拡充 - 類似のバグを早期発見するためにテストケースを追加する - モニタリングの強化 - 新たにメトリクスを追加し、問題の予兆を早期発見できるようにする - ドキュメンテーションの改善 - プロセスの問題などの改善のために、ランブックなどの改善を行う
Luup, Inc. - Confidential and Proprietary 35 インシデント対応訓練 https://docs.waroom.com/incident_training 実際のインシデント状況を再現し、チームが迅速かつ的確に対応するスキルを向上
させるシミュレーション 期待される効果 - 経験の蓄積 - ドメイン知識の強化 - コミュニケーションの向上 Waroomでもβ機能で公開中 - サービスコンテキストを入力し、これを基にAIが自動でシナリオを作成できる - Slackを使って実際のインシデント対応のように訓練を実施できる
Luup, Inc. - Confidential and Proprietary 36 ”観察眼”を鍛える取り組みを行っているワトスン
Luup, Inc. - Confidential and Proprietary 37 1. “君は見ているが観察していない” 2.
SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
Luup, Inc. - Confidential and Proprietary 38 “観察眼”がある人とない人の差
Luup, Inc. - Confidential and Proprietary 39 まとめ - ”君は見ているが観察していない”
を体現するのは難しい - 経験と勘所の必要性 - 深いドメイン知識の必要性 - システムの複雑性とスケールの増大 - 時間とリソースの制約 - ”観察眼” を身につけるためのサポートや工夫 - オブザーバビリティ - ランブック - ポストモーテム - インシデント対応訓練 - インシデントマネジメント上の課題やプラクティスについて語りましょう! - #OSH2024, @gr1m0h, 懇親会 等で!
Luup, Inc. - Confidential and Proprietary 40 Ref. - シャーロック・ホームズの冒険
- アーサー・コナン・ドイル - https://www.tsogen.co.jp/np/isbn/9784488101169 - PagerDuty Blog - https://www.pagerduty.co.jp/blog/what-is-incident-response - https://www.pagerduty.co.jp/blog/ideal-way-to-respond-to-incidents - https://www.pagerduty.co.jp/blog/postmortems-vs-retrospectives/ - Datadog Document - https://www.datadoghq.com/ja/ - https://docs.datadoghq.com/tracing/other_telemetry/connect_logs_and_traces/ - Waroom Document - https://waroom.com/ - https://docs.waroom.com/deploy_tracking_integration - https://docs.waroom.com/create_runbook - https://docs.waroom.com/create_postmortem - https://docs.waroom.com/incident_training - SREの歩き方・進め方 - rrreeeyyy - https://speakerdeck.com/rrreeeyyy/sre-walk-through-procedure
一緒に、街じゅうを「駅前化」する インフラをつくりませんか? 詳細は採用ページをご覧ください https://recruit.luup.sc/
None