Upgrade to Pro — share decks privately, control downloads, hide ads and more …

"君は見ているが観察していない"で考えるインシデントマネジメント

gr1m0h
November 09, 2024

 "君は見ているが観察していない"で考えるインシデントマネジメント

gr1m0h

November 09, 2024
Tweet

More Decks by gr1m0h

Other Decks in Technology

Transcript

  1. Luup, Inc. - Confidential and Proprietary 2 whoami Wataru Tsuda

    / gr1m0h SWE / Reliability Engineer @Luup,inc. 担当領域:SLO, Incident Management 広島商船高専→東京で6年くらい→Luup SRE歴: 5年弱 SRE, Platform Engineeringの勉強会/カン ファレンスの運営をやってます(した)
  2. Luup, Inc. - Confidential and Proprietary 4 1. “君は見ているが観察していない” 2.

    SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
  3. Luup, Inc. - Confidential and Proprietary 5 1. “君は見ているが観察していない” 2.

    SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
  4. Luup, Inc. - Confidential and Proprietary 8 “君は見ているが観察していない” → 表面的な事実をただ見るだけではなく、深く観察し、本質や隠れた意味を理解すること

    この考え方は、ソフトウェアエンジニアとして以下のような場面で活きてきた - インシデントレスポンス、ソフトウェアやコードのエラー解決 - コード・アーキテクチャレビュー - キャパシティプランニングとスケーリング - パフォーマンスチューニング → “インシデントマネジメント” においても重要! 「きみは確かに見てはいる。だが観察はしない。見るのと観察するのとでは、大違いなんだ。たとえばの 話、この家の玄関からこの部屋まで上がってくる階段、きみは何度も見ているだろう」       アーサー・コナン・ドイル、ボヘミアの醜聞 https://www.tsogen.co.jp/np/isbn/9784488101169
  5. Luup, Inc. - Confidential and Proprietary 9 インシデントマネジメントとは? インシデントマネジメントとは? -

    予期せぬサービスの中断や品質低下といったインシデントが発生した場合に、迅速かつ効果的に対応 するためのプロセスと体制 - 「インシデントの速やかな解決、システムやサービスを運用する担当者の負担軽減、今後のインシデ ント抑制」につながる インシデントレスポンスとは? - インシデントが発生した際、システムやサービスを迅速に復旧させるための取り組み https://www.pagerduty.co.jp/blog/what-is-incident-response https://www.pagerduty.co.jp/blog/ideal-way-to-respond-to-incidents
  6. Luup, Inc. - Confidential and Proprietary 11 1. “君は見ているが観察していない” 2.

    SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
  7. Luup, Inc. - Confidential and Proprietary 13 SREにとってのインシデントマネジメント SREが実現したいのは、データドリブンな信頼性のコントロールを実現すること →インシデントがSREから一時的に信頼性のコントロールを奪う

    インシデントマネジメントの効果 - 信頼性の向上と再構築 - インシデントを通じてシステムを改善、信頼性やサービスの安全性を強化 - ユーザー体験とビジネス価値の向上 - 迅速な対応と学びの活用でユーザー体験を改善し、ビジネス価値を最大化
  8. Luup, Inc. - Confidential and Proprietary 14 1. “君は見ているが観察していない” 2.

    SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
  9. Luup, Inc. - Confidential and Proprietary 15 “観察” の難しさ インシデントマネジメントにおいて

    ”君は見ているが観察していない” を実践するのは容易ではない ワトスンとホームズというキャラクターを使って実践の難しさを考える - ワトスン:”観察眼” を発揮できていない人 - ホームズ:”観察眼” を発揮できている人
  10. Luup, Inc. - Confidential and Proprietary 16 インシデントレスポンスにおける難しさ ワトスンのケース -

    監視システムからのアラートやエラーメッセージを ”見て” います ホームズのケース - アラートだけでなく、システム全体のメトリクス、ログ、デプロイ情報など、 多角的に情報を ”観察” します
  11. Luup, Inc. - Confidential and Proprietary 17 “観察”の難しさの要素分解 1. 経験と勘所の必要性

    システム挙動の理解には経験と勘所が必要 2. 深いドメイン知識の必要性 システム固有の構成や依存関係、ビジネスロジックの理解が必要 3. システムの複雑性とスケールの増大 マイクロサービス化、クラウドネイティブ等によってシステムが複雑化 4. 時間とリソースの制約 インシデント対応や分析に十分な時間を割けない
  12. Luup, Inc. - Confidential and Proprietary 18 “観察”の難しさの要素分解 1. 経験と勘所の必要性

    システム挙動の理解には経験と勘所が必要 2. 深いドメイン知識の必要性 システム固有の構成や依存関係、ビジネスロジックの理解が必要 3. システムの複雑性とスケールの増大 マイクロサービス化、クラウドネイティブ等によってシステムが複雑化 4. 時間とリソースの制約 インシデント対応や分析に十分な時間を割けない ワトスンはシャーロック・ホームズに (簡単には)なれない
  13. Luup, Inc. - Confidential and Proprietary 19 1. “君は見ているが観察していない” 2.

    SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
  14. Luup, Inc. - Confidential and Proprietary 21 利用ツール紹介 Luupで利用している以下のツールを例として、どんな工夫ができるか紹介します -

    Datadog - クラウドアプリケーション向けのモニタリングと分析プラットフォーム - インフラやアプリケーションのメトリクス、ログ、トレースを一元的に可 視化できる - リアルタイムのダッシュボードやアラート機能で、システムの状況を素早 く把握できる - Waroom - インシデント管理と振り返りを支援するサービス - インシデント発生時の情報共有や対応プロセスの効率化をサポート https://www.datadoghq.com/ja/ https://waroom.com/
  15. Luup, Inc. - Confidential and Proprietary 22 “観察眼”を代替する工夫 1. オブザーバビリティ(可観測性)

    • オブザーバビリティを導入していない状態 • ただデータを見る、どのデータを見るかは気づいたタイミング • オブザーバビリティを導入した状態 •  データの関連が見れるので解釈しやすくなる、データを多角的に確認できる 2. ランブック • ランブックを導入していない状態 • 属人的かつ、場当たり的なインシデント対応 • 重篤度・影響を判断できない、関係者への連携が漏れる、意思決定が遅れる等 • ランブックを導入した状態 • チェックリスト的なインシデント対応 • ネクストアクションがわかりやすく、スムーズな対応ができる
  16. Luup, Inc. - Confidential and Proprietary 24 オブザーバビリティ:Deploy Metrics Cloud

    Run Functions, Firestore, Firebase hostingのデプロイ情報を表現 エラー率やレイテンシー等を見ながら、デプロイ情報を確認できる インシデントがあった際、直前のデプロイ状況に気付ける
  17. Luup, Inc. - Confidential and Proprietary 25 オブザーバビリティ: Deploy Metrics

    Waroomのインシデントページやインサイトでも直前のデプロイ状況を確認できる デプロイ毎のインシデント率等を確認できる https://docs.waroom.com/deploy_tracking_integration
  18. Luup, Inc. - Confidential and Proprietary 27 インシデント対応時にランブックの手順に沿って対応を進められる - 対応者に対して対応をガイドできる

    - 対応状況・ステータスが第三者から見てわかりやすい Waroom - インシデントページ Slack - 対応専用チャンネル ランブック
  19. Luup, Inc. - Confidential and Proprietary 29 1. “君は見ているが観察していない” 2.

    SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
  20. Luup, Inc. - Confidential and Proprietary 30 “観察眼”を鍛える取り組み 1. ポストモーテム

    • ポストモーテムを導入していない状態 • ただ振り返りを実施する • レポートが作成されなかったり、個人のミスに着目する可能性がある • ポストモーテムを導入した状態 • 責任追及ではなく、システムやプロセスの改善に焦点を当てた振り返り 2. インシデント対応訓練 • インシデント対応訓練を導入していない状態 • インシデント対応の属人化 • インシデント対応訓練を導入した状態 • インシデント対応の属人化解消 • ランブック等の検証
  21. Luup, Inc. - Confidential and Proprietary 32 非難なきポストモーテム ポストモーテムは、単なる形式的な振り返りではない 原因を分析し、再発防止策を検討するための重要なプロセス

    Blameless Postmortem (非難なきポストモーテム) - 責任追及ではなく、システムやプロセスの改善に焦点を当てる - メンバーが正直な情報を共有できるような心理的安全性が必要 - 事実に基づく分析を行う レビューや公表を行う - レビューを通じて知識の共有を行う - 公表することで組織全体が失敗から学べる
  22. Luup, Inc. - Confidential and Proprietary 34 再発防止策 ポストモーテムのアウトプットとして、再発防止策を考える 再発防止策例

    - 自動テストの拡充 - 類似のバグを早期発見するためにテストケースを追加する - モニタリングの強化 - 新たにメトリクスを追加し、問題の予兆を早期発見できるようにする - ドキュメンテーションの改善 - プロセスの問題などの改善のために、ランブックなどの改善を行う
  23. Luup, Inc. - Confidential and Proprietary 35 インシデント対応訓練 https://docs.waroom.com/incident_training 実際のインシデント状況を再現し、チームが迅速かつ的確に対応するスキルを向上

    させるシミュレーション 期待される効果 - 経験の蓄積 - ドメイン知識の強化 - コミュニケーションの向上 Waroomでもβ機能で公開中 - サービスコンテキストを入力し、これを基にAIが自動でシナリオを作成できる - Slackを使って実際のインシデント対応のように訓練を実施できる
  24. Luup, Inc. - Confidential and Proprietary 37 1. “君は見ているが観察していない” 2.

    SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
  25. Luup, Inc. - Confidential and Proprietary 39 まとめ - ”君は見ているが観察していない”

    を体現するのは難しい - 経験と勘所の必要性 - 深いドメイン知識の必要性 - システムの複雑性とスケールの増大 - 時間とリソースの制約 - ”観察眼” を身につけるためのサポートや工夫 - オブザーバビリティ - ランブック - ポストモーテム - インシデント対応訓練 - インシデントマネジメント上の課題やプラクティスについて語りましょう! - #OSH2024, @gr1m0h, 懇親会 等で!
  26. Luup, Inc. - Confidential and Proprietary 40 Ref. - シャーロック・ホームズの冒険

    - アーサー・コナン・ドイル - https://www.tsogen.co.jp/np/isbn/9784488101169 - PagerDuty Blog - https://www.pagerduty.co.jp/blog/what-is-incident-response - https://www.pagerduty.co.jp/blog/ideal-way-to-respond-to-incidents - https://www.pagerduty.co.jp/blog/postmortems-vs-retrospectives/ - Datadog Document - https://www.datadoghq.com/ja/ - https://docs.datadoghq.com/tracing/other_telemetry/connect_logs_and_traces/ - Waroom Document - https://waroom.com/ - https://docs.waroom.com/deploy_tracking_integration - https://docs.waroom.com/create_runbook - https://docs.waroom.com/create_postmortem - https://docs.waroom.com/incident_training - SREの歩き方・進め方 - rrreeeyyy - https://speakerdeck.com/rrreeeyyy/sre-walk-through-procedure