Upgrade to Pro — share decks privately, control downloads, hide ads and more …

モニタリングダッシュボード に表示しておきたい情報 / NIFTY Tech Talk #21

モニタリングダッシュボード に表示しておきたい情報 / NIFTY Tech Talk #21

イベント
SRE関係イベント登壇者のAfter Talk
https://nifty.connpass.com/event/326741/

登壇者
ニフティ株式会社
浅見 則彦 (@rubihiko: https://twitter.com/rubihiko)

ニフティ株式会社

August 28, 2024
Tweet

Video


Resources

SRE関係イベント登壇者のAfter Talk / NIFTY Tech Talk #21 - connpass

https://nifty.connpass.com/event/326741/

More Decks by ニフティ株式会社

Other Decks in Technology

Transcript

  1. 浅見 則彦 / Asami Norihiko • Work ◦ 会員システムグループ /

    SREチーム - Tech Lead ◦ SREギルドマスター ◦ NIFTY Tech Talk 運営 • Communiy ◦ AWS community builder | Cloud Operations rubihiko @rubihiko
  2. モニタリングは信頼性の基礎 モニタリングが出来ていないと・・・ • インシデントレスポンス(障害・インシデント対応) ◦ モニタリングが出来ていないと気づくことも調査することもできない・・・ • ポストモーテム ◦ 振り返り・根本原因分析できない・・・

    • テスト ◦ テストをパスしているかどうやって把握しますか・・・? • キャパシティプランニング ◦ パフォーマンスが見えない状態でキャパシティを予測して計画できますか・・・? • 開発・本番環境へ
  3. SLI/SLO/SLA SLO(Service Level Object) サービスレベルの目指す べき目標のことで、SLIの 目標値になります。 SLA(Service Level Agreement)

    サービスレベルを保証す るユーザーとの合意のこ とで、契約です。 例) 対象サービスの30日間の稼 働率が99%以上を保証する。下 回った場合は全額返金する 例) 対象サービス(機能)の30日 間のリクエストの成功率(SLI)の目 標値は99.9%とする SLI(Service Level Indicator) サービスレベルの指標のこ とで、可用性やレイテンシー などがよく使われます。 例) 対象サービス(機能)のリクエ ストの成功率を指標とする
  4. 定量化のための計算式 良いイベント 有効なイベント × 100 [%] The Art of SLOs

    https://sre.google/intl/ja_jp/resources/practices-and-processes/art-of-slos/
  5. 4つのゴールデンシグナル • レイテンシ ◦ サービスがリクエストの処理にかける時間 • トラフィック ◦ サービスに対する要求の量 •

    エラー ◦ サービスが失敗する割合 • 飽和 ◦ サービスのリソースがフル使用にどれだけ近いかを示す尺度 The Four Golden Signal https://sre.google/sre-book/monitoring-distributed-systems/#xref_monitoring_golden-signals
  6. USEとREDの関係 USE RED 対象 リソース サービス 観点 ホワイトボックス ブラックボックス 観察

    内部の状態 外部の振る舞い Microservices時代の監視設計 https://blog.song.mu/entry/microservices-monitoring-design
  7. レイアウトと表示するもの SLI/SLO Error Budgets リクエスト レイテンシ ビジネス指標 エラー レイテンシ 指標

    メトリクス サービス毎にグルーピング 使用率|飽和 (Utilization|Saturation)