Upgrade to Pro — share decks privately, control downloads, hide ads and more …

これまでの監視とクラウド時代の監視 / Monitoring the Past and the...

これまでの監視とクラウド時代の監視 / Monitoring the Past and the Cloud

とある企業様の社内勉強会に潜入させていただいてこっそりと発表させていただいた時の資料です

TomoyaKitaura

May 18, 2022
Tweet

More Decks by TomoyaKitaura

Other Decks in Technology

Transcript

  1. 自己紹介 Tomoya Kitaura @kitta0108 mediba inc. SRE Unit ▪勉強会運営 -

    - JAWS-UG コンテナ支部 - JAWS-UG SRE支部 - NRUG SRE支部 2 2
  2. システム監視の課題 7 Web Server App Server DB Server CPU使用率 90%だお

    やべぇ 筐体交換しないとい けないかも このアーキテクチャ上のシステム監視の関心軸 ハードウェアが正常に動作するかどうか
  3. システム監視の課題 10 CloudFront ALB Fargate Aurora - ハードウェアの管理責任をクラウドベンダーに移譲 - AWS責任共有モデル

    - 例)FargateのSLA 月間稼働率99.99% - 仮想化技術の発展により、オートヒーリングが可能になった。 - ハードウェア障害の影響はシステム設計に落とし込まれる形となった。
  4. システム監視の課題 16 例えば以下のような解決方法を選択肢とした場合 どちらが最適? - Infraのスペックアップ リクエスト量 ≒ 処理量と比較して性能が低いときに検討さ れる方法

    ※または一時的な暫定回避策 - バックエンドのアルゴリズム改修 今後のスケールリング性能に影響を及ぼすと考えられる時に 検討される方法 フラットな目線で最適を検討する難しさ
  5. Observabilityとは 19 o11y 導入後のイメージ Client Backend Infra Client ユーザー リクエスト

    ・どんなリクエストを渡さ れたか ・どんなレスポンスを返し たか ・関数の処理にどれくら い時間かかったか ・エラーが起きた具体的 な関数の場所はどこか ・どんなユーザーだった か ・どのようなレスポンスを 返したか ・Backendにどのような 要素を渡したか ・Backendからはどんな レスポンスが返ってきた か ・エラーが起きたそ の時インフラの状態 はどうだったか
  6. 実現したい世界観の話 26 プロダクト開発のサイクル Biz (企画) Dev (開発) Ops (運用) プロダクトがうまく機能しなくなって、

    大きな改革を求められるときの原因って だいたいこのサイクルの 機能不全じゃないですかね?