Amazon CloudWatchでSLOを監視してみた

Amazon CloudWatchでSLOを監視してみた Cloud Operator Days Tokyo 2024 https://cloudopsdays.com/ ENECHANGE株式会社 VPoT
岩本隆史

岩本隆史 / Takashi Iwamoto 現職：ENECHANGE 全社的な技術施策の提案～実行前職：アマゾンウェブサービスジャパンテクニカルサポート AWS
Community Builder (2024～) カテゴリ：Cloud Operations

Amazon CloudWatchでSLOを監視してみた 1. 複数ウィンドウ、複数バーンレートの監視が大前提 2. ENECHANGEではCloudWatchで監視中 3. 「複合アラーム」と「カスタムメトリクス」の活用が肝 4. コストは月20ドルほど

信頼性はアプリケーションの最重要機能信頼性は、アプリケーションの最も重要な機能です。アプリケーションの信頼性が低いと、最終的にはユーザーが離れてしまい、他の機能はすべて意味をなさなくなります。 https://cloud.google.com/architecture/framework/reliability?hl=ja

SLOの定義が第一歩信頼性を実現するために、以下のベストプラクティスに従ってください。サービスレベル目標（SLO）とエラーバジェットを使用して、信頼性の目標を定義します。インフラストラクチャとアプリケーションにオブザーバビリティを組み込みます。拡張性と高可用性を考慮して設計します。柔軟で自動化されたデプロイ機能を構築します。
効率的なアラートを作成します。インシデント管理のための共同プロセスを構築します。

SLOの定義が第一歩 SLO の例: 14 日間にわたって測定されたすべての有効なリクエストの 95% で、サービスのレスポンスが 400 ミリ秒（ms）より早い。
https://cloud.google.com/architecture/framework/reliability/slo-components?hl=ja

運用は『ワークブック』がデファクトスタンダード https://www.oreilly.co.jp/books/9784873119137/

複数ウィンドウ、複数バーンレートの監視が最適私達の経験では、複数のバーンレートに基づくアラートはSLOベースのアラートを実装する上で強力な方法であることが分かりました。『サイトリライアビリティワークブック』「5章 SLOに基づくアラート」

複数ウィンドウ、複数バーンレートの監視が最適 expr: ( job:slo_errors_per_request:ratio_rate1h{job="myjob"} > (14.4*0.001) and job:slo_errors_per_request:ratio_rate5m{job="myjob"} > (14.4*0.001)
) or ( job:slo_errors_per_request:ratio_rate6h{job="myjob"} > (6*0.001) and job:slo_errors_per_request:ratio_rate30m{job="myjob"} > (6*0.001) ) severity: page https://sre.google/workbook/alerting-on-slos/

複数ウィンドウ、複数バーンレートの監視が最適 expr: ( job:slo_errors_per_request:ratio_rate1h{job="myjob"} > (14.4*0.001) and job:slo_errors_per_request:ratio_rate5m{job="myjob"} > (14.4*0.001)
) or ( job:slo_errors_per_request:ratio_rate6h{job="myjob"} > (6*0.001) and job:slo_errors_per_request:ratio_rate30m{job="myjob"} > (6*0.001) ) severity: page 14.4 = 30日間のエラーバジェットの2%を1時間で消費する速度 6 = 30日間のエラーバジェットの5%を6時間で消費する速度 0.001 = SLOが「99.9%」の場合のエラーバジェット

CloudWatchアラームでSlackに通知

CloudWatchダッシュボードを事業部に提供

Terraformモジュール化により短時間で導入可能 module "slomon" { source = "[email protected]:enechange/terraform-modules.git//slomon-for-alb?ref=v0.53.0" environment_name = "prod-enechange"
alb_access_logs_s3_url = local.alb_access_logs_s3_url sns_topic_names_for_paging = ["cto-incident-enechange"] sns_topic_names_for_ticketing = ["cto-alert-enechange"] critical_user_journeys = { input1_submit = { http_method = "POST" path = "/try/input1_submit" dashboard_order = 1 slo = { availability_target = 95.0 latency_p95_threshold = 4.0 latency_p50_threshold = 3.0 } } } }

過去の実績を参考にSLOを定義 slo = { availability_target = 95.0 latency_p95_threshold = 4.0
latency_p50_threshold = 3.0 }

CloudWatch複合アラームが2020年3月にリリース https://aws.amazon.com/jp/about-aws/whats-new/2020/03/amazon-cloudwatch-now- allows-you-to-combine-multiple-alarms/

複合アラームで最適な監視が可能 expr: ( job:slo_errors_per_request:ratio_rate1h{job="myjob"} > (14.4*0.001) and job:slo_errors_per_request:ratio_rate5m{job="myjob"} > (14.4*0.001)
) or ( job:slo_errors_per_request:ratio_rate6h{job="myjob"} > (6*0.001) and job:slo_errors_per_request:ratio_rate30m{job="myjob"} > (6*0.001) ) severity: page

複合アラームで最適な監視が可能 ( ALARM("prod-enechange-slomon-input1_submit-availability-2pct-1h") AND ALARM("prod-enechange-slomon-input1_submit-availability-2pct-5m") ) OR ( ALARM("prod-enechange-slomon-input1_submit-availability-5pct-6h") AND
ALARM("prod-enechange-slomon-input1_submit-availability-5pct-30m") )

各アラームの条件はシンプル ALARM("prod-enechange-slomon-input1_submit-availability-2pct-1h") 1時間のエラー率 > SLO期間のエラーバジェットの2%を1時間で消費するエラー率

ウィンドウごとの集計値をカスタムメトリクスに発行ウィンドウメトリクス名値 1h TotalCount 9999 1h BadCount 99
5m TotalCount 999 5m BadCount 9 ... ... ...

CloudWatchの固定料金は月15.6ドル課金対象件数コスト (ドル/月) ダッシュボード 1 3.0 メトリクス 28
8.4 アラーム 17 1.7 複合アラーム 5 2.5

ウィンドウごとの集計や、Slack通知に月数ドル集計：EventBridge, Lambda, Athena, RDS, CloudWatch (PutMetricData) 通知：SNS

まとめ

ENECHANGEでは、Amazon CloudWatchを活用し、低コストなSLO監視を実現しましたこのような事例を下記のチャンネルで発信しています ENECHANGE開発者ブログ：https://tech.enechange.co.jp/ 岩本のX：https://x.com/iwamot

Amazon CloudWatchでSLOを監視してみた

Amazon CloudWatchでSLOを監視してみた

iwamot PRO

More Decks by iwamot

Other Decks in Technology

Featured

Transcript