Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Amazon CloudWatchでSLOを監視してみた CODT 2024 クロージングイベント版
Search
iwamot
September 06, 2024
Technology
0
71
Amazon CloudWatchでSLOを監視してみた CODT 2024 クロージングイベント版
2024-09-06
Cloud Operator Days Tokyo 2024
https://cloudopsdays.com/closing/
iwamot
September 06, 2024
Tweet
Share
More Decks by iwamot
See All by iwamot
DockerのマルチプラットフォームイメージをGitHub Actionsでビルドして公開する際に、参考にしたドキュメントと便利だったツール
iwamot
4
180
RAGもファインチューニングも使わない 素朴なAIチャットボットを職場に導入した結果
iwamot
0
75
Cost-Effective SLO Error Budget Monitoring with Athena and CloudWatch
iwamot
0
830
Amazon CloudWatchでSLOを監視してみた
iwamot
0
45
AWS Protonの概要
iwamot
0
120
ENECHANGEが実現した管理者の工数負担を削減しながらもAWSセキュリティを強化した方法とは
iwamot
0
140
Web APIのAWS Lambda移行で工夫したこと
iwamot
4
3.2k
ECS on FargateへのSeekable OCI導入レポート
iwamot
0
510
サービスクォータ、ちゃんと監視してますか?
iwamot
0
1.2k
Other Decks in Technology
See All in Technology
普通の Web エンジニアのための様相論理入門 #yapcjapan / YAPC Hakodate 2024
ytaka23
7
1.6k
それでもやっぱり ExpressRoute が好き!
skmkzyk
0
410
CData Virtuality 日本ローンチイベントのKeynote
cdataj
0
360
AWSの初級者向けAI・ML資格『AWS Certified AI Practitioner』の傾向と対策/So You Want To Pass AWS Certified AI Practitioner
quiver
0
620
テストコードの品質を客観的な数値で担保しよう〜Mutation Testのすすめ〜
ysknsid25
12
3.7k
LINEヤフー新卒採用 コーディングテスト解説 実装問題編
lycorp_recruit_jp
1
13k
プロダクト開発の貢献をアピールするための目標設計や認知活動 / Goal design and recognition activities to promote product development contributions.
oomatomo
5
960
Oracle Database 23ai 新機能#4 Application Continuity
oracle4engineer
PRO
0
130
とある事業会社にとっての Kaggler の魅力
hakubishin3
7
1.2k
Castor - Le Task Runner PHP qui simplifie votre Workflow
lyrixx
1
320
Low Latency Join Method for Distributed DBMS
yugabytejapan
0
180
tenntennはなんでnewmoにnew社したの? - YAPC::Hakodate 2024
tenntenn
PRO
0
340
Featured
See All Featured
Imperfection Machines: The Place of Print at Facebook
scottboms
264
13k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
48k
Practical Orchestrator
shlominoach
186
10k
How To Stay Up To Date on Web Technology
chriscoyier
787
250k
A Modern Web Designer's Workflow
chriscoyier
692
190k
How to Ace a Technical Interview
jacobian
275
23k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
228
52k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
46
4.9k
The Power of CSS Pseudo Elements
geoffreycrofte
71
5.3k
A better future with KSS
kneath
237
17k
Learning to Love Humans: Emotional Interface Design
aarron
272
40k
Product Roadmaps are Hard
iamctodd
PRO
48
10k
Transcript
Amazon CloudWatchでSLOを監視してみた CODT 2024 クロージングイベント版 2024-09-06 Cloud Operator Days Tokyo
2024 https://cloudopsdays.com/closing/ ENECHANGE株式会社 岩本隆史
岩本 隆史 / Takashi Iwamoto 現職:ENECHANGE株式会社 VPoT 前職:AWS Japan クラウドサポートアソシエイト
AWS Community Builder (Cloud Operations) https://x.com/iwamot
セッション動画 https://event2024.cloudopsdays.com/2024/07/06/10/ 3/18
Amazon CloudWatchでSLOを監視してみた 1. 複数ウィンドウ、複数バーンレートの監視が大前提 2. ENECHANGEではCloudWatchで監視中 3. 「複合アラーム」と「カスタムメトリクス」の活用が肝 4. コストは月20ドルほど
https://speakerdeck.com/iwamot/amazon-cloudwatch-slo-monitoring?slide=3 4/18
Q. なぜSLOの監視を始めたのか? 5/18
A. 「オオカミ少年アラート」を減らすため 以前は、CPUやメモリの使用率といったリソースのメトリクスを直接的に監視し ており、サービスが問題なく提供できていてもアラートが飛ぶ状況でした。いわ ゆる「オオカミ少年アラート」の多い状況です。 https://findy-tools.io/products/amazon-cloudwatch/36/197 6/18
指針:「原因」より「症状」にアラートを クラウドを使うにあたって、うまくアラートを設定するには SLI/SLO をきちんと 定義し、それに応じたアラートの度合いを決めるのがよいです。また、SLO の対 象となる指標としては、原因じゃなくて症状、つまりユーザへの具体的な影響を 測れるものが良いです。そして、ある程度のエラーを許容しつつユーザへの影響 がでないようなシステムの作りを目指しましょう。 https://medium.com/google-cloud-jp/alerting-in-cloud-deb0aa35ec16
7/18
成果:可用性やレイテンシの悪化に気づけるように オオカミ少年アラートが削減できた一方で、可用性やレイテンシの悪化にすぐ気 づけるようになりました。また、それらの指標に対する開発チームの意識が高ま りました。 https://findy-tools.io/products/amazon-cloudwatch/36/197 8/18
現時点の監視対象:7件のサービス、12件のURL https://speakerdeck.com/iwamot/amazon-cloudwatch-slo-monitoring?slide=15 9/18
Q. CloudWatchを選んだ理由は? 10/18
A. 理想の条件式、かつ、低コストで監視できるから ツール 理想の条件式 低コスト CloudWatch ◯ ◯ New Relic
△(検証当時) △ Datadog ✕(検証当時) - 11/18
『ワークブック』の条件式が理想 expr: ( job:slo_errors_per_request:ratio_rate1h{job="myjob"} > (14.4*0.001) and job:slo_errors_per_request:ratio_rate5m{job="myjob"} > (14.4*0.001)
) or ( job:slo_errors_per_request:ratio_rate6h{job="myjob"} > (6*0.001) and job:slo_errors_per_request:ratio_rate30m{job="myjob"} > (6*0.001) ) https://sre.google/workbook/alerting-on-slos/ 12/18
CloudWatchなら、1件20ドル/月で監視可能 課金対象 件数 コスト (ドル/月) ダッシュボード 1 3.0 メトリクス 28
8.4 アラーム 17 1.7 複合アラーム 5 2.5 https://speakerdeck.com/iwamot/amazon-cloudwatch-slo-monitoring?slide=24 13/18
実装もそれほど難しくなかった https://findy-tools.io/products/amazon-cloudwatch/36/197 14/18
Amazon曰く「倹約は創意工夫、自立心、発明の源」 Frugality 私たちは少ないリソースでより多くのことを実現します。倹約の精神は創意工 夫、自立心、発明を育む源になります。スタッフの人数、予算、固定費は多けれ ばよいというものではありません。 https://www.amazon.jobs/content/jp/our-workplace/leadership-principles 15/18
Q. 今後の展望は? 16/18
A. ツールの発展に応じて柔軟に ローリングウィンドウ機能がCloudWatchに実装されれば作り込みが減らせるの で、AWSに機能追加の要望を出そうと考えています。 一方で、New RelicやDatadogでも柔軟な実装が可能になれば、それらのツールに 移行することもありえます。CloudWatchに比べ、サービスレベル低下の原因調査 がしやすくなるためです。 https://findy-tools.io/products/amazon-cloudwatch/36/197 17/18
ご清聴ありがとうございました Amazon CloudWatchでSLOを監視してみた なぜSLOの監視を始めたのか? 「オオカミ少年アラート」を減らすため CloudWatchを選んだ理由は? 理想の条件式、かつ、低コストで監視できるから 今後の展望は? ツールの発展に応じて柔軟に 18/18