Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Amazon CloudWatchでSLOを監視してみた CODT 2024 クロージングイベント版
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
iwamot
PRO
September 06, 2024
Technology
0
260
Amazon CloudWatchでSLOを監視してみた CODT 2024 クロージングイベント版
2024-09-06
Cloud Operator Days Tokyo 2024
https://cloudopsdays.com/closing/
iwamot
PRO
September 06, 2024
Tweet
Share
More Decks by iwamot
See All by iwamot
8万デプロイ
iwamot
PRO
2
89
AIエージェント・マイクロサービス時代。AWSでの手軽な構築法を考えて試してみた
iwamot
PRO
1
61
これがLambdaレス時代のChatOpsだ!実例で学ぶAmazon Q Developerカスタムアクション活用法
iwamot
PRO
10
2k
Developer Certificate of Origin、よさそう
iwamot
PRO
0
49
復号できなくなると怖いので、AWS KMSキーの削除を「面倒」にしてみた CODT 2025 クロージングイベント版
iwamot
PRO
1
140
復号できなくなると怖いので、AWS KMSキーの削除を「面倒」にしてみた
iwamot
PRO
3
120
IPA&AWSダブル全冠が明かす、人生を変えた勉強法のすべて
iwamot
PRO
14
12k
2年でここまで成長!AWSで育てたAI Slack botの軌跡
iwamot
PRO
4
1.2k
名単体テスト 禁断の傀儡(モック)
iwamot
PRO
1
640
Other Decks in Technology
See All in Technology
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
6
72k
JAWS DAYS 2026 CDP道場 事前説明会 / JAWS DAYS 2026 CDP Dojo briefing document
naospon
0
180
製造業ドメインにおける LLMプロダクト構築: 複雑な文脈へのアプローチ
caddi_eng
1
460
A Gentle Introduction to Transformers
keio_smilab
PRO
1
230
AI時代にエンジニアはどう成長すれば良いのか?
recruitengineers
PRO
1
140
Oracle Cloud Infrastructure:2026年2月度サービス・アップデート
oracle4engineer
PRO
0
220
Bill One 開発エンジニア 紹介資料
sansan33
PRO
5
18k
トップマネジメントとコンピテンシーから考えるエンジニアリングマネジメント
zigorou
4
550
AI Agentにおける評価指標とAgent GPA
tsho
1
300
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
44k
Shifting from MCP to Skills / ベストプラクティスの変遷を辿る
yamanoku
2
220
Oracle Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
5
1.1k
Featured
See All Featured
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
850
Making the Leap to Tech Lead
cromwellryan
135
9.8k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.2k
Six Lessons from altMBA
skipperchong
29
4.2k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.8k
Color Theory Basics | Prateek | Gurzu
gurzu
0
230
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
60
42k
The World Runs on Bad Software
bkeepers
PRO
72
12k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.2k
Claude Code のすすめ
schroneko
67
220k
WENDY [Excerpt]
tessaabrams
9
36k
Transcript
Amazon CloudWatchでSLOを監視してみた CODT 2024 クロージングイベント版 2024-09-06 Cloud Operator Days Tokyo
2024 https://cloudopsdays.com/closing/ ENECHANGE株式会社 岩本隆史
岩本 隆史 / Takashi Iwamoto 現職:ENECHANGE株式会社 VPoT 前職:AWS Japan クラウドサポートアソシエイト
AWS Community Builder (Cloud Operations) https://x.com/iwamot
セッション動画 https://event2024.cloudopsdays.com/2024/07/06/10/ 3/18
Amazon CloudWatchでSLOを監視してみた 1. 複数ウィンドウ、複数バーンレートの監視が大前提 2. ENECHANGEではCloudWatchで監視中 3. 「複合アラーム」と「カスタムメトリクス」の活用が肝 4. コストは月20ドルほど
https://speakerdeck.com/iwamot/amazon-cloudwatch-slo-monitoring?slide=3 4/18
Q. なぜSLOの監視を始めたのか? 5/18
A. 「オオカミ少年アラート」を減らすため 以前は、CPUやメモリの使用率といったリソースのメトリクスを直接的に監視し ており、サービスが問題なく提供できていてもアラートが飛ぶ状況でした。いわ ゆる「オオカミ少年アラート」の多い状況です。 https://findy-tools.io/products/amazon-cloudwatch/36/197 6/18
指針:「原因」より「症状」にアラートを クラウドを使うにあたって、うまくアラートを設定するには SLI/SLO をきちんと 定義し、それに応じたアラートの度合いを決めるのがよいです。また、SLO の対 象となる指標としては、原因じゃなくて症状、つまりユーザへの具体的な影響を 測れるものが良いです。そして、ある程度のエラーを許容しつつユーザへの影響 がでないようなシステムの作りを目指しましょう。 https://medium.com/google-cloud-jp/alerting-in-cloud-deb0aa35ec16
7/18
成果:可用性やレイテンシの悪化に気づけるように オオカミ少年アラートが削減できた一方で、可用性やレイテンシの悪化にすぐ気 づけるようになりました。また、それらの指標に対する開発チームの意識が高ま りました。 https://findy-tools.io/products/amazon-cloudwatch/36/197 8/18
現時点の監視対象:7件のサービス、12件のURL https://speakerdeck.com/iwamot/amazon-cloudwatch-slo-monitoring?slide=15 9/18
Q. CloudWatchを選んだ理由は? 10/18
A. 理想の条件式、かつ、低コストで監視できるから ツール 理想の条件式 低コスト CloudWatch ◯ ◯ New Relic
△(検証当時) △ Datadog ✕(検証当時) - 11/18
『ワークブック』の条件式が理想 expr: ( job:slo_errors_per_request:ratio_rate1h{job="myjob"} > (14.4*0.001) and job:slo_errors_per_request:ratio_rate5m{job="myjob"} > (14.4*0.001)
) or ( job:slo_errors_per_request:ratio_rate6h{job="myjob"} > (6*0.001) and job:slo_errors_per_request:ratio_rate30m{job="myjob"} > (6*0.001) ) https://sre.google/workbook/alerting-on-slos/ 12/18
CloudWatchなら、1件20ドル/月で監視可能 課金対象 件数 コスト (ドル/月) ダッシュボード 1 3.0 メトリクス 28
8.4 アラーム 17 1.7 複合アラーム 5 2.5 https://speakerdeck.com/iwamot/amazon-cloudwatch-slo-monitoring?slide=24 13/18
実装もそれほど難しくなかった https://findy-tools.io/products/amazon-cloudwatch/36/197 14/18
Amazon曰く「倹約は創意工夫、自立心、発明の源」 Frugality 私たちは少ないリソースでより多くのことを実現します。倹約の精神は創意工 夫、自立心、発明を育む源になります。スタッフの人数、予算、固定費は多けれ ばよいというものではありません。 https://www.amazon.jobs/content/jp/our-workplace/leadership-principles 15/18
Q. 今後の展望は? 16/18
A. ツールの発展に応じて柔軟に ローリングウィンドウ機能がCloudWatchに実装されれば作り込みが減らせるの で、AWSに機能追加の要望を出そうと考えています。 一方で、New RelicやDatadogでも柔軟な実装が可能になれば、それらのツールに 移行することもありえます。CloudWatchに比べ、サービスレベル低下の原因調査 がしやすくなるためです。 https://findy-tools.io/products/amazon-cloudwatch/36/197 17/18
ご清聴ありがとうございました Amazon CloudWatchでSLOを監視してみた なぜSLOの監視を始めたのか? 「オオカミ少年アラート」を減らすため CloudWatchを選んだ理由は? 理想の条件式、かつ、低コストで監視できるから 今後の展望は? ツールの発展に応じて柔軟に 18/18