Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Amazon CloudWatchでSLOを監視してみた CODT 2024 クロージングイベント版
Search
iwamot
PRO
September 06, 2024
Technology
0
190
Amazon CloudWatchでSLOを監視してみた CODT 2024 クロージングイベント版
2024-09-06
Cloud Operator Days Tokyo 2024
https://cloudopsdays.com/closing/
iwamot
PRO
September 06, 2024
Tweet
Share
More Decks by iwamot
See All by iwamot
名単体テスト 禁断の傀儡(モック)
iwamot
PRO
1
410
クォータ監視、AWS Organizations環境でも楽勝です✌️
iwamot
PRO
2
440
Cline、めっちゃ便利、お金が飛ぶ💸
iwamot
PRO
22
21k
開発組織を進化させる!AWSで実践するチームトポロジー
iwamot
PRO
3
1.1k
始めないともったいない!SLO運用で得られる3つのメリット
iwamot
PRO
1
140
あなたの人生も変わるかも?AWS認定2つで始まったウソみたいな話
iwamot
PRO
3
7.7k
効率的な技術組織が作れる!書籍『チームトポロジー』要点まとめ
iwamot
PRO
2
330
AWS⼊社という選択肢、⾒えていますか
iwamot
PRO
2
1.4k
40代後半で開発エンジニアからクラウドインフラエンジニアにキャリアチェンジし、生き残れる自信がようやく持てた話
iwamot
PRO
9
9.3k
Other Decks in Technology
See All in Technology
Digitization部 紹介資料
sansan33
PRO
1
3.8k
Contract One Dev Group 紹介資料
sansan33
PRO
0
6k
GitHub Coding Agent 概要
kkamegawa
1
1.7k
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
5
38k
S3 Tables を図解でやさしくおさらい~基本から QuickSight 連携まで/s3-tables-illustrated-basics-quicksight
emiki
2
340
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
25k
libsyncrpcってなに?
uhyo
0
160
AIに実況させる / AI Streamer
motemen
3
1.4k
Bill One 開発エンジニア 紹介資料
sansan33
PRO
4
12k
ソフトウェアは捨てやすく作ろう/Let's make software easy to discard
sanogemaru
10
5.8k
OTel meets Wasm: プラグイン機構としてのWebAssemblyから見る次世代のObservability
lycorptech_jp
PRO
1
300
Cursor Meetup Tokyo
iamshunta
2
760
Featured
See All Featured
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
25
2.8k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
12k
Being A Developer After 40
akosma
91
590k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
160
15k
Code Review Best Practice
trishagee
68
18k
Docker and Python
trallard
44
3.4k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Designing for humans not robots
tammielis
253
25k
Navigating Team Friction
lara
186
15k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
It's Worth the Effort
3n
184
28k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
52
2.8k
Transcript
Amazon CloudWatchでSLOを監視してみた CODT 2024 クロージングイベント版 2024-09-06 Cloud Operator Days Tokyo
2024 https://cloudopsdays.com/closing/ ENECHANGE株式会社 岩本隆史
岩本 隆史 / Takashi Iwamoto 現職:ENECHANGE株式会社 VPoT 前職:AWS Japan クラウドサポートアソシエイト
AWS Community Builder (Cloud Operations) https://x.com/iwamot
セッション動画 https://event2024.cloudopsdays.com/2024/07/06/10/ 3/18
Amazon CloudWatchでSLOを監視してみた 1. 複数ウィンドウ、複数バーンレートの監視が大前提 2. ENECHANGEではCloudWatchで監視中 3. 「複合アラーム」と「カスタムメトリクス」の活用が肝 4. コストは月20ドルほど
https://speakerdeck.com/iwamot/amazon-cloudwatch-slo-monitoring?slide=3 4/18
Q. なぜSLOの監視を始めたのか? 5/18
A. 「オオカミ少年アラート」を減らすため 以前は、CPUやメモリの使用率といったリソースのメトリクスを直接的に監視し ており、サービスが問題なく提供できていてもアラートが飛ぶ状況でした。いわ ゆる「オオカミ少年アラート」の多い状況です。 https://findy-tools.io/products/amazon-cloudwatch/36/197 6/18
指針:「原因」より「症状」にアラートを クラウドを使うにあたって、うまくアラートを設定するには SLI/SLO をきちんと 定義し、それに応じたアラートの度合いを決めるのがよいです。また、SLO の対 象となる指標としては、原因じゃなくて症状、つまりユーザへの具体的な影響を 測れるものが良いです。そして、ある程度のエラーを許容しつつユーザへの影響 がでないようなシステムの作りを目指しましょう。 https://medium.com/google-cloud-jp/alerting-in-cloud-deb0aa35ec16
7/18
成果:可用性やレイテンシの悪化に気づけるように オオカミ少年アラートが削減できた一方で、可用性やレイテンシの悪化にすぐ気 づけるようになりました。また、それらの指標に対する開発チームの意識が高ま りました。 https://findy-tools.io/products/amazon-cloudwatch/36/197 8/18
現時点の監視対象:7件のサービス、12件のURL https://speakerdeck.com/iwamot/amazon-cloudwatch-slo-monitoring?slide=15 9/18
Q. CloudWatchを選んだ理由は? 10/18
A. 理想の条件式、かつ、低コストで監視できるから ツール 理想の条件式 低コスト CloudWatch ◯ ◯ New Relic
△(検証当時) △ Datadog ✕(検証当時) - 11/18
『ワークブック』の条件式が理想 expr: ( job:slo_errors_per_request:ratio_rate1h{job="myjob"} > (14.4*0.001) and job:slo_errors_per_request:ratio_rate5m{job="myjob"} > (14.4*0.001)
) or ( job:slo_errors_per_request:ratio_rate6h{job="myjob"} > (6*0.001) and job:slo_errors_per_request:ratio_rate30m{job="myjob"} > (6*0.001) ) https://sre.google/workbook/alerting-on-slos/ 12/18
CloudWatchなら、1件20ドル/月で監視可能 課金対象 件数 コスト (ドル/月) ダッシュボード 1 3.0 メトリクス 28
8.4 アラーム 17 1.7 複合アラーム 5 2.5 https://speakerdeck.com/iwamot/amazon-cloudwatch-slo-monitoring?slide=24 13/18
実装もそれほど難しくなかった https://findy-tools.io/products/amazon-cloudwatch/36/197 14/18
Amazon曰く「倹約は創意工夫、自立心、発明の源」 Frugality 私たちは少ないリソースでより多くのことを実現します。倹約の精神は創意工 夫、自立心、発明を育む源になります。スタッフの人数、予算、固定費は多けれ ばよいというものではありません。 https://www.amazon.jobs/content/jp/our-workplace/leadership-principles 15/18
Q. 今後の展望は? 16/18
A. ツールの発展に応じて柔軟に ローリングウィンドウ機能がCloudWatchに実装されれば作り込みが減らせるの で、AWSに機能追加の要望を出そうと考えています。 一方で、New RelicやDatadogでも柔軟な実装が可能になれば、それらのツールに 移行することもありえます。CloudWatchに比べ、サービスレベル低下の原因調査 がしやすくなるためです。 https://findy-tools.io/products/amazon-cloudwatch/36/197 17/18
ご清聴ありがとうございました Amazon CloudWatchでSLOを監視してみた なぜSLOの監視を始めたのか? 「オオカミ少年アラート」を減らすため CloudWatchを選んだ理由は? 理想の条件式、かつ、低コストで監視できるから 今後の展望は? ツールの発展に応じて柔軟に 18/18