Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Amazon CloudWatchでSLOを監視してみた CODT 2024 クロージングイベント版
Search
iwamot
September 06, 2024
Technology
0
130
Amazon CloudWatchでSLOを監視してみた CODT 2024 クロージングイベント版
2024-09-06
Cloud Operator Days Tokyo 2024
https://cloudopsdays.com/closing/
iwamot
September 06, 2024
Tweet
Share
More Decks by iwamot
See All by iwamot
あなたの人生も変わるかも?AWS認定2つで始まったウソみたいな話
iwamot
3
850
効率的な技術組織が作れる!書籍『チームトポロジー』要点まとめ
iwamot
2
200
AWS⼊社という選択肢、⾒えていますか
iwamot
2
1.3k
40代後半で開発エンジニアからクラウドインフラエンジニアにキャリアチェンジし、生き残れる自信がようやく持てた話
iwamot
9
9k
DockerのマルチプラットフォームイメージをGitHub Actionsでビルドして公開する際に、参考にしたドキュメントと便利だったツール
iwamot
4
370
RAGもファインチューニングも使わない 素朴なAIチャットボットを職場に導入した結果
iwamot
1
200
Cost-Effective SLO Error Budget Monitoring with Athena and CloudWatch
iwamot
0
960
Amazon CloudWatchでSLOを監視してみた
iwamot
0
130
AWS Protonの概要
iwamot
0
210
Other Decks in Technology
See All in Technology
生成AI × 旅行 LLMを活用した旅行プラン生成・チャットボット
kominet_ava
0
150
Evolving Architecture
rainerhahnekamp
3
250
実践! ソフトウェアエンジニアリングの価値の計測 ── Effort、Output、Outcome、Impact
nomuson
0
2k
深層学習と3Dキャプチャ・3Dモデル生成(土木学会応用力学委員会 応用数理・AIセミナー)
pfn
PRO
0
460
GoogleのAIエージェント論 Authors: Julia Wiesinger, Patrick Marlow and Vladimir Vuskovic
customercloud
PRO
0
150
【JAWS-UG大阪 reInvent reCap LT大会 サンバが始まったら強制終了】“1分”で初めてのソロ参戦reInventを数字で振り返りながら反省する
ttelltte
0
140
Oracle Exadata Database Service(Dedicated Infrastructure):サービス概要のご紹介
oracle4engineer
PRO
0
12k
JAWS-UG20250116_iOSアプリエンジニアがAWSreInventに行ってきた(真面目編)
totokit4
0
140
データ基盤におけるIaCの重要性とその運用
mtpooh
4
500
Godot Engineについて調べてみた
unsoluble_sugar
0
390
[IBM TechXchange Dojo]Watson Discoveryとwatsonx.aiでRAGを実現!座学①
siyuanzh09
0
110
PaaSの歴史と、 アプリケーションプラットフォームのこれから
jacopen
7
1.4k
Featured
See All Featured
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
113
50k
A designer walks into a library…
pauljervisheath
205
24k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.8k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
7
570
Building Flexible Design Systems
yeseniaperezcruz
328
38k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
49
2.2k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
860
A Tale of Four Properties
chriscoyier
157
23k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
26
1.9k
Six Lessons from altMBA
skipperchong
27
3.6k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
192
16k
Transcript
Amazon CloudWatchでSLOを監視してみた CODT 2024 クロージングイベント版 2024-09-06 Cloud Operator Days Tokyo
2024 https://cloudopsdays.com/closing/ ENECHANGE株式会社 岩本隆史
岩本 隆史 / Takashi Iwamoto 現職:ENECHANGE株式会社 VPoT 前職:AWS Japan クラウドサポートアソシエイト
AWS Community Builder (Cloud Operations) https://x.com/iwamot
セッション動画 https://event2024.cloudopsdays.com/2024/07/06/10/ 3/18
Amazon CloudWatchでSLOを監視してみた 1. 複数ウィンドウ、複数バーンレートの監視が大前提 2. ENECHANGEではCloudWatchで監視中 3. 「複合アラーム」と「カスタムメトリクス」の活用が肝 4. コストは月20ドルほど
https://speakerdeck.com/iwamot/amazon-cloudwatch-slo-monitoring?slide=3 4/18
Q. なぜSLOの監視を始めたのか? 5/18
A. 「オオカミ少年アラート」を減らすため 以前は、CPUやメモリの使用率といったリソースのメトリクスを直接的に監視し ており、サービスが問題なく提供できていてもアラートが飛ぶ状況でした。いわ ゆる「オオカミ少年アラート」の多い状況です。 https://findy-tools.io/products/amazon-cloudwatch/36/197 6/18
指針:「原因」より「症状」にアラートを クラウドを使うにあたって、うまくアラートを設定するには SLI/SLO をきちんと 定義し、それに応じたアラートの度合いを決めるのがよいです。また、SLO の対 象となる指標としては、原因じゃなくて症状、つまりユーザへの具体的な影響を 測れるものが良いです。そして、ある程度のエラーを許容しつつユーザへの影響 がでないようなシステムの作りを目指しましょう。 https://medium.com/google-cloud-jp/alerting-in-cloud-deb0aa35ec16
7/18
成果:可用性やレイテンシの悪化に気づけるように オオカミ少年アラートが削減できた一方で、可用性やレイテンシの悪化にすぐ気 づけるようになりました。また、それらの指標に対する開発チームの意識が高ま りました。 https://findy-tools.io/products/amazon-cloudwatch/36/197 8/18
現時点の監視対象:7件のサービス、12件のURL https://speakerdeck.com/iwamot/amazon-cloudwatch-slo-monitoring?slide=15 9/18
Q. CloudWatchを選んだ理由は? 10/18
A. 理想の条件式、かつ、低コストで監視できるから ツール 理想の条件式 低コスト CloudWatch ◯ ◯ New Relic
△(検証当時) △ Datadog ✕(検証当時) - 11/18
『ワークブック』の条件式が理想 expr: ( job:slo_errors_per_request:ratio_rate1h{job="myjob"} > (14.4*0.001) and job:slo_errors_per_request:ratio_rate5m{job="myjob"} > (14.4*0.001)
) or ( job:slo_errors_per_request:ratio_rate6h{job="myjob"} > (6*0.001) and job:slo_errors_per_request:ratio_rate30m{job="myjob"} > (6*0.001) ) https://sre.google/workbook/alerting-on-slos/ 12/18
CloudWatchなら、1件20ドル/月で監視可能 課金対象 件数 コスト (ドル/月) ダッシュボード 1 3.0 メトリクス 28
8.4 アラーム 17 1.7 複合アラーム 5 2.5 https://speakerdeck.com/iwamot/amazon-cloudwatch-slo-monitoring?slide=24 13/18
実装もそれほど難しくなかった https://findy-tools.io/products/amazon-cloudwatch/36/197 14/18
Amazon曰く「倹約は創意工夫、自立心、発明の源」 Frugality 私たちは少ないリソースでより多くのことを実現します。倹約の精神は創意工 夫、自立心、発明を育む源になります。スタッフの人数、予算、固定費は多けれ ばよいというものではありません。 https://www.amazon.jobs/content/jp/our-workplace/leadership-principles 15/18
Q. 今後の展望は? 16/18
A. ツールの発展に応じて柔軟に ローリングウィンドウ機能がCloudWatchに実装されれば作り込みが減らせるの で、AWSに機能追加の要望を出そうと考えています。 一方で、New RelicやDatadogでも柔軟な実装が可能になれば、それらのツールに 移行することもありえます。CloudWatchに比べ、サービスレベル低下の原因調査 がしやすくなるためです。 https://findy-tools.io/products/amazon-cloudwatch/36/197 17/18
ご清聴ありがとうございました Amazon CloudWatchでSLOを監視してみた なぜSLOの監視を始めたのか? 「オオカミ少年アラート」を減らすため CloudWatchを選んだ理由は? 理想の条件式、かつ、低コストで監視できるから 今後の展望は? ツールの発展に応じて柔軟に 18/18