Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
「複数ウィンドウ、複数バーンレートのアラート」を設定する際の注意点
Search
iwamot
PRO
May 17, 2023
Technology
1
1.3k
「複数ウィンドウ、複数バーンレートのアラート」を設定する際の注意点
2023-05-19
SRE大集合!みんなで学ぶ、信頼性を高めるための取り組みLT大会
https://findy.connpass.com/event/281605/
iwamot
PRO
May 17, 2023
Tweet
Share
More Decks by iwamot
See All by iwamot
復号できなくなると怖いので、AWS KMSキーの削除を「面倒」にしてみた
iwamot
PRO
3
63
IPA&AWSダブル全冠が明かす、人生を変えた勉強法のすべて
iwamot
PRO
13
9.3k
2年でここまで成長!AWSで育てたAI Slack botの軌跡
iwamot
PRO
4
1k
名単体テスト 禁断の傀儡(モック)
iwamot
PRO
1
500
クォータ監視、AWS Organizations環境でも楽勝です✌️
iwamot
PRO
2
500
Cline、めっちゃ便利、お金が飛ぶ💸
iwamot
PRO
22
21k
開発組織を進化させる!AWSで実践するチームトポロジー
iwamot
PRO
3
1.3k
始めないともったいない!SLO運用で得られる3つのメリット
iwamot
PRO
1
160
あなたの人生も変わるかも?AWS認定2つで始まったウソみたいな話
iwamot
PRO
3
8.2k
Other Decks in Technology
See All in Technology
JOAI発表資料 @ 関東kaggler会
joai_committee
1
180
あなたの知らない OneDrive
murachiakira
0
220
サービスロボット最前線:ugoが挑むPhysical AI活用
kmatsuiugo
0
180
GitHub Copilot coding agent を推したい / AIDD Nagoya #1
tnir
1
2.7k
なごミュ@SPAJAM2025 第二回予選
1901drama
0
120
AIは変更差分からユニットテスト_結合テスト_システムテストでテストすべきことが出せるのか?
mineo_matsuya
5
3.1k
Oracle Base Database Service:サービス概要のご紹介
oracle4engineer
PRO
2
20k
AWSの最新サービスでAIエージェント構築に楽しく入門しよう
minorun365
PRO
10
570
夏休みWebアプリパフォーマンス相談室/web-app-performance-on-radio
hachi_eiji
1
290
Exadata Database Service on Dedicated Infrastructure セキュリティ、ネットワーク、および管理について
oracle4engineer
PRO
1
350
生成AI活用のROI、どう測る? DMM.com 開発責任者から学ぶ「AI効果検証のノウハウ」 / ROI of AI
i35_267
4
150
モダンな現場と従来型の組織——そこに生じる "不整合" を解消してこそチームがパフォーマンスを発揮できる / Team-oriented Organization Design 20250825
mtx2s
4
420
Featured
See All Featured
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
RailsConf 2023
tenderlove
30
1.2k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.8k
Designing Experiences People Love
moore
142
24k
Faster Mobile Websites
deanohume
309
31k
Unsuck your backbone
ammeep
671
58k
Become a Pro
speakerdeck
PRO
29
5.5k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3k
How GitHub (no longer) Works
holman
315
140k
Making the Leap to Tech Lead
cromwellryan
134
9.5k
Navigating Team Friction
lara
188
15k
For a Future-Friendly Web
brad_frost
179
9.9k
Transcript
「複数ウィンドウ、複数バーンレートのアラート」を 設定する際の注意点 2023-05-19 SRE大集合!みんなで学ぶ、信頼性を高めるための取り組みLT大会 https://findy.connpass.com/event/281605/ ENECHANGE株式会社 CTO室 インフラエンジニア兼SRE 岩本隆史 (iwamot)
こんな人
複数ウィンドウ、複数バーンレートのアラート
Google推奨のアラート設定 https://sre.google/workbook/alerting-on-slos/
2つのウィンドウで エラーバジェット消費を賢く通知
3つのバーンレートの監視が推奨 Severity Long window Short window Burn rate Error budget
consumed Page 1 hour 5 minutes 14.4 2% Page 6 hours 30 minutes 6 5% Ticket 3 days 6 hours 1 10%
条件式(ページ・チケット) ( job:slo_errors_per_request:ratio_rate1h{job="myjob"} > (14.4*0.001) and job:slo_errors_per_request:ratio_rate5m{job="myjob"} > (14.4*0.001) )
or ( job:slo_errors_per_request:ratio_rate6h{job="myjob"} > (6*0.001) and job:slo_errors_per_request:ratio_rate30m{job="myjob"} > (6*0.001) ) job:slo_errors_per_request:ratio_rate3d{job="myjob"} > 0.001 and job:slo_errors_per_request:ratio_rate6h{job="myjob"} > 0.001
そうか、この条件式をそのまま使えばいいんだな
違います
注意点1 適切な閾値はSLOによって異なる
係数 (0.001) は目標値次第
「0.001」は目標値99.9%のこと 1 - 0.999 = 0.001
99%なら「0.01」 1 - 0.99 = 0.01
バーンレート (14.4 / 6 / 1) は期間次第
条件式のバーンレートは30日間が前提 (30 * 24) / 1 * 2% = 14.4
(30 * 24) / 6 * 5% = 6 (30 * 24) / (3 * 24) * 10% = 1
7日間で計算すると (7 * 24) / 1 * 2% = 3.36
(7 * 24) / 6 * 5% = 1.4 (7 * 24) / (3 * 24) * 10% = 0.233
Googleは28日間を推奨
28日間で計算すると (28 * 24) / 1 * 2% = 13.44
(28 * 24) / 6 * 5% = 5.6 (28 * 24) / (3 * 24) * 10% = 0.933
「28日間で99%以上」の条件式 ( job:slo_errors_per_request:ratio_rate1h{job="myjob"} > (13.44*0.01) and job:slo_errors_per_request:ratio_rate5m{job="myjob"} > (13.44*0.01) )
or ( job:slo_errors_per_request:ratio_rate6h{job="myjob"} > (5.6*0.01) and job:slo_errors_per_request:ratio_rate30m{job="myjob"} > (5.6*0.01) ) job:slo_errors_per_request:ratio_rate3d{job="myjob"} > (0.933*0.01) and job:slo_errors_per_request:ratio_rate6h{job="myjob"} > (0.933*0.01)
なるほど。ちゃんと設定しよう これでエラーが急増しても ページが飛ぶから安心だな
違います
注意点2 SLOによってはページが飛ばない
例:1秒以内の応答が30日間で50%以上
「30日間で50%以上」の条件式 ( job:slo_errors_per_request:ratio_rate1h{job="myjob"} > (14.4*0.5) and job:slo_errors_per_request:ratio_rate5m{job="myjob"} > (14.4*0.5) )
or ( job:slo_errors_per_request:ratio_rate6h{job="myjob"} > (6*0.5) and job:slo_errors_per_request:ratio_rate30m{job="myjob"} > (6*0.5) ) job:slo_errors_per_request:ratio_rate3d{job="myjob"} > 0.5 and job:slo_errors_per_request:ratio_rate6h{job="myjob"} > 0.5
ページ条件 = エラー率300%超… 14.4 * 0.5 = 7.2 = 720%
6 * 0.5 = 3 = 300% 0.5 = 50%
エラー率300%はありえない ページは飛ばない
30日間の場合、飛ぶのは83.34%以上 6 * (1 - N) < 1 (1 -
N) < 0.1666 N > 0.8334
まとめ
「複数ウィンドウ、複数バーンレートのアラート」を 設定する際の注意点
適切な閾値はSLOによって異なる SLOによってはページが飛ばない