Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
「複数ウィンドウ、複数バーンレートのアラート」を設定する際の注意点
Search
iwamot
PRO
May 17, 2023
Technology
1
1.3k
「複数ウィンドウ、複数バーンレートのアラート」を設定する際の注意点
2023-05-19
SRE大集合!みんなで学ぶ、信頼性を高めるための取り組みLT大会
https://findy.connpass.com/event/281605/
iwamot
PRO
May 17, 2023
Tweet
Share
More Decks by iwamot
See All by iwamot
名単体テスト 禁断の傀儡(モック)
iwamot
PRO
1
410
クォータ監視、AWS Organizations環境でも楽勝です✌️
iwamot
PRO
2
430
Cline、めっちゃ便利、お金が飛ぶ💸
iwamot
PRO
22
21k
開発組織を進化させる!AWSで実践するチームトポロジー
iwamot
PRO
3
1.1k
始めないともったいない!SLO運用で得られる3つのメリット
iwamot
PRO
1
140
あなたの人生も変わるかも?AWS認定2つで始まったウソみたいな話
iwamot
PRO
3
7.7k
効率的な技術組織が作れる!書籍『チームトポロジー』要点まとめ
iwamot
PRO
2
330
AWS⼊社という選択肢、⾒えていますか
iwamot
PRO
2
1.4k
40代後半で開発エンジニアからクラウドインフラエンジニアにキャリアチェンジし、生き残れる自信がようやく持てた話
iwamot
PRO
9
9.3k
Other Decks in Technology
See All in Technology
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
24k
いまさら聞けない Git 超入門 〜Gitって結局なに?から始める第一歩〜
devops_vtj
0
160
All About Sansan – for New Global Engineers
sansan33
PRO
1
1.2k
カンファレンスのつくりかた / The Conference Code: What Makes It All Work
tomzoh
8
920
積み上げられた技術資産と向き合いながら、プロダクトの信頼性をどう守るか
plaidtech
PRO
0
810
“⾞が通れるほど⼤きな”セキュリティーホールを抑えながらログインしたい
taiseiue
0
160
Slackひと声でブログ校正!Claudeレビュー自動化編
yusukeshimizu
3
160
AIに実況させる / AI Streamer
motemen
3
1.4k
令和トラベルQAのAI活用
seigaitakahiro
0
520
名刺メーカーDevグループ 紹介資料
sansan33
PRO
0
740
ProductZine Day 2025 Assuredのプロダクトディスカバリー
kechol
0
110
Machine Intelligence for Vision, Language, and Actions
keio_smilab
PRO
0
490
Featured
See All Featured
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
Optimising Largest Contentful Paint
csswizardry
37
3.3k
BBQ
matthewcrist
88
9.7k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.3k
Fontdeck: Realign not Redesign
paulrobertlloyd
84
5.5k
Done Done
chrislema
184
16k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
A designer walks into a library…
pauljervisheath
205
24k
4 Signs Your Business is Dying
shpigford
183
22k
Why Our Code Smells
bkeepers
PRO
336
57k
Reflections from 52 weeks, 52 projects
jeffersonlam
349
20k
Building Adaptive Systems
keathley
41
2.6k
Transcript
「複数ウィンドウ、複数バーンレートのアラート」を 設定する際の注意点 2023-05-19 SRE大集合!みんなで学ぶ、信頼性を高めるための取り組みLT大会 https://findy.connpass.com/event/281605/ ENECHANGE株式会社 CTO室 インフラエンジニア兼SRE 岩本隆史 (iwamot)
こんな人
複数ウィンドウ、複数バーンレートのアラート
Google推奨のアラート設定 https://sre.google/workbook/alerting-on-slos/
2つのウィンドウで エラーバジェット消費を賢く通知
3つのバーンレートの監視が推奨 Severity Long window Short window Burn rate Error budget
consumed Page 1 hour 5 minutes 14.4 2% Page 6 hours 30 minutes 6 5% Ticket 3 days 6 hours 1 10%
条件式(ページ・チケット) ( job:slo_errors_per_request:ratio_rate1h{job="myjob"} > (14.4*0.001) and job:slo_errors_per_request:ratio_rate5m{job="myjob"} > (14.4*0.001) )
or ( job:slo_errors_per_request:ratio_rate6h{job="myjob"} > (6*0.001) and job:slo_errors_per_request:ratio_rate30m{job="myjob"} > (6*0.001) ) job:slo_errors_per_request:ratio_rate3d{job="myjob"} > 0.001 and job:slo_errors_per_request:ratio_rate6h{job="myjob"} > 0.001
そうか、この条件式をそのまま使えばいいんだな
違います
注意点1 適切な閾値はSLOによって異なる
係数 (0.001) は目標値次第
「0.001」は目標値99.9%のこと 1 - 0.999 = 0.001
99%なら「0.01」 1 - 0.99 = 0.01
バーンレート (14.4 / 6 / 1) は期間次第
条件式のバーンレートは30日間が前提 (30 * 24) / 1 * 2% = 14.4
(30 * 24) / 6 * 5% = 6 (30 * 24) / (3 * 24) * 10% = 1
7日間で計算すると (7 * 24) / 1 * 2% = 3.36
(7 * 24) / 6 * 5% = 1.4 (7 * 24) / (3 * 24) * 10% = 0.233
Googleは28日間を推奨
28日間で計算すると (28 * 24) / 1 * 2% = 13.44
(28 * 24) / 6 * 5% = 5.6 (28 * 24) / (3 * 24) * 10% = 0.933
「28日間で99%以上」の条件式 ( job:slo_errors_per_request:ratio_rate1h{job="myjob"} > (13.44*0.01) and job:slo_errors_per_request:ratio_rate5m{job="myjob"} > (13.44*0.01) )
or ( job:slo_errors_per_request:ratio_rate6h{job="myjob"} > (5.6*0.01) and job:slo_errors_per_request:ratio_rate30m{job="myjob"} > (5.6*0.01) ) job:slo_errors_per_request:ratio_rate3d{job="myjob"} > (0.933*0.01) and job:slo_errors_per_request:ratio_rate6h{job="myjob"} > (0.933*0.01)
なるほど。ちゃんと設定しよう これでエラーが急増しても ページが飛ぶから安心だな
違います
注意点2 SLOによってはページが飛ばない
例:1秒以内の応答が30日間で50%以上
「30日間で50%以上」の条件式 ( job:slo_errors_per_request:ratio_rate1h{job="myjob"} > (14.4*0.5) and job:slo_errors_per_request:ratio_rate5m{job="myjob"} > (14.4*0.5) )
or ( job:slo_errors_per_request:ratio_rate6h{job="myjob"} > (6*0.5) and job:slo_errors_per_request:ratio_rate30m{job="myjob"} > (6*0.5) ) job:slo_errors_per_request:ratio_rate3d{job="myjob"} > 0.5 and job:slo_errors_per_request:ratio_rate6h{job="myjob"} > 0.5
ページ条件 = エラー率300%超… 14.4 * 0.5 = 7.2 = 720%
6 * 0.5 = 3 = 300% 0.5 = 50%
エラー率300%はありえない ページは飛ばない
30日間の場合、飛ぶのは83.34%以上 6 * (1 - N) < 1 (1 -
N) < 0.1666 N > 0.8334
まとめ
「複数ウィンドウ、複数バーンレートのアラート」を 設定する際の注意点
適切な閾値はSLOによって異なる SLOによってはページが飛ばない