Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アラートの過不足をなくす
Search
iwamot
February 10, 2023
Technology
1
150
アラートの過不足をなくす
2023-02-10
ENECHANGE Tech Talk (社内勉強会)
iwamot
February 10, 2023
Tweet
Share
More Decks by iwamot
See All by iwamot
AWS⼊社という選択肢、⾒えていますか
iwamot
2
1.2k
40代後半で開発エンジニアからクラウドインフラエンジニアにキャリアチェンジし、生き残れる自信がようやく持てた話
iwamot
9
8.9k
DockerのマルチプラットフォームイメージをGitHub Actionsでビルドして公開する際に、参考にしたドキュメントと便利だったツール
iwamot
4
330
RAGもファインチューニングも使わない 素朴なAIチャットボットを職場に導入した結果
iwamot
1
170
Amazon CloudWatchでSLOを監視してみた CODT 2024 クロージングイベント版
iwamot
0
120
Cost-Effective SLO Error Budget Monitoring with Athena and CloudWatch
iwamot
0
930
Amazon CloudWatchでSLOを監視してみた
iwamot
0
110
AWS Protonの概要
iwamot
0
180
ENECHANGEが実現した管理者の工数負担を削減しながらもAWSセキュリティを強化した方法とは
iwamot
0
180
Other Decks in Technology
See All in Technology
ハイテク休憩
sat
PRO
2
160
組織に自動テストを書く文化を根付かせる戦略(2024冬版) / Building Automated Test Culture 2024 Winter Edition
twada
PRO
17
4.5k
小学3年生夏休みの自由研究「夏休みに Copilot で遊んでみた」
taichinakamura
0
160
alecthomas/kong はいいぞ / kamakura.go#7
fujiwara3
1
300
NilAway による静的解析で「10 億ドル」を節約する #kyotogo / Kyoto Go 56th
ytaka23
3
380
Amazon Kendra GenAI Index 登場でどう変わる? 評価から学ぶ最適なRAG構成
naoki_0531
0
110
How to be an AWS Community Builder | 君もAWS Community Builderになろう!〜2024 冬 CB募集直前対策編?!〜
coosuke
PRO
2
2.8k
サーバレスアプリ開発者向けアップデートをキャッチアップしてきた #AWSreInvent #regrowth_fuk
drumnistnakano
0
200
生成AIのガバナンスの全体像と現実解
fnifni
1
190
スタートアップで取り組んでいるAzureとMicrosoft 365のセキュリティ対策/How to Improve Azure and Microsoft 365 Security at Startup
yuj1osm
0
220
re:Invent 2024 Innovation Talks(NET201)で語られた大切なこと
shotashiratori
0
310
新機能VPCリソースエンドポイント機能検証から得られた考察
duelist2020jp
0
220
Featured
See All Featured
Music & Morning Musume
bryan
46
6.2k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
810
Art, The Web, and Tiny UX
lynnandtonic
298
20k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
The Pragmatic Product Professional
lauravandoore
32
6.3k
A designer walks into a library…
pauljervisheath
204
24k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
KATA
mclloyd
29
14k
Making Projects Easy
brettharned
116
5.9k
The Language of Interfaces
destraynor
154
24k
How To Stay Up To Date on Web Technology
chriscoyier
789
250k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Transcript
アラートの過不足をなくす 2023-02-10 ENECHANGE Tech Talk (社内勉強会) CTO室 岩本隆史 (@iwamot)
現状の問題点 不必要なアラートが多い 必要なアラートが足りない
不必要なアラートが多い
不必要なアラートの例 CPU使用率が高い 不正なリクエストによって例外が発生している
アラートの定義 深夜であっても即対応すべき事象を知らせるもの 後日対応でよいならチケットで知らせればよい
不必要なアラートの問題点 即対応すべき事象が埋もれてしまう 無視が習慣化してしまう
不必要なアラートをなくす CPU使用率が高い → 削除する 不正なリクエストによって例外が発生している → アプリ側でハンド リングして4xxエラーを返す
必要なアラートが足りない
必要なアラートの例 サービスレベル (SLI) の悪化 お客様に迷惑がかかる 収益に悪影響がある ディスク空き容量の急激な低下 突然サービス不能になりかねない
必要なアラートを仕掛ける サービスレベル (SLI) の悪化 → 手段を検討中 ディスク空き容量の急激な低下 → 一部実施済みだが改善する
おわりに
ご協力のお願い 即対応が必要なアラートのみにしていきましょう サービスレベル目標 (SLO) を定義していきましょう
参考記事 Google - Site Reliability Engineering 訳書『SRE サイトリライアビリティエンジニアリング』 クラウド環境でのアラートを考えてみよう 監視疲れを起こさない工夫