Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
効果的なアラートを再考する [メモリ使用率が80%になりました。] んで、どうすればいいん?
Search
Broadleaf Co., Ltd.
June 29, 2022
Programming
0
630
効果的なアラートを再考する [メモリ使用率が80%になりました。] んで、どうすればいいん?
Cloud Operator Days Tokyo 2022
Broadleaf Co., Ltd.
June 29, 2022
Tweet
Share
More Decks by Broadleaf Co., Ltd.
See All by Broadleaf Co., Ltd.
日常にバージョンアップを 〜 Kubernetes Operator で持続的な運用 〜
broadleaf
0
35
クラウドコスト管理の正攻法を知りたい〜FinOps Foundationに学ぶFinOpsの考え方〜
broadleaf
0
190
Elasticsearch_Community_in_Fukuoka_20240711
broadleaf
0
170
力が欲しいか!!力が欲しいのなら...最小権限をくれてやる!!
broadleaf
0
270
アンチパターンだらけ!?Cassandraを基盤とした大規模業務アプリケーションと2DX実現の裏側
broadleaf
0
570
Our60DaysWar-MigrationFromOn-premiseToCloud
broadleaf
0
2.6k
Infrastructure as Codeで インフラチームはもっと強くなる/developersummitsummer-iac
broadleaf
3
2.3k
Spring Bootでマイクロサービス作って苦労したお話 / DeveloperSummit2019-SpringBoot
broadleaf
12
10k
今どきのインフラはペットでは無かった / DeveloperSummit2019-IaC
broadleaf
0
1.9k
Other Decks in Programming
See All in Programming
モデル駆動設計をやってみようワークショップ開催報告(Modeling Forum2025) / model driven design workshop report
haru860
0
280
Canon EOS R50 V と R5 Mark II 購入でみえてきた最近のデジイチ VR180 事情、そして VR180 静止画に活路を見出すまで
karad
0
130
AIの誤りが許されない業務システムにおいて“信頼されるAI” を目指す / building-trusted-ai-systems
yuya4
6
3.8k
AIエージェントの設計で注意するべきポイント6選
har1101
5
1.6k
実はマルチモーダルだった。ブラウザの組み込みAI🧠でWebの未来を感じてみよう #jsfes #gemini
n0bisuke2
3
1.3k
tparseでgo testの出力を見やすくする
utgwkk
2
260
Pythonではじめるオープンデータ分析〜書籍の紹介と書籍で紹介しきれなかった事例の紹介〜
welliving
2
400
Giselleで作るAI QAアシスタント 〜 Pull Requestレビューに継続的QAを
codenote
0
250
re:Invent 2025 のイケてるサービスを紹介する
maroon1st
0
140
DevFest Android in Korea 2025 - 개발자 커뮤니티를 통해 얻는 가치
wisemuji
0
160
TerraformとStrands AgentsでAmazon Bedrock AgentCoreのSSO認証付きエージェントを量産しよう!
neruneruo
4
1.1k
Go コードベースの構成と AI コンテキスト定義
andpad
0
130
Featured
See All Featured
GraphQLとの向き合い方2022年版
quramy
50
14k
Practical Orchestrator
shlominoach
190
11k
Google's AI Overviews - The New Search
badams
0
860
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
0
2.2k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
180
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.1k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.3k
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
63
Agile that works and the tools we love
rasmusluckow
331
21k
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
3.4k
Reality Check: Gamification 10 Years Later
codingconduct
0
1.9k
Six Lessons from altMBA
skipperchong
29
4.1k
Transcript
効果的なアラートを再考する [メモリ使用率が80%になりました。] んで、どうすればいいん? 株式会社ブロードリーフ 左近充 裕樹 #CODT2022 1
Copyright © Broadleaf Co., Ltd. All Rights Reserved. # 自己紹介
## 名前 左近充裕樹 _さこんじゅう ひろき_ ## 所属 - 株式会社 ブロードリーフ - プロダクトインフラ課 ## 役割 - インフラエンジニア @Sakonju 2
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 会社紹介 3
Copyright © Broadleaf Co., Ltd. All Rights Reserved. とある日 あなたは、運用担当者です。
長い間システムの運用業務をしています。 会社のslackのアラートチャンネルにメッセージが届きます。 4
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 頭の中 そうだね、80%だね
5
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 頭の中 多分、すぐ復旧するやつだ
6
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 頭の中 やっぱりね
7
無意味 https://pixabay.com/images/id-1849404/ 8
Copyright © Broadleaf Co., Ltd. All Rights Reserved. どこらへんが無意味なのか🤔 •
対応する必要がない状態でアラートが来る • アラートに対して何をすればいいか分からない • アラートが発報した原因が分からない • どのような影響があるかが分からない 9
Copyright © Broadleaf Co., Ltd. All Rights Reserved. そもそも監視とは? “監視とは、あるシステムや
そのシステムのコンポーネントの 振る舞いや出力を観察し チェックしつづける行為である。” URL: https://www.oreilly.co.jp/books/9784873118642/ 出典: 日本語版『入門 監視』Mike Julian著、オライリー・ジャパン、 ISBN978-4-87311-864-2 10
Copyright © Broadleaf Co., Ltd. All Rights Reserved. アラートとは アラートは監視されている状態を維持するための
手段の一つである。 システムが正常に動作していないとき、 または、システムが正常に動作しなくなることが明らかな場合 にシステムを正常に動作させる対応を行うためのトリガーであ る。 システムが正常に動作していない = ユーザーが不満がある状態 11
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 何を監視すべきか? The
Four Golden Signals(4大シグナル) • Latency • Traffic • Errors • Saturation URL: https://www.oreilly.co.jp/books/9784873117911/ 出典: 日本語版『SRE サイトリライアビリティエンジニアリング』 Betsy Beyer、Chris Jones、Jennifer Petoff、Niall Richard Murphy編、オライリー・ジャパン、 ISBN978-4-87311-791-1 12
Copyright © Broadleaf Co., Ltd. All Rights Reserved. どういったときにアラートを出すべきか? システムが正常に動作していないとき、
または、システムが正常に動作しなくなることが 明らかな場合 ex) • 外部から疎通が出来ない • 90パーセンタイルのレイテンシがいつもの2倍になっている • エラーレートがいつもの2倍になっている • ストレージの使用率が90%を超過している • メモリの使用率が80%を超過している ◦ ただし、80%以上が10分を超過するとレイテンシに影響するなど、明らか に正常に動作しないことが分かっている場合 13
Copyright © Broadleaf Co., Ltd. All Rights Reserved. アラートの条件を工夫する •
しきい値に達しない急な変化を気づきやすくる ◦ 特定のしきい値だけではなく変化量も使う ▪ ex) しきい値80%, 短時間30% -> 70% ではアラートが発報しない • ユーザーの満足度を意識する ◦ レイテンシは平均値ではなくパーセンタイルを使う • 偽陽性となるアラートを減らす ◦ アラートになるまでの継続時間を適切に設定する 14
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 通知方法を工夫する 通知方法は重要度(severity)によって分ける
⚠メールはワークしづらい • 誰が調べているかわからない • ディスカッションが出来ない • 無視されがち 15
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 手順書を作る アラートには必ずセットで手順書を作る
• 誰でも対応が出来る ◦ オンコールのローテーションが組める • プラクティスに再現性がある • 安心して作業できる • オンボーディングにも有益 ◦ どのような問題が発生するか事前に知ることが出来る 16
Copyright © Broadleaf Co., Ltd. All Rights Reserved. Playbook? Runbook?
“Runbookがレシピや料理本 だとしたら、Playbookはある ソーシャルイベント(例えば結 婚式)を開催するためのガイド ブックとなる。料理本は、食事 を効果的に作るために必要で すが、食事はイベント全体の 一面に過ぎません。” 出典: PagerDuty社のブログ URL: https://www.pagerduty.com/resources/learn/what-is-a-runbook/ 17
Copyright © Broadleaf Co., Ltd. All Rights Reserved. Alert <->
Playbook <-> Runbook 18
Copyright © Broadleaf Co., Ltd. All Rights Reserved. Playbookに記述するもの •
ユーザーへの影響 • 他システムへの影響 • 推奨される実施者 • 制約事項 ◦ 必要な権限、必要なツール(環境) • アラートの目的 • 何が発生しているか • 調査方法・対応方法 -> Runbookへのリンク • エスカレーション先 • 正常時の状態 19
Copyright © Broadleaf Co., Ltd. All Rights Reserved. アラートを減らすために アラート疲れが発生しないような対策
• 偽陽性のアラートを削除する ◦ ユーザー影響のない盲目で形骸化したアラートを無くす • 徹底的に復旧を自動化をする ◦ 手順書に起こせるものは自動化出来る可能性が高い • 定期的にチームでリソースの傾向を確認する 20
Copyright © Broadleaf Co., Ltd. All Rights Reserved. まとめ •
アラートは正常に動作させる対応を行うための トリガー • 4大シグナルを監視する • 通知方法は重要度で分ける • アラートは減らしていく • 運用手順書(Playbook,Runbook)を作る 21
WE’RE HIRING👐 最後までご視聴いただき、ありがとうございました 22