Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
効果的なアラートを再考する [メモリ使用率が80%になりました。] んで、どうすればいいん?
Search
Broadleaf Co., Ltd.
June 29, 2022
Programming
0
590
効果的なアラートを再考する [メモリ使用率が80%になりました。] んで、どうすればいいん?
Cloud Operator Days Tokyo 2022
Broadleaf Co., Ltd.
June 29, 2022
Tweet
Share
More Decks by Broadleaf Co., Ltd.
See All by Broadleaf Co., Ltd.
クラウドコスト管理の正攻法を知りたい〜FinOps Foundationに学ぶFinOpsの考え方〜
broadleaf
0
160
Elasticsearch_Community_in_Fukuoka_20240711
broadleaf
0
150
力が欲しいか!!力が欲しいのなら...最小権限をくれてやる!!
broadleaf
0
240
アンチパターンだらけ!?Cassandraを基盤とした大規模業務アプリケーションと2DX実現の裏側
broadleaf
0
520
Our60DaysWar-MigrationFromOn-premiseToCloud
broadleaf
0
2.6k
Infrastructure as Codeで インフラチームはもっと強くなる/developersummitsummer-iac
broadleaf
3
2.3k
Spring Bootでマイクロサービス作って苦労したお話 / DeveloperSummit2019-SpringBoot
broadleaf
12
10k
今どきのインフラはペットでは無かった / DeveloperSummit2019-IaC
broadleaf
0
1.8k
DeveloperSummit 2018 Cassandra, Kubernetesによる大規模データ基盤の仕組みと苦労 / Developer Summit 2018 Infrastructure by Cassandra and Kubernetes
broadleaf
2
1.8k
Other Decks in Programming
See All in Programming
ソフトウェア品質を数字で捉える技術。事業成長を支えるシステム品質の マネジメント
takuya542
2
15k
型で語るカタ
irof
0
710
PHPカンファレンス関西2025 基調講演
sugimotokei
4
250
構文解析器入門
ydah
5
940
ニーリーにおけるプロダクトエンジニア
nealle
0
950
Quand Symfony, ApiPlatform, OpenAI et LangChain s'allient pour exploiter vos PDF : de la théorie à la production…
ahmedbhs123
0
220
効率的な開発手段として VRTを活用する
ishkawa
1
170
Yes, You Can Work on Rails & any other Gem
kaspth
0
100
オンコール⼊⾨〜ページャーが鳴る前に、あなたが備えられること〜 / Before The Pager Rings
yktakaha4
2
1k
顧客の画像データをテラバイト単位で配信する 画像サーバを WebP にした際に起こった課題と その対応策 ~継続的な取り組みを添えて~
takutakahashi
4
1.3k
テストから始めるAgentic Coding 〜Claude Codeと共に行うTDD〜 / Agentic Coding starts with testing
rkaga
16
5.6k
LT 2025-06-30: プロダクトエンジニアの役割
yamamotok
0
880
Featured
See All Featured
Making Projects Easy
brettharned
116
6.3k
Being A Developer After 40
akosma
90
590k
The Invisible Side of Design
smashingmag
301
51k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
18
990
Embracing the Ebb and Flow
colly
86
4.8k
For a Future-Friendly Web
brad_frost
179
9.8k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.3k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.4k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Producing Creativity
orderedlist
PRO
346
40k
Side Projects
sachag
455
42k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
980
Transcript
効果的なアラートを再考する [メモリ使用率が80%になりました。] んで、どうすればいいん? 株式会社ブロードリーフ 左近充 裕樹 #CODT2022 1
Copyright © Broadleaf Co., Ltd. All Rights Reserved. # 自己紹介
## 名前 左近充裕樹 _さこんじゅう ひろき_ ## 所属 - 株式会社 ブロードリーフ - プロダクトインフラ課 ## 役割 - インフラエンジニア @Sakonju 2
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 会社紹介 3
Copyright © Broadleaf Co., Ltd. All Rights Reserved. とある日 あなたは、運用担当者です。
長い間システムの運用業務をしています。 会社のslackのアラートチャンネルにメッセージが届きます。 4
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 頭の中 そうだね、80%だね
5
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 頭の中 多分、すぐ復旧するやつだ
6
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 頭の中 やっぱりね
7
無意味 https://pixabay.com/images/id-1849404/ 8
Copyright © Broadleaf Co., Ltd. All Rights Reserved. どこらへんが無意味なのか🤔 •
対応する必要がない状態でアラートが来る • アラートに対して何をすればいいか分からない • アラートが発報した原因が分からない • どのような影響があるかが分からない 9
Copyright © Broadleaf Co., Ltd. All Rights Reserved. そもそも監視とは? “監視とは、あるシステムや
そのシステムのコンポーネントの 振る舞いや出力を観察し チェックしつづける行為である。” URL: https://www.oreilly.co.jp/books/9784873118642/ 出典: 日本語版『入門 監視』Mike Julian著、オライリー・ジャパン、 ISBN978-4-87311-864-2 10
Copyright © Broadleaf Co., Ltd. All Rights Reserved. アラートとは アラートは監視されている状態を維持するための
手段の一つである。 システムが正常に動作していないとき、 または、システムが正常に動作しなくなることが明らかな場合 にシステムを正常に動作させる対応を行うためのトリガーであ る。 システムが正常に動作していない = ユーザーが不満がある状態 11
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 何を監視すべきか? The
Four Golden Signals(4大シグナル) • Latency • Traffic • Errors • Saturation URL: https://www.oreilly.co.jp/books/9784873117911/ 出典: 日本語版『SRE サイトリライアビリティエンジニアリング』 Betsy Beyer、Chris Jones、Jennifer Petoff、Niall Richard Murphy編、オライリー・ジャパン、 ISBN978-4-87311-791-1 12
Copyright © Broadleaf Co., Ltd. All Rights Reserved. どういったときにアラートを出すべきか? システムが正常に動作していないとき、
または、システムが正常に動作しなくなることが 明らかな場合 ex) • 外部から疎通が出来ない • 90パーセンタイルのレイテンシがいつもの2倍になっている • エラーレートがいつもの2倍になっている • ストレージの使用率が90%を超過している • メモリの使用率が80%を超過している ◦ ただし、80%以上が10分を超過するとレイテンシに影響するなど、明らか に正常に動作しないことが分かっている場合 13
Copyright © Broadleaf Co., Ltd. All Rights Reserved. アラートの条件を工夫する •
しきい値に達しない急な変化を気づきやすくる ◦ 特定のしきい値だけではなく変化量も使う ▪ ex) しきい値80%, 短時間30% -> 70% ではアラートが発報しない • ユーザーの満足度を意識する ◦ レイテンシは平均値ではなくパーセンタイルを使う • 偽陽性となるアラートを減らす ◦ アラートになるまでの継続時間を適切に設定する 14
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 通知方法を工夫する 通知方法は重要度(severity)によって分ける
⚠メールはワークしづらい • 誰が調べているかわからない • ディスカッションが出来ない • 無視されがち 15
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 手順書を作る アラートには必ずセットで手順書を作る
• 誰でも対応が出来る ◦ オンコールのローテーションが組める • プラクティスに再現性がある • 安心して作業できる • オンボーディングにも有益 ◦ どのような問題が発生するか事前に知ることが出来る 16
Copyright © Broadleaf Co., Ltd. All Rights Reserved. Playbook? Runbook?
“Runbookがレシピや料理本 だとしたら、Playbookはある ソーシャルイベント(例えば結 婚式)を開催するためのガイド ブックとなる。料理本は、食事 を効果的に作るために必要で すが、食事はイベント全体の 一面に過ぎません。” 出典: PagerDuty社のブログ URL: https://www.pagerduty.com/resources/learn/what-is-a-runbook/ 17
Copyright © Broadleaf Co., Ltd. All Rights Reserved. Alert <->
Playbook <-> Runbook 18
Copyright © Broadleaf Co., Ltd. All Rights Reserved. Playbookに記述するもの •
ユーザーへの影響 • 他システムへの影響 • 推奨される実施者 • 制約事項 ◦ 必要な権限、必要なツール(環境) • アラートの目的 • 何が発生しているか • 調査方法・対応方法 -> Runbookへのリンク • エスカレーション先 • 正常時の状態 19
Copyright © Broadleaf Co., Ltd. All Rights Reserved. アラートを減らすために アラート疲れが発生しないような対策
• 偽陽性のアラートを削除する ◦ ユーザー影響のない盲目で形骸化したアラートを無くす • 徹底的に復旧を自動化をする ◦ 手順書に起こせるものは自動化出来る可能性が高い • 定期的にチームでリソースの傾向を確認する 20
Copyright © Broadleaf Co., Ltd. All Rights Reserved. まとめ •
アラートは正常に動作させる対応を行うための トリガー • 4大シグナルを監視する • 通知方法は重要度で分ける • アラートは減らしていく • 運用手順書(Playbook,Runbook)を作る 21
WE’RE HIRING👐 最後までご視聴いただき、ありがとうございました 22