Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
効果的なアラートを再考する [メモリ使用率が80%になりました。] んで、どうすればいいん?
Search
Broadleaf Co., Ltd.
June 29, 2022
Programming
0
600
効果的なアラートを再考する [メモリ使用率が80%になりました。] んで、どうすればいいん?
Cloud Operator Days Tokyo 2022
Broadleaf Co., Ltd.
June 29, 2022
Tweet
Share
More Decks by Broadleaf Co., Ltd.
See All by Broadleaf Co., Ltd.
日常にバージョンアップを 〜 Kubernetes Operator で持続的な運用 〜
broadleaf
0
12
クラウドコスト管理の正攻法を知りたい〜FinOps Foundationに学ぶFinOpsの考え方〜
broadleaf
0
170
Elasticsearch_Community_in_Fukuoka_20240711
broadleaf
0
150
力が欲しいか!!力が欲しいのなら...最小権限をくれてやる!!
broadleaf
0
250
アンチパターンだらけ!?Cassandraを基盤とした大規模業務アプリケーションと2DX実現の裏側
broadleaf
0
530
Our60DaysWar-MigrationFromOn-premiseToCloud
broadleaf
0
2.6k
Infrastructure as Codeで インフラチームはもっと強くなる/developersummitsummer-iac
broadleaf
3
2.3k
Spring Bootでマイクロサービス作って苦労したお話 / DeveloperSummit2019-SpringBoot
broadleaf
12
10k
今どきのインフラはペットでは無かった / DeveloperSummit2019-IaC
broadleaf
0
1.8k
Other Decks in Programming
See All in Programming
Android 15以上でPDFのテキスト検索を爆速開発!
tonionagauzzi
0
190
Jakarta EE Meets AI
ivargrimstad
0
580
React 使いじゃなくても知っておきたい教養としての React
oukayuka
18
5.3k
Amazon Q CLI開発で学んだAIコーディングツールの使い方
licux
3
170
SQLアンチパターン第2版 データベースプログラミングで陥りがちな失敗とその対策 / Intro to SQL Antipatterns 2nd
twada
PRO
36
11k
GitHub Copilotの全体像と活用のヒント AI駆動開発の最初の一歩
74th
6
1.8k
What's new in Adaptive Android development
fornewid
0
130
Flutterと Vibe Coding で個人開発!
hyshu
1
230
Strands Agents で実現する名刺解析アーキテクチャ
omiya0555
1
110
ソフトウェア設計とAI技術の活用
masuda220
PRO
25
7.3k
WebAssemblyインタプリタを書く ~Component Modelを添えて~
ruccho
0
160
#QiitaBash TDDで(自分の)開発がどう変わったか
ryosukedtomita
1
350
Featured
See All Featured
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
18
1k
Designing for humans not robots
tammielis
253
25k
Designing Experiences People Love
moore
142
24k
Raft: Consensus for Rubyists
vanstee
140
7k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3k
Building Applications with DynamoDB
mza
95
6.5k
StorybookのUI Testing Handbookを読んだ
zakiyama
30
6k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
RailsConf 2023
tenderlove
30
1.2k
Six Lessons from altMBA
skipperchong
28
3.9k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Transcript
効果的なアラートを再考する [メモリ使用率が80%になりました。] んで、どうすればいいん? 株式会社ブロードリーフ 左近充 裕樹 #CODT2022 1
Copyright © Broadleaf Co., Ltd. All Rights Reserved. # 自己紹介
## 名前 左近充裕樹 _さこんじゅう ひろき_ ## 所属 - 株式会社 ブロードリーフ - プロダクトインフラ課 ## 役割 - インフラエンジニア @Sakonju 2
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 会社紹介 3
Copyright © Broadleaf Co., Ltd. All Rights Reserved. とある日 あなたは、運用担当者です。
長い間システムの運用業務をしています。 会社のslackのアラートチャンネルにメッセージが届きます。 4
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 頭の中 そうだね、80%だね
5
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 頭の中 多分、すぐ復旧するやつだ
6
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 頭の中 やっぱりね
7
無意味 https://pixabay.com/images/id-1849404/ 8
Copyright © Broadleaf Co., Ltd. All Rights Reserved. どこらへんが無意味なのか🤔 •
対応する必要がない状態でアラートが来る • アラートに対して何をすればいいか分からない • アラートが発報した原因が分からない • どのような影響があるかが分からない 9
Copyright © Broadleaf Co., Ltd. All Rights Reserved. そもそも監視とは? “監視とは、あるシステムや
そのシステムのコンポーネントの 振る舞いや出力を観察し チェックしつづける行為である。” URL: https://www.oreilly.co.jp/books/9784873118642/ 出典: 日本語版『入門 監視』Mike Julian著、オライリー・ジャパン、 ISBN978-4-87311-864-2 10
Copyright © Broadleaf Co., Ltd. All Rights Reserved. アラートとは アラートは監視されている状態を維持するための
手段の一つである。 システムが正常に動作していないとき、 または、システムが正常に動作しなくなることが明らかな場合 にシステムを正常に動作させる対応を行うためのトリガーであ る。 システムが正常に動作していない = ユーザーが不満がある状態 11
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 何を監視すべきか? The
Four Golden Signals(4大シグナル) • Latency • Traffic • Errors • Saturation URL: https://www.oreilly.co.jp/books/9784873117911/ 出典: 日本語版『SRE サイトリライアビリティエンジニアリング』 Betsy Beyer、Chris Jones、Jennifer Petoff、Niall Richard Murphy編、オライリー・ジャパン、 ISBN978-4-87311-791-1 12
Copyright © Broadleaf Co., Ltd. All Rights Reserved. どういったときにアラートを出すべきか? システムが正常に動作していないとき、
または、システムが正常に動作しなくなることが 明らかな場合 ex) • 外部から疎通が出来ない • 90パーセンタイルのレイテンシがいつもの2倍になっている • エラーレートがいつもの2倍になっている • ストレージの使用率が90%を超過している • メモリの使用率が80%を超過している ◦ ただし、80%以上が10分を超過するとレイテンシに影響するなど、明らか に正常に動作しないことが分かっている場合 13
Copyright © Broadleaf Co., Ltd. All Rights Reserved. アラートの条件を工夫する •
しきい値に達しない急な変化を気づきやすくる ◦ 特定のしきい値だけではなく変化量も使う ▪ ex) しきい値80%, 短時間30% -> 70% ではアラートが発報しない • ユーザーの満足度を意識する ◦ レイテンシは平均値ではなくパーセンタイルを使う • 偽陽性となるアラートを減らす ◦ アラートになるまでの継続時間を適切に設定する 14
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 通知方法を工夫する 通知方法は重要度(severity)によって分ける
⚠メールはワークしづらい • 誰が調べているかわからない • ディスカッションが出来ない • 無視されがち 15
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 手順書を作る アラートには必ずセットで手順書を作る
• 誰でも対応が出来る ◦ オンコールのローテーションが組める • プラクティスに再現性がある • 安心して作業できる • オンボーディングにも有益 ◦ どのような問題が発生するか事前に知ることが出来る 16
Copyright © Broadleaf Co., Ltd. All Rights Reserved. Playbook? Runbook?
“Runbookがレシピや料理本 だとしたら、Playbookはある ソーシャルイベント(例えば結 婚式)を開催するためのガイド ブックとなる。料理本は、食事 を効果的に作るために必要で すが、食事はイベント全体の 一面に過ぎません。” 出典: PagerDuty社のブログ URL: https://www.pagerduty.com/resources/learn/what-is-a-runbook/ 17
Copyright © Broadleaf Co., Ltd. All Rights Reserved. Alert <->
Playbook <-> Runbook 18
Copyright © Broadleaf Co., Ltd. All Rights Reserved. Playbookに記述するもの •
ユーザーへの影響 • 他システムへの影響 • 推奨される実施者 • 制約事項 ◦ 必要な権限、必要なツール(環境) • アラートの目的 • 何が発生しているか • 調査方法・対応方法 -> Runbookへのリンク • エスカレーション先 • 正常時の状態 19
Copyright © Broadleaf Co., Ltd. All Rights Reserved. アラートを減らすために アラート疲れが発生しないような対策
• 偽陽性のアラートを削除する ◦ ユーザー影響のない盲目で形骸化したアラートを無くす • 徹底的に復旧を自動化をする ◦ 手順書に起こせるものは自動化出来る可能性が高い • 定期的にチームでリソースの傾向を確認する 20
Copyright © Broadleaf Co., Ltd. All Rights Reserved. まとめ •
アラートは正常に動作させる対応を行うための トリガー • 4大シグナルを監視する • 通知方法は重要度で分ける • アラートは減らしていく • 運用手順書(Playbook,Runbook)を作る 21
WE’RE HIRING👐 最後までご視聴いただき、ありがとうございました 22