Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
効果的なアラートを再考する [メモリ使用率が80%になりました。] んで、どうすればいいん?
Search
Broadleaf Co., Ltd.
June 29, 2022
Programming
0
520
効果的なアラートを再考する [メモリ使用率が80%になりました。] んで、どうすればいいん?
Cloud Operator Days Tokyo 2022
Broadleaf Co., Ltd.
June 29, 2022
Tweet
Share
More Decks by Broadleaf Co., Ltd.
See All by Broadleaf Co., Ltd.
クラウドコスト管理の正攻法を知りたい〜FinOps Foundationに学ぶFinOpsの考え方〜
broadleaf
0
99
Elasticsearch_Community_in_Fukuoka_20240711
broadleaf
0
80
力が欲しいか!!力が欲しいのなら...最小権限をくれてやる!!
broadleaf
0
190
アンチパターンだらけ!?Cassandraを基盤とした大規模業務アプリケーションと2DX実現の裏側
broadleaf
0
460
Our60DaysWar-MigrationFromOn-premiseToCloud
broadleaf
0
2.5k
Infrastructure as Codeで インフラチームはもっと強くなる/developersummitsummer-iac
broadleaf
3
2.2k
Spring Bootでマイクロサービス作って苦労したお話 / DeveloperSummit2019-SpringBoot
broadleaf
12
9.9k
今どきのインフラはペットでは無かった / DeveloperSummit2019-IaC
broadleaf
0
1.8k
DeveloperSummit 2018 Cassandra, Kubernetesによる大規模データ基盤の仕組みと苦労 / Developer Summit 2018 Infrastructure by Cassandra and Kubernetes
broadleaf
2
1.8k
Other Decks in Programming
See All in Programming
『改訂新版 良いコード/悪いコードで学ぶ設計入門』活用方法−爆速でスキルアップする!効果的な学習アプローチ / effective-learning-of-good-code
minodriven
28
4.1k
AHC041解説
terryu16
0
390
盆栽転じて家具となる / Bonsai and Furnitures
aereal
0
1.9k
PHPUnitしか使ってこなかった 一般PHPerがPestに乗り換えた実録
mashirou1234
0
420
PSR-15 はあなたのための ものではない? - phpcon2024
myamagishi
0
400
混沌とした例外処理とエラー監視に秩序をもたらす
morihirok
13
2.3k
サーバーゆる勉強会 DBMS の仕組み編
kj455
1
300
Stackless и stackful? Корутины и асинхронность в Go
lamodatech
0
1.3k
Simple組み合わせ村から大都会Railsにやってきた俺は / Coming to Rails from the Simple
moznion
3
2.1k
どうして手を動かすよりもチーム内のコードレビューを優先するべきなのか
okashoi
3
870
AppRouterを用いた大規模サービス開発におけるディレクトリ構成の変遷と問題点
eiganken
1
440
Androidアプリのモジュール分割における:x:commonを考える
okuzawats
1
280
Featured
See All Featured
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
2k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
98
18k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
The Pragmatic Product Professional
lauravandoore
32
6.4k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
113
50k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
GraphQLとの向き合い方2022年版
quramy
44
13k
A Tale of Four Properties
chriscoyier
157
23k
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
The Power of CSS Pseudo Elements
geoffreycrofte
74
5.4k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Transcript
効果的なアラートを再考する [メモリ使用率が80%になりました。] んで、どうすればいいん? 株式会社ブロードリーフ 左近充 裕樹 #CODT2022 1
Copyright © Broadleaf Co., Ltd. All Rights Reserved. # 自己紹介
## 名前 左近充裕樹 _さこんじゅう ひろき_ ## 所属 - 株式会社 ブロードリーフ - プロダクトインフラ課 ## 役割 - インフラエンジニア @Sakonju 2
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 会社紹介 3
Copyright © Broadleaf Co., Ltd. All Rights Reserved. とある日 あなたは、運用担当者です。
長い間システムの運用業務をしています。 会社のslackのアラートチャンネルにメッセージが届きます。 4
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 頭の中 そうだね、80%だね
5
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 頭の中 多分、すぐ復旧するやつだ
6
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 頭の中 やっぱりね
7
無意味 https://pixabay.com/images/id-1849404/ 8
Copyright © Broadleaf Co., Ltd. All Rights Reserved. どこらへんが無意味なのか🤔 •
対応する必要がない状態でアラートが来る • アラートに対して何をすればいいか分からない • アラートが発報した原因が分からない • どのような影響があるかが分からない 9
Copyright © Broadleaf Co., Ltd. All Rights Reserved. そもそも監視とは? “監視とは、あるシステムや
そのシステムのコンポーネントの 振る舞いや出力を観察し チェックしつづける行為である。” URL: https://www.oreilly.co.jp/books/9784873118642/ 出典: 日本語版『入門 監視』Mike Julian著、オライリー・ジャパン、 ISBN978-4-87311-864-2 10
Copyright © Broadleaf Co., Ltd. All Rights Reserved. アラートとは アラートは監視されている状態を維持するための
手段の一つである。 システムが正常に動作していないとき、 または、システムが正常に動作しなくなることが明らかな場合 にシステムを正常に動作させる対応を行うためのトリガーであ る。 システムが正常に動作していない = ユーザーが不満がある状態 11
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 何を監視すべきか? The
Four Golden Signals(4大シグナル) • Latency • Traffic • Errors • Saturation URL: https://www.oreilly.co.jp/books/9784873117911/ 出典: 日本語版『SRE サイトリライアビリティエンジニアリング』 Betsy Beyer、Chris Jones、Jennifer Petoff、Niall Richard Murphy編、オライリー・ジャパン、 ISBN978-4-87311-791-1 12
Copyright © Broadleaf Co., Ltd. All Rights Reserved. どういったときにアラートを出すべきか? システムが正常に動作していないとき、
または、システムが正常に動作しなくなることが 明らかな場合 ex) • 外部から疎通が出来ない • 90パーセンタイルのレイテンシがいつもの2倍になっている • エラーレートがいつもの2倍になっている • ストレージの使用率が90%を超過している • メモリの使用率が80%を超過している ◦ ただし、80%以上が10分を超過するとレイテンシに影響するなど、明らか に正常に動作しないことが分かっている場合 13
Copyright © Broadleaf Co., Ltd. All Rights Reserved. アラートの条件を工夫する •
しきい値に達しない急な変化を気づきやすくる ◦ 特定のしきい値だけではなく変化量も使う ▪ ex) しきい値80%, 短時間30% -> 70% ではアラートが発報しない • ユーザーの満足度を意識する ◦ レイテンシは平均値ではなくパーセンタイルを使う • 偽陽性となるアラートを減らす ◦ アラートになるまでの継続時間を適切に設定する 14
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 通知方法を工夫する 通知方法は重要度(severity)によって分ける
⚠メールはワークしづらい • 誰が調べているかわからない • ディスカッションが出来ない • 無視されがち 15
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 手順書を作る アラートには必ずセットで手順書を作る
• 誰でも対応が出来る ◦ オンコールのローテーションが組める • プラクティスに再現性がある • 安心して作業できる • オンボーディングにも有益 ◦ どのような問題が発生するか事前に知ることが出来る 16
Copyright © Broadleaf Co., Ltd. All Rights Reserved. Playbook? Runbook?
“Runbookがレシピや料理本 だとしたら、Playbookはある ソーシャルイベント(例えば結 婚式)を開催するためのガイド ブックとなる。料理本は、食事 を効果的に作るために必要で すが、食事はイベント全体の 一面に過ぎません。” 出典: PagerDuty社のブログ URL: https://www.pagerduty.com/resources/learn/what-is-a-runbook/ 17
Copyright © Broadleaf Co., Ltd. All Rights Reserved. Alert <->
Playbook <-> Runbook 18
Copyright © Broadleaf Co., Ltd. All Rights Reserved. Playbookに記述するもの •
ユーザーへの影響 • 他システムへの影響 • 推奨される実施者 • 制約事項 ◦ 必要な権限、必要なツール(環境) • アラートの目的 • 何が発生しているか • 調査方法・対応方法 -> Runbookへのリンク • エスカレーション先 • 正常時の状態 19
Copyright © Broadleaf Co., Ltd. All Rights Reserved. アラートを減らすために アラート疲れが発生しないような対策
• 偽陽性のアラートを削除する ◦ ユーザー影響のない盲目で形骸化したアラートを無くす • 徹底的に復旧を自動化をする ◦ 手順書に起こせるものは自動化出来る可能性が高い • 定期的にチームでリソースの傾向を確認する 20
Copyright © Broadleaf Co., Ltd. All Rights Reserved. まとめ •
アラートは正常に動作させる対応を行うための トリガー • 4大シグナルを監視する • 通知方法は重要度で分ける • アラートは減らしていく • 運用手順書(Playbook,Runbook)を作る 21
WE’RE HIRING👐 最後までご視聴いただき、ありがとうございました 22