Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
通知と手順書をセットで 設計してみた / Design Notification and Ru...
Search
Ryo Yoshii
July 26, 2021
Technology
4
1.2k
通知と手順書をセットで 設計してみた / Design Notification and Runbook
2021-07-26(月)19:00 - 20:40 JST 開催の Ops JAWS Meetup#19 勉強会で発表した資料です
Ryo Yoshii
July 26, 2021
Tweet
Share
More Decks by Ryo Yoshii
See All by Ryo Yoshii
2025-02-21 ゆるSRE勉強会 Enhancing SRE Using AI
yoshiiryo1
1
360
Enhancing SRE Using AI
yoshiiryo1
1
510
Amazon Bedrock Agents と Chatbot で無敵のOpsになる
yoshiiryo1
1
130
組織横断型であるがゆえの楽しみと苦しみ
yoshiiryo1
4
1.1k
EC2 の運用と監視の基本をおさらい 「監視、バックアップ、操作」
yoshiiryo1
0
510
re:Invent2023 現地レポ& Cloud Operation サービス Update
yoshiiryo1
0
180
Amazon CloudWatch Application Signals(Preview) 徹底解説
yoshiiryo1
0
1.5k
増え続ける公開アプリケーションへの悪意あるアクセス_多層防御を取り入れるSRE活動_.pdf
yoshiiryo1
2
2.4k
OpsJAWS MEETUP25_みんなが幸せなインシデント管理
yoshiiryo1
0
1.2k
Other Decks in Technology
See All in Technology
PHPで印刷所に入稿できる名札データを作る / Generating Print-Ready Name Tag Data with PHP
tomzoh
0
110
『衛星データ利用の方々にとって近いようで触れる機会のなさそうな小話 ~ 衛星搭載ソフトウェアと衛星運用ソフトウェア (実物) を動かしながらわいわいする編 ~』 @日本衛星データコミニティ勉強会
meltingrabbit
0
150
全文検索+セマンティックランカー+LLMの自然文検索サ−ビスで得られた知見
segavvy
2
110
Culture Deck
optfit
0
420
エンジニアの育成を支える爆速フィードバック文化
sansantech
PRO
3
1.1k
Goで作って学ぶWebSocket
ryuichi1208
1
950
エンジニアが加速させるプロダクトディスカバリー 〜最速で価値ある機能を見つける方法〜 / product discovery accelerated by engineers
rince
4
350
AndroidXR 開発ツールごとの できることできないこと
donabe3
0
130
プロセス改善による品質向上事例
tomasagi
2
2.6k
運用しているアプリケーションのDBのリプレイスをやってみた
miura55
1
720
組織貢献をするフリーランスエンジニアという生き方
n_takehata
1
1.3k
地方拠点で エンジニアリングマネージャーってできるの? 〜地方という制約を楽しむオーナーシップとコミュニティ作り〜
1coin
1
230
Featured
See All Featured
Fireside Chat
paigeccino
34
3.2k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
21
2.5k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
12
960
Documentation Writing (for coders)
carmenintech
67
4.6k
Code Reviewing Like a Champion
maltzj
521
39k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
100
18k
Automating Front-end Workflow
addyosmani
1368
200k
The Power of CSS Pseudo Elements
geoffreycrofte
75
5.5k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Making Projects Easy
brettharned
116
6k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3k
How to Ace a Technical Interview
jacobian
276
23k
Transcript
通知と手順書をセットで 設計してみた Ops JAWS Meetup#19 勉強会 2021年7月26日 1 ネクストモード株式会社 吉井
亮
自己紹介 吉井 亮 ネクストモード株式会社 Twitter : @YoshiiRyo1 Blog : https://dev.classmethod.jp/author/yoshii-ryo/
好きな言葉 : No human labor is no human error. 2
本日の内容 ▪ 話すこと ・通知された後の行動 ・つらみ ▪ 話さないこと ・製品の紹介 3
4 システム構成
今回の構成 (スーパー簡易版) 5 HTTPS. SFTP, 管理画面 Customer DC 監視系は CloudWatch
Security系 がっつり通知
6 通知と手順書
やめておいたほうが… と言いたくなる通知 • とりあえず CPU/Memory Usage (設計が無い) • とりあえずメール (重要度の分類が無い)
• 全サーバー ”89の法則” (80%Warn,90%Crit) • ログは ”error” で検知 • 過剰なしきい値 (1回でも通知など) • 定期的な見直しが無い 7
最低限やっておきたい通知 ★ システム利用者が困る事象を発見する レスポンス低下、画面ハングアップなどを メトリクスやログから検知したい。 8
最低限やっておきたい通知 ★ 要アクションと Notice は分ける 要アクションは社用携帯でポップアップなど 復旧アクションが取りやすいように。 Notice は平日日中帯の暇な時に見るくらいで。 9
最低限やっておきたい通知 ★ 単純なメトリクスだけで済まさない Anomaly Detection で異常を検知。 Count だけではなく割合をみる。 「HTTP 500が
nn 回」より 「全リクエストの nn %」のほうが実用的 10
通知が飛んだ後に何するか? 通知ごとにアクションを決めておかないと 通知する意味が無い。 ただノイジーなだけの通知は誰も見なくなる。 手順書を作っておきましょう 11
わかりやすい通知にするには 1. 通知に回復手順書を含ませる a. がっつり作り込む b. メンテナンスは大変かも 2. 通知内容と手順をドキュメントに残しておく 今回こっち
12
ドキュメントの内容 • アラート名 (件名やSlack表示名など) • アラートの意味 • アラート受領後の対応 • インシデント責任者、対応してほしいメンバー
• 影響範囲、依存関係 13
14
ドキュメントの内容 サンプル https://github.com/YoshiiRyo1/document-templates-for-aws/blob/master/design/doc_source/cloud-design-monitoring.md 15
つらかったこと 1 飛んでくる通知の内容が事前にわからない。 セキュリティ系や Health は特に。 ので、構築の初期段階から通知を仕込んでおいて 様々な通知内容をプロジェクト内に溜め込む。 横展開も忘れずに (社内ナレッジ、GitHub
等) 16
つらかったこと 2 ドキュメントの更新を継続できるか? 対応手順の更新、しきい値の修正、 通知内容の更新などドキュメントは継続的改善が 大前提。 17
18 まとめ
今回の構成 (簡易版) 通知は飛ばしたあとが大切。 飛ばしたあとのアクションを定義して 手順書を作りましょう。 システム動作前には不明なところも多いので 動かしながら更新していきましょう。 19
ありがとうございました 20