Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アラートの話 をしよう!
Search
akshimo
September 09, 2024
0
71
アラートの話 をしよう!
akshimo
September 09, 2024
Tweet
Share
More Decks by akshimo
See All by akshimo
私の推し技術(DERTA Gig #18)
shimomura
1
52
UPDATEがシステムを複雑にする? イミュータブルデータモデルのすすめ
shimomura
3
650
5分でわかる イミュータブル データモデル
shimomura
2
140
serverless
shimomura
1
200
機械翻訳との付き合い方
shimomura
0
240
Featured
See All Featured
Why You Should Never Use an ORM
jnunemaker
PRO
58
9.5k
Designing for humans not robots
tammielis
253
25k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
850
Optimizing for Happiness
mojombo
379
70k
Documentation Writing (for coders)
carmenintech
72
4.9k
Code Review Best Practice
trishagee
69
19k
Speed Design
sergeychernyshev
32
1k
The Power of CSS Pseudo Elements
geoffreycrofte
77
5.9k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
45
7.5k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
1k
How to train your dragon (web standard)
notwaldorf
96
6.1k
How STYLIGHT went responsive
nonsquared
100
5.7k
Transcript
アラートの話 をしよう!
2 • akshimo(あくしも) ◦ X:@akshimo • 東京出身 ◦ 2021年〜新潟へ移住 •
好きなもの ◦ アジャイル/スクラム ◦ DDD/BDD/イベント駆動 ◦ ウイスキー、物理学、哲学
開発は綺麗事ばかりじゃない! 絶対にエラーは起こる。それにどう立ち向かうか? 3
Agenda ケース1: 某越境EC ▸ エラー監視のアンチパターン ▸ ログレベル ケース2:某FinTech ▸ アラートルールの設定
▸ 日々の運用 4
1. 越境ECの 大量エラー通知 オオカミ少年と 化した通知に 立ち向かう
エラー通知 - Bugsnag - エラーはSlack通知 - warning以上も通知 利用技術 - Laravel/php
- DDD - イベント駆動 - Alibaba Cloud 前提 6
大量のエラー通知 が発生 Bugsnag経由で数十件/日のエラー通知が! エラー通知を見ないメンバーもではじめる 7
そもそも エラーって何? 8
“ ISTQB 『間違った結果を生み出す人間の行為』 9
“ ISTQB 『間違った結果を生み出す人間の行為』 => エラーならば必ず通知が必要、ということ ではないはず 10
緊急性 通知先 emergency 夜間休日でもすぐに対応が必要 #xxx-emergency alert 休日でも数時間以内に対応が必要 #xxx-alert critical 当日または翌営業日までに対応
#xxx-critical error 障害起票をし優先度決定 #xxx-error warning 毎営業日確認し問題あれば起票 #xxx-warning notice 緊急性はないが定期的に確認 #xxx-notice info なし CloudWatch的なやつ debug なし ローカルのログとか bugsnag 未知 #xxx-bugsnag 11 ログレベルごとの対応方針をチームで決定
▸ 通知がスッキリ! ▸ 各通知の緊急性判断を迷わない、間違わない 結果 12
2. FinTechでの エラー運用 リリースで 荒れたアラート を解消する
エラー通知 - Sentry - エラー通知 利用技術 - Ruby on Rails
- MVC - モノリス 前提 14
多くのエラー発生 ある部分を移行をしたタイミングからエラーが多く発生 毎日対応に追われるハメに 15
想定外のことが起きている 日々対応していくしかない 16
17 Before
18 After
▸ 特定のアラートはOpsチャンネルに通知するようSentry を設定 ▸ 各チャンネルに散らばったアラートなどはリアク字チャネ ラーで転送してOpsチャンネルに集約 ▸ アラートは朝会で即対応 & 不要なアラートは1日以内に
非通知に 改善したこと 19
Sentryでアラートルールを設定できる 指定したルールにあてはまるイベントの み、特定のチャンネルに通知するなど設 定できる。 特定の名前空間で発生したエラーのみ自 チームのOpsチャンネルに通知するよう設 定した。 https://sentry.io/resources/alert-rules / Sentryのアラート設定
20
Slackアプリ「リアク字チャンネラー」 指定の絵文字リアクションをメッセージに使 用したら、自動で指定のチャンネルにメッ セージをコピーしてくれる。 散らばった運用対応を、Opsチャンネルに集 約することができた。 https://slack.com/intl/ja-jp/help/article s/360000482666-Slack-%E7%94%A8%E3 %83%AA%E3%82%A2%E3%82%AF%E5%A D%97%E3%83%81%E3%83%A3%E3%83%B
3%E3%83%8D%E3%83%A9%E3%83%BC リアク字チャンネラーによる転送 21
放置されるアラートをゼロに 朝会でアラートは基本全てArchive or Resolveする。 バックログアイテム化して対応、アラートの抑 制(非通知 or Warning)など方針を決定しす ぐ対応する。 朝会での即対応
22
そして平和は訪れた 23
THANKS! Any questions? You can find me at @akshimo 24