Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アラートの話 をしよう!
Search
a.shimomura
September 09, 2024
0
67
アラートの話 をしよう!
a.shimomura
September 09, 2024
Tweet
Share
More Decks by a.shimomura
See All by a.shimomura
UPDATEがシステムを複雑にする? イミュータブルデータモデルのすすめ
shimomura
0
180
5分でわかる イミュータブル データモデル
shimomura
2
120
お手軽DomainModel
shimomura
0
77
serverless
shimomura
1
200
機械翻訳との付き合い方
shimomura
0
240
クリーンアーキテクチャとアトミックデザインをやってみた話
shimomura
0
510
Featured
See All Featured
We Have a Design System, Now What?
morganepeng
52
7.6k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.2k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
A Modern Web Designer's Workflow
chriscoyier
693
190k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Optimising Largest Contentful Paint
csswizardry
37
3.3k
Build The Right Thing And Hit Your Dates
maggiecrowley
35
2.7k
YesSQL, Process and Tooling at Scale
rocio
172
14k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.3k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
29
9.5k
Building Applications with DynamoDB
mza
95
6.4k
Transcript
アラートの話 をしよう!
2 • akshimo(あくしも) ◦ X:@akshimo • 東京出身 ◦ 2021年〜新潟へ移住 •
好きなもの ◦ アジャイル/スクラム ◦ DDD/BDD/イベント駆動 ◦ ウイスキー、物理学、哲学
開発は綺麗事ばかりじゃない! 絶対にエラーは起こる。それにどう立ち向かうか? 3
Agenda ケース1: 某越境EC ▸ エラー監視のアンチパターン ▸ ログレベル ケース2:某FinTech ▸ アラートルールの設定
▸ 日々の運用 4
1. 越境ECの 大量エラー通知 オオカミ少年と 化した通知に 立ち向かう
エラー通知 - Bugsnag - エラーはSlack通知 - warning以上も通知 利用技術 - Laravel/php
- DDD - イベント駆動 - Alibaba Cloud 前提 6
大量のエラー通知 が発生 Bugsnag経由で数十件/日のエラー通知が! エラー通知を見ないメンバーもではじめる 7
そもそも エラーって何? 8
“ ISTQB 『間違った結果を生み出す人間の行為』 9
“ ISTQB 『間違った結果を生み出す人間の行為』 => エラーならば必ず通知が必要、ということ ではないはず 10
緊急性 通知先 emergency 夜間休日でもすぐに対応が必要 #xxx-emergency alert 休日でも数時間以内に対応が必要 #xxx-alert critical 当日または翌営業日までに対応
#xxx-critical error 障害起票をし優先度決定 #xxx-error warning 毎営業日確認し問題あれば起票 #xxx-warning notice 緊急性はないが定期的に確認 #xxx-notice info なし CloudWatch的なやつ debug なし ローカルのログとか bugsnag 未知 #xxx-bugsnag 11 ログレベルごとの対応方針をチームで決定
▸ 通知がスッキリ! ▸ 各通知の緊急性判断を迷わない、間違わない 結果 12
2. FinTechでの エラー運用 リリースで 荒れたアラート を解消する
エラー通知 - Sentry - エラー通知 利用技術 - Ruby on Rails
- MVC - モノリス 前提 14
多くのエラー発生 ある部分を移行をしたタイミングからエラーが多く発生 毎日対応に追われるハメに 15
想定外のことが起きている 日々対応していくしかない 16
17 Before
18 After
▸ 特定のアラートはOpsチャンネルに通知するようSentry を設定 ▸ 各チャンネルに散らばったアラートなどはリアク字チャネ ラーで転送してOpsチャンネルに集約 ▸ アラートは朝会で即対応 & 不要なアラートは1日以内に
非通知に 改善したこと 19
Sentryでアラートルールを設定できる 指定したルールにあてはまるイベントの み、特定のチャンネルに通知するなど設 定できる。 特定の名前空間で発生したエラーのみ自 チームのOpsチャンネルに通知するよう設 定した。 https://sentry.io/resources/alert-rules / Sentryのアラート設定
20
Slackアプリ「リアク字チャンネラー」 指定の絵文字リアクションをメッセージに使 用したら、自動で指定のチャンネルにメッ セージをコピーしてくれる。 散らばった運用対応を、Opsチャンネルに集 約することができた。 https://slack.com/intl/ja-jp/help/article s/360000482666-Slack-%E7%94%A8%E3 %83%AA%E3%82%A2%E3%82%AF%E5%A D%97%E3%83%81%E3%83%A3%E3%83%B
3%E3%83%8D%E3%83%A9%E3%83%BC リアク字チャンネラーによる転送 21
放置されるアラートをゼロに 朝会でアラートは基本全てArchive or Resolveする。 バックログアイテム化して対応、アラートの抑 制(非通知 or Warning)など方針を決定しす ぐ対応する。 朝会での即対応
22
そして平和は訪れた 23
THANKS! Any questions? You can find me at @akshimo 24