Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
オンコールよもやま話 / JAWS-UG SRE#7 OnCall Yomoyama
Search
Shoji Shirotori
November 07, 2023
Technology
1
630
オンコールよもやま話 / JAWS-UG SRE#7 OnCall Yomoyama
JAWS-UG SRE支部 #7 の LT で話したオンコールよもやま話のスライドです。
https://jawsug-sre.connpass.com/event/291843/
Shoji Shirotori
November 07, 2023
Tweet
Share
More Decks by Shoji Shirotori
See All by Shoji Shirotori
Data Ingestion ETL の技術選定の変遷をADRで振り返る / Data Ingestion ETL ADRs at DataOps Night#4
irotoris
3
2.3k
Wantedlyの障害対応文化とインシデントコマンダー / Wantedly Incident Commander
irotoris
5
2.6k
SRE を実践するためのプラットフォームの作り方と技術マネジメント / Building a Platform for SRE
irotoris
3
6k
Other Decks in Technology
See All in Technology
react-callを使ってダイヤログをいろんなとこで再利用しよう!
shinaps
1
240
ChatGPTとPlantUML/Mermaidによるソフトウェア設計
gowhich501
1
130
生成AI時代のデータ基盤設計〜ペースレイヤリングで実現する高速開発と持続性〜 / Levtech Meetup_Session_2
sansan_randd
1
150
未経験者・初心者に贈る!40分でわかるAndroidアプリ開発の今と大事なポイント
operando
5
390
OCI Oracle Database Services新機能アップデート(2025/06-2025/08)
oracle4engineer
PRO
0
110
開発者を支える Internal Developer Portal のイマとコレカラ / To-day and To-morrow of Internal Developer Portals: Supporting Developers
aoto
PRO
1
450
研究開発と製品開発、両利きのロボティクス
youtalk
1
520
要件定義・デザインフェーズでもAIを活用して、コミュニケーションの密度を高める
kazukihayase
0
110
品質視点から考える組織デザイン/Organizational Design from Quality
mii3king
0
200
ハードウェアとソフトウェアをつなぐ全てを内製している企業の E2E テストの作り方 / How to create E2E tests for a company that builds everything connecting hardware and software in-house
bitkey
PRO
1
120
MCPで変わる Amebaデザインシステム「Spindle」の開発
spindle
PRO
3
3.2k
JTCにおける内製×スクラム開発への挑戦〜内製化率95%達成の舞台裏/JTC's challenge of in-house development with Scrum
aeonpeople
0
210
Featured
See All Featured
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.5k
Imperfection Machines: The Place of Print at Facebook
scottboms
268
13k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
112
20k
Bash Introduction
62gerente
615
210k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.4k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
358
30k
Facilitating Awesome Meetings
lara
55
6.5k
Build your cross-platform service in a week with App Engine
jlugia
231
18k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
51
5.6k
Code Review Best Practice
trishagee
70
19k
Embracing the Ebb and Flow
colly
87
4.8k
Transcript
© 2023 Wantedly, Inc. オンコールよもやま話 JAWS-UG SRE支部 #7 Oct. 18
2023 - Shoji Shirotori @irotoris
© 2023 Wantedly, Inc. About Me Shoji Shirotori @irotoris Infrastructure
Squad at Wantedly, Inc. Infra /SRE / Data Engineer ❤ AWS, Kubernetes, BigQuery, Python, Go
© 2023 Wantedly, Inc.
© 2023 Wantedly, Inc. 話すこと • ウォンテッドリーのオンコール体制の紹介しつつ • 無くしたアラートをピックアップして紹介
© 2023 Wantedly, Inc. Wantedly Architecture Overview
© 2023 Wantedly, Inc. Infrastructure Squad (インフラチーム) とは インフラや開発運用に関わる機能とプラクティスをプラットフォームとして提供していく
© 2023 Wantedly, Inc. ウォンテッドリーのオンコール体制の紹介 • Infra チームが夜間休日のオンコール (PagerDuty) を持つ
◦ 平日日中で障害が発生した場合は Infra チームじゃなくても障害対応に集まってくる ▪ 集まりすぎるのでインシデントコマンダーが整理 ▪ 平日日中で壊れるのは だいたいデプロイ起因 ◦ 夜間休日はインフラや外部起因が多い ▪ サービス特性上、夜間休日のリクエストは落ち着いているが壊れるときは壊れる • AWSリソースやインフラのスケーリングを超えた • 非同期ジョブが詰まる • 外部 API が壊れた • Bot やスクレイピングでの異常なアクセス ▪ ここでのオンコール担当の責務は 1次対応と、騒いで人を集めること • メンバーが一週間交代で担当 ▪ 夜間休日対応の負荷を減らすために不要なアラートを整理している
© 2023 Wantedly, Inc. アラートの種類 - 通知先 • Slack #war_room
+ PagerDuty ◦ 即招集、対応開始 • Slack #hoge_alert ◦ 各チームで対応、トリアージ ◦ #infra_alert ◦ #visit_alert ◦ #profile_alert ◦ #core_services_alert • Slack #fuga_notice #piyo_logs ◦ 通知のみ
© 2023 Wantedly, Inc. アラートの種類 - 通知先 • Slack #war_room
+ PagerDuty ←ここのアラートを減らす ◦ 即招集、対応開始 • Slack #hoge_alert ◦ 各チームで対応、トリアージ ◦ #infra_alert ◦ #visit_alert ◦ #profile_alert ◦ #core_services_alert • Slack #fuga_notice #piyo_logs ◦ 通知のみ
© 2023 Wantedly, Inc. アラートの種類 - 通知までの経路 • AWS /
GCP -> Datadog -> PagerDuty ◦ Infra / middleware layer • Kubernetes -> Prometheus -> Datadog -> PagerDuty ◦ Kubernetes Layer • Application -> New Relic -> Pager Duty ◦ Application Layer ◦ Ping / ErrorRate / Latency
© 2023 Wantedly, Inc. 減らしたアラート • DB Disk full alert
◦ RDS のストレージ自動拡張を有効に ◦ ストレージ拡張のイベントは notice チャンネルへ ◦ 自動拡張上限の場合のみ war_room チャンネルへ
© 2023 Wantedly, Inc. 減らしたアラート • DB CPU 100% alert
◦ RDS から Aurora にしたら 100% でもサービスがちょっと遅くなる程度で致命 的な問題になることが減った ◦ サービスの Error Rate / Latency は見ているので alert チャンネルへ
© 2023 Wantedly, Inc. 減らしたアラート • Kubernetes Pod のスケール上限アラート ◦
Pod が HPA 上限に張り付いていてもサービスが落ちるわけではない ◦ Error Rate / Latency を見ている ◦ notice で、後から見ればよい
© 2023 Wantedly, Inc. 減らしたアラート • AWS Health (AWS Service
Status) ◦ EC2 / RDS / ElastiCache といった AWS サービスとしてのステータス ◦ AWS の障害で我々のサービスがすぐさま落ちる訳では無い ◦ X が一番はやく検知できる
© 2023 Wantedly, Inc. 減らしたアラート • ElastiCache for Redis Eviction
alert ◦ キーが eviction されても問題ない使い方をしていた Redis もいた ◦ キャッシュ用途のインスタンスは eviction 通知を notice に変更
© 2023 Wantedly, Inc. 減らしたアラート • 外国からの死活監視 ◦ 日本からは無事だが海外からの死活監視が落ちる現象(謎) ◦
サービス提供している国からのみに監視を減らした
© 2023 Wantedly, Inc. なんとなくまとめ • インフラ技術の進化で基盤、サービスの弾力性を強化しやすい ◦ 勝手に直る設定 •
よりユーザーに近いアラートを設定することが大事になってきた ◦ API の ErrorRate / Latency 以外にも Forntend の描画速度
© 2023 Wantedly, Inc. Thank you!!
© 2023 Wantedly, Inc. 障害対応の心構え - Wantedly Engineering Hanbook https://docs.wantedly.dev/introduction/incident
© 2023 Wantedly, Inc. 障害対応の心構え - Wantedly Engineering Hanbook https://docs.wantedly.dev/introduction/incident