Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ウォンテッドリーのアラート設計と Datadog 移行での知見
Search
Kazuki Obata
August 20, 2025
Technology
0
130
ウォンテッドリーのアラート設計と Datadog 移行での知見
Japan Datadog User Group Meetup#12@東京
https://datadog-jp.connpass.com/event/360923/
Kazuki Obata
August 20, 2025
Tweet
Share
More Decks by Kazuki Obata
See All by Kazuki Obata
KubeCon + CloudNativeCon Japan 2025 Recap
donkomura
0
240
計装を見直してアプリケーションパフォーマンスを改善させた話
donkomura
2
400
自分だけの仮想クラスタを高速かつ効率的に作る kubefork
donkomura
0
210
散らばったトレースを繋げる技術
donkomura
1
730
ウォンテッドリーのインフラチームに加わってみて
donkomura
0
200
AWS CLI で気軽にコスト改善やってみた
donkomura
1
200
入門 KRR
donkomura
0
290
Other Decks in Technology
See All in Technology
Infrastructure as Prompt実装記 〜Bedrock AgentCoreで作る自然言語インフラエージェント〜
yusukeshimizu
1
160
o11yツールを乗り換えた話
tak0x00
2
1.6k
Oracle Exadata Database Service on Cloud@Customer X11M (ExaDB-C@C) サービス概要
oracle4engineer
PRO
2
6.4k
AIに頼りすぎない新人育成術
cuebic9bic
3
330
S3 Glacier のデータを Athena からクエリしようとしたらどうなるのか/try-to-query-s3-glacier-from-athena
emiki
0
240
Jamf Connect ZTNAとMDMで実現! 金融ベンチャーにおける「デバイストラスト」実例と軌跡 / Kyash Device Trust
rela1470
1
210
Amazon Inspector コードセキュリティで手軽に実現するシフトレフト
maimyyym
0
140
Claude Codeは仕様駆動の夢を見ない
gotalab555
23
7.1k
AIが住民向けコンシェルジュに?Amazon Connectと生成AIで実現する自治体AIエージェント!
yuyeah
0
170
意志の力が9割。アニメから学ぶAI時代のこれから。
endohizumi
1
100
形式手法特論:位相空間としての並行プログラミング #kernelvm / Kernel VM Study Tokyo 18th
ytaka23
3
1.5k
20250807 Applied Engineer Open House
sakana_ai
PRO
2
580
Featured
See All Featured
Gamification - CAS2011
davidbonilla
81
5.4k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.5k
Unsuck your backbone
ammeep
671
58k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Building Flexible Design Systems
yeseniaperezcruz
328
39k
The Language of Interfaces
destraynor
159
25k
Measuring & Analyzing Core Web Vitals
bluesmoon
8
560
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Side Projects
sachag
455
43k
Designing for humans not robots
tammielis
253
25k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3k
Transcript
© 2025 Wantedly, Inc. ウォンテッドリーのアラート設計と Datadog 移行での知見 Japan Datadog User
Group Meetup#12 Aug.20 2025 - Kazuki Obata (@donkomura)
© 2025 Wantedly, Inc. ⾃⼰紹介 • Wantedly, inc (2024-09 ~)
• Infra Squad #k8s #分散システム #ストレージ #ボルダリング 巨畠 和樹 (Obata Kazuki)
© 2025 Wantedly, Inc. 話すこと • アラート運⽤を設計しておく ◦ アラート移⾏‧棚卸しがスムーズに •
移⾏は実装を⾒直すチャンス ◦ 細かな調整が効く Datadog の良いところ‧つまづきポイント
© 2025 Wantedly, Inc. 01 ウォンテッドリーの監視・アラート運用の変遷 02 アラートの指針 03 New
Relic → Datadog 移行中の問題とその対応 04 まとめ 目次
© 2025 Wantedly, Inc. ウォンテッドリーの監視・アラート運用 の変遷 01
© 2025 Wantedly, Inc. ウォンテッドリーの監視‧アラート運⽤の変遷 2012 Heroku から AWS に移⾏
Datadog の利⽤を開始 サービス開始 インフラは Heroku 2014 2016 2018 2020 2022 2024 マイクロサービス化 Kubernetes の運⽤を開始 全サービスが Kubernetes 上に デバッグの難しさ解消のため APM を導⼊ Amazon EKS に移⾏ サービスの集約検討を開始 SLO 基盤と APM を Datadog に移⾏ APM の利⽤を拡⼤ Logs による SLO 基盤検証 「Wantedly での Datadog 活用事例」p10
© 2025 Wantedly, Inc. • New Relic でアプリケーションを監視 • 2014年:Datadog
をインフラ監視に採⽤ • 2018〜2023年:アプリケーション監視基盤の混在期 ◦ 2018年:APM の導⼊、分散トレーシングの整備 ◦ 2020年:Logs による SLO 基盤の検証 ◦ 2021年:アラート疲れ問題が顕在化、改善プロジェクト始動 i. 後述のアラート設計‧運⽤ポリシーを定めた ◦ 2022年:モニタリング‧オブザーバビリティ基盤の⾒直し • 2024年:Datadogに統⼀移⾏、アプリ‧インフラ監視の⼀元化 ウォンテッドリーの監視・アラート運用の変遷 アラート設計の起点
© 2025 Wantedly, Inc. アラートの指針 02
© 2025 Wantedly, Inc. アラートの指針 アラートの分類 • PagerDuty で通知、#war_room で緊急対応
• エンドユーザーに直接影響が出るもの • アラートチャンネルに通知、各チームで対応 • 事業を継続するための社内業務に著しく影響が出るもの • 対応が必要なアプリケーションメトリクス • 対応が必要なインフラストラクチャメトリクス • 参考程度のアラート • 対応が必要ないインフラメトリクス
© 2025 Wantedly, Inc. アラートの指針 • Runbook の整備‧影響範囲の可視化 ◦ GitHub
repository で⼀括管理 i. 急ぎのものや対応が定まっていないものはアラートに直接書いている ii. coverage で拡充できているかの評価 ◦ APM の Service Map を活⽤して関連するサービスの可視化 • PagerDuty の Open/Close で計測、記録 ◦ MTTR が計測可能に • アラート対応の振り返りはポストモーテムで実施 アラートそのもの以外の仕組み化
© 2025 Wantedly, Inc. Datadog 移行でうまくいったこと・いか なかったこと 03
© 2025 Wantedly, Inc. Datadog 移⾏でうまくいったこと‧いかなかったこと 2012 Heroku から AWS
に移⾏ Datadog の利⽤を開始 サービス開始 インフラは Heroku 2014 2016 2018 2020 2022 2024 マイクロサービス化 Kubernetes の運⽤を開始 全サービスが Kubernetes 上に デバッグの難しさ解消のため APM を導⼊ Amazon EKS に移⾏ サービスの集約検討を開始 SLO 基盤と APM を Datadog に移⾏ APM の利⽤を拡⼤ Logs による SLO 基盤検証 New Relic → Datadog 移⾏
© 2025 Wantedly, Inc. Datadog 移⾏でうまくいったこと‧いかなかったこと • エンドユーザーに直接影響が出るものは優先度⾼く移⾏ ◦ 重要サービスのメトリクス
• Datadog と New Relic で重複していたものは廃⽌ ◦ SLO Burn rate alert に移⾏したものもある 👍 ポリシーの再確認、アラートの整理
© 2025 Wantedly, Inc. Datadog 移⾏でうまくいったこと‧いかなかったこと • 👎 New Relic
のアラートと同じものを Datadog で実装できない ◦ e.g. エラーレート‧レイテンシアラート ◦ APM ベースのアラートではサンプリングされてしまう • 👎 設定ミスもあった ◦ Datadog では設定が前提なので New Relic のようにレールに乗れない 移⾏で⾒えてきた問題
© 2025 Wantedly, Inc. Datadog 移⾏でうまくいったこと‧いかなかったこと • サンプリングされていないメトリクスで評価することができた ✅トレースメトリクスなどを駆使してアラートを設定
© 2025 Wantedly, Inc. 設定ミスへの対応 • 平均値での閾値設定 ◦ ⼀部の異常が埋もれる ◦
対策:最⼩値(min)集計でフラッピング抑制 • as_count() + avg() 使⽤で平滑化 ◦ 本来のピークを検知できない ◦ 対策:as_rate() による評価を使う ✅ うるさい‧静かなアラートへの対応 https://docs.datadoghq.com/ja/monitors/guide/as-count-in-monitor-evaluations/
© 2025 Wantedly, Inc. まとめ 04
© 2025 Wantedly, Inc. まとめ • アラート運⽤を設計しておく ◦ アラートの棚卸しがスムーズになる ◦
通知先、対応フローを仕組み化‧可視化 • 移⾏は実装を⾒直すチャンス ◦ 細かな調整がしやすい ◦ 誤ると正常に監視できなくなるので注意
© 2025 Wantedly, Inc. 宣伝 We are hiring! https://www.wantedly.com/projects/522096
© 2025 Wantedly, Inc. 宣伝 ⽣成AIのイベントやります [09-17(⽔)] #wantedly_tn