Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Datadog が支える Wantedly のシステム運用

Avatar for Hayato Kawai Hayato Kawai
September 25, 2025
30

Datadog が支える Wantedly のシステム運用

「Datadog セミナー:Infra・APM・Logs をどう使う? - Datadog ユーザー活用事例セッション」で登壇した資料です
https://www.datadoghq.com/ja/event/casestudies-seminar202509/

Avatar for Hayato Kawai

Hayato Kawai

September 25, 2025
Tweet

Transcript

  1. © 2025 Wantedly, Inc. ⾃⼰紹介 名前 Fohte (ふぉーて) 川井 颯人

    (Hayato Kawai) 所属 ウォンテッドリー株式会社 Infra Squad / JDDUG
  2. © 2025 Wantedly, Inc. 会社紹介 究極の適材適所により、 シゴトでココロオドルひとを ふやすために Wantedlyはパーパス‧共感を軸にした、⼈と会社との出会いを2012 年から創出。

    はたらくすべての⼈が共感を通じて「であい」「つながり」「つなが りを深める」ためのビジネスSNS「Wantedly」を提供しています。 1⼈でも多くの⼈がワクワクしたり、熱中してシゴトと向き合えるよ うな世界を実現するために、国境を超えて「はたらくすべての⼈の イ ンフラ」を創っていきます。 5
  3. © 2025 Wantedly, Inc. 2025 年時点のインフラ構成 • マイクロサービスを Kubernetes 上で運用

    ◦ 1つのクラスタで約60個のマイクロサービスを運用 ◦ コンテナ数は1クラスタあたり約2,500個 • AWS と Google Cloud のマルチクラウド環境 • モニタリングは Datadog をメインに 複数サービスを利用 8
  4. © 2025 Wantedly, Inc. ウォンテッドリーの歴史と Datadog 9 2012 Heroku から

    AWS に移⾏ Datadog の利⽤を開始 サービス開始 インフラは Heroku 2014 2016 2018 2020 2022 2024 マイクロサービス化 Kubernetes の運⽤を開始 全サービスが Kubernetes 上に デバッグの難しさ解消のため APM を導⼊ Amazon EKS に移⾏ サービスの集約検討を開始 SLO 基盤と APM を Datadog に移⾏ APM の利⽤を拡⼤ Logs による SLO 基盤検証
  5. © 2025 Wantedly, Inc. ユーザーからの お問い合わせ カスタマーサポート エンジニア オンコール担当 #war_room

    #infra_alert エスカレーションフロー 軽微なもの 重⼤なもの トリアージ オンコール エスカレーション ユーザーへの報告等 コミュニケーション トリアージ カスタマーサポートと連 携 通知 通知
  6. © 2025 Wantedly, Inc. エスカレーションフロー (再掲) ユーザーからの お問い合わせ カスタマーサポート エンジニア

    オンコール担当 #war_room #infra_alert ⚠ 軽微なもの 🚨 重⼤なもの トリアージ オンコール エスカレーション ユーザーへの報告等 コミュニケーション トリアージ カスタマーサポートと連 携 通知 通知
  7. © 2025 Wantedly, Inc. ユーザーからの お問い合わせ カスタマーサポート エンジニア オンコール担当 #war_room

    #infra_alert エスカレーションフロー (再掲) ⚠ 軽微なもの 🚨 重⼤なもの トリアージ オンコール エスカレーション ユーザーへの報告等 コミュニケーション トリアージ カスタマーサポートと連 携 通知 通知
  8. © 2025 Wantedly, Inc. Slack #war_room / PagerDuty • いまユーザー影響が出ているものを通知

    ◦ 例: SLO burn rate の急上昇 ▪ = 重要なエンドポイントで error rate, latency が増加している • ここに通知されるものは必ず即座にトリアージする ◦ アラート疲弊を起こさないよう、「問題がありそう」ではなく 「実際に問題が起きている」アラートを流す
  9. © 2025 Wantedly, Inc. ユーザーからの お問い合わせ カスタマーサポート エンジニア オンコール担当 #war_room

    #infra_alert エスカレーションフロー (再掲) ⚠ 軽微なもの 🚨 重⼤なもの トリアージ オンコール エスカレーション ユーザーへの報告等 コミュニケーション トリアージ カスタマーサポートと連 携 通知 通知
  10. © 2025 Wantedly, Inc. Slack #infra_alert • いまユーザー影響が出ているものではないが、放置している とインシデントになる可能性があるものを通知 ◦

    例: pod 数のスケール不足、AWS コストが平常時よりも高い • ここに通知されるものは定常的にインフラチームが ベストエフォートでトリアージ ◦ 日々の朝会で前日のアラートをチェックし、見逃さないようにしている
  11. © 2025 Wantedly, Inc. #infra_alert に流れるアラートの例 (閾値ベース) 閾値ベースのアラート例 • pod

    数のスケール不足 ◦ 厳密には maxReplicas の上限に達しているときに通知 ◦ pod 数をよりスケールする必要があるかもしれないが、即時対応は不要 • Bedrock の rate limit 到達 ◦ AWS CloudWatch のメトリクスを Datadog に送っている ◦ aws.bedrock.invocation_client_errors を監視
  12. © 2025 Wantedly, Inc. #infra_alert に流れるアラートの例 (Watchdog) Watchdog • アプリケーションに異常が

    発生していることを APM から自動で検知 ◦ 具体的には error rate, latency 増加 ◦ APM のみを対象にしている ◦ ユーザー影響までは出ていないことが多い https://www.datadoghq.co m/product/platform/watch dog/
  13. © 2025 Wantedly, Inc. #infra_alert に流れるアラートの例 (Watchdog) Watchdog Story •

    どのコンポーネントで どういう問題が起きている のか俯瞰できる https://www.datadoghq.com/pro duct/platform/watchdog/
  14. © 2025 Wantedly, Inc. APM • APM では複数のアプリケー ション間のリクエストを 追える

    • 調査でもっとも利用するのが APM で、もはや必需品 https://www.datadoghq.com/product/apm/
  15. © 2025 Wantedly, Inc. APM • エラートラッキングツール単体では、 複数アプリケーションをまたぐ調査は難しい • これを解決するのが

    APM ◦ 例: エンドユーザーでエラー画面が出ている。この原因は xx というアプリケーションが yy という理由で失敗している ◦ ウォンテッドリーはマイクロサービスアーキテクチャのため、 APM は必要不可欠
  16. © 2025 Wantedly, Inc. APM • APM は主にインフラチームとバックエンドエンジニアが活用し ている •

    障害の大きさを問わず、まず APM で調査を始める • アプリケーションログまで見ることはほとんどない
  17. © 2025 Wantedly, Inc. Logs • その名の通りログ管理ができる機 能 ◦ 自由にクエリできる

    (クエリは無料!) ◦ ログからメトリクスを生成できたり APM <-> Logs で横断して閲覧できたり Datadog ならではの便利機能が豊富 https://www.datadoghq.com/p roduct/log-management/
  18. © 2025 Wantedly, Inc. Logs • ウォンテッドリーでは ALB や WAF

    のログを入れて、 WAF のルール整備のために 活用している • 前述の SLO 基盤にも活用してい る https://www.wantedly.com/companies/wantedly/post_articles/1002982
  19. © 2025 Wantedly, Inc. Logs • アプリケーションのログは Datadog には入れていない ◦

    APM でほとんどのケースにおいて十分 ◦ 量も膨大になってしまう ◦ ただしログが必要なこともあるので Loki, S3, BigQuery などに入れている • ALB のログと APM が繋がっていない課題がある ◦ ALB の trace ID と Datadog APM の trace ID の形式不一致が原因
  20. © 2025 Wantedly, Inc. Infrastructure 監視 • Amazon Aurora など

    k8s 外サービスの監視をしている ◦ メモリ逼迫時のアラートなど • k8s の健康状態監視も実施している ◦ 前述の Pod 数不足アラートなど • ホスト監視としては利用していない ◦ k8s を使ったマイクロサービスアーキテクチャのため、 ホスト自体をほぼ管理していない
  21. © 2025 Wantedly, Inc. Datadog 活⽤の課題 • Datadog 活用がまだまだ限定的で、 使える人が使っている状態になっている

    ◦ 全員 APM を活用して調査してほしいが、現実はそうもいかない • 草の根活動が重要そう ◦ 社内の LT 会を通じた継続的な周知などを実施 ◦ 普段の業務で自然に使えるよう、導線を用意することで活用されそう ▪ 事例: canary release 時に dashboard の URL を貼ったら参照されるように
  22. © 2025 Wantedly, Inc. canary release 時に dashboard の URL

    を貼ったら参照されるように https://speakerde ck.com/fohte/dua n-jie-de-ririsuwos hi-xian-suru-kube -canary?slide=11
  23. © 2025 Wantedly, Inc. 課題: Watchdog Watchdog • アラートが鳴りがちで狼少年になりかけている •

    大量に鳴ったらまずい、という活用はできている • 有用なことも多く、各プロダクトチームでもアラート 設定するように
  24. © 2025 Wantedly, Inc. 課題: anomaly detection anomaly detection •

    AWS コストの異常があったときに検知することを 期待して入れている • 平常時でも anomaly と判定されがちで、 あまり活用できていない
  25. © 2025 Wantedly, Inc. まとめ • ウォンテッドリーでは Datadog (特に APM)

    を活用中 • 活用しきれていない機能もある • 皆に Datadog を使ってもらうための草の根活動が大事