Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Datadog が支える Wantedly のシステム運用

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Hayato Kawai Hayato Kawai
September 25, 2025
100

Datadog が支える Wantedly のシステム運用

「Datadog セミナー:Infra・APM・Logs をどう使う? - Datadog ユーザー活用事例セッション」で登壇した資料です
https://www.datadoghq.com/ja/event/casestudies-seminar202509/

Avatar for Hayato Kawai

Hayato Kawai

September 25, 2025
Tweet

More Decks by Hayato Kawai

Transcript

  1. © 2025 Wantedly, Inc. ⾃⼰紹介 名前 Fohte (ふぉーて) 川井 颯人

    (Hayato Kawai) 所属 ウォンテッドリー株式会社 Infra Squad / JDDUG
  2. © 2025 Wantedly, Inc. 会社紹介 究極の適材適所により、 シゴトでココロオドルひとを ふやすために Wantedlyはパーパス‧共感を軸にした、⼈と会社との出会いを2012 年から創出。

    はたらくすべての⼈が共感を通じて「であい」「つながり」「つなが りを深める」ためのビジネスSNS「Wantedly」を提供しています。 1⼈でも多くの⼈がワクワクしたり、熱中してシゴトと向き合えるよ うな世界を実現するために、国境を超えて「はたらくすべての⼈の イ ンフラ」を創っていきます。 5
  3. © 2025 Wantedly, Inc. 2025 年時点のインフラ構成 • マイクロサービスを Kubernetes 上で運用

    ◦ 1つのクラスタで約60個のマイクロサービスを運用 ◦ コンテナ数は1クラスタあたり約2,500個 • AWS と Google Cloud のマルチクラウド環境 • モニタリングは Datadog をメインに 複数サービスを利用 8
  4. © 2025 Wantedly, Inc. ウォンテッドリーの歴史と Datadog 9 2012 Heroku から

    AWS に移⾏ Datadog の利⽤を開始 サービス開始 インフラは Heroku 2014 2016 2018 2020 2022 2024 マイクロサービス化 Kubernetes の運⽤を開始 全サービスが Kubernetes 上に デバッグの難しさ解消のため APM を導⼊ Amazon EKS に移⾏ サービスの集約検討を開始 SLO 基盤と APM を Datadog に移⾏ APM の利⽤を拡⼤ Logs による SLO 基盤検証
  5. © 2025 Wantedly, Inc. ユーザーからの お問い合わせ カスタマーサポート エンジニア オンコール担当 #war_room

    #infra_alert エスカレーションフロー 軽微なもの 重⼤なもの トリアージ オンコール エスカレーション ユーザーへの報告等 コミュニケーション トリアージ カスタマーサポートと連 携 通知 通知
  6. © 2025 Wantedly, Inc. エスカレーションフロー (再掲) ユーザーからの お問い合わせ カスタマーサポート エンジニア

    オンコール担当 #war_room #infra_alert ⚠ 軽微なもの 🚨 重⼤なもの トリアージ オンコール エスカレーション ユーザーへの報告等 コミュニケーション トリアージ カスタマーサポートと連 携 通知 通知
  7. © 2025 Wantedly, Inc. ユーザーからの お問い合わせ カスタマーサポート エンジニア オンコール担当 #war_room

    #infra_alert エスカレーションフロー (再掲) ⚠ 軽微なもの 🚨 重⼤なもの トリアージ オンコール エスカレーション ユーザーへの報告等 コミュニケーション トリアージ カスタマーサポートと連 携 通知 通知
  8. © 2025 Wantedly, Inc. Slack #war_room / PagerDuty • いまユーザー影響が出ているものを通知

    ◦ 例: SLO burn rate の急上昇 ▪ = 重要なエンドポイントで error rate, latency が増加している • ここに通知されるものは必ず即座にトリアージする ◦ アラート疲弊を起こさないよう、「問題がありそう」ではなく 「実際に問題が起きている」アラートを流す
  9. © 2025 Wantedly, Inc. ユーザーからの お問い合わせ カスタマーサポート エンジニア オンコール担当 #war_room

    #infra_alert エスカレーションフロー (再掲) ⚠ 軽微なもの 🚨 重⼤なもの トリアージ オンコール エスカレーション ユーザーへの報告等 コミュニケーション トリアージ カスタマーサポートと連 携 通知 通知
  10. © 2025 Wantedly, Inc. Slack #infra_alert • いまユーザー影響が出ているものではないが、放置している とインシデントになる可能性があるものを通知 ◦

    例: pod 数のスケール不足、AWS コストが平常時よりも高い • ここに通知されるものは定常的にインフラチームが ベストエフォートでトリアージ ◦ 日々の朝会で前日のアラートをチェックし、見逃さないようにしている
  11. © 2025 Wantedly, Inc. #infra_alert に流れるアラートの例 (閾値ベース) 閾値ベースのアラート例 • pod

    数のスケール不足 ◦ 厳密には maxReplicas の上限に達しているときに通知 ◦ pod 数をよりスケールする必要があるかもしれないが、即時対応は不要 • Bedrock の rate limit 到達 ◦ AWS CloudWatch のメトリクスを Datadog に送っている ◦ aws.bedrock.invocation_client_errors を監視
  12. © 2025 Wantedly, Inc. #infra_alert に流れるアラートの例 (Watchdog) Watchdog • アプリケーションに異常が

    発生していることを APM から自動で検知 ◦ 具体的には error rate, latency 増加 ◦ APM のみを対象にしている ◦ ユーザー影響までは出ていないことが多い https://www.datadoghq.co m/product/platform/watch dog/
  13. © 2025 Wantedly, Inc. #infra_alert に流れるアラートの例 (Watchdog) Watchdog Story •

    どのコンポーネントで どういう問題が起きている のか俯瞰できる https://www.datadoghq.com/pro duct/platform/watchdog/
  14. © 2025 Wantedly, Inc. APM • APM では複数のアプリケー ション間のリクエストを 追える

    • 調査でもっとも利用するのが APM で、もはや必需品 https://www.datadoghq.com/product/apm/
  15. © 2025 Wantedly, Inc. APM • エラートラッキングツール単体では、 複数アプリケーションをまたぐ調査は難しい • これを解決するのが

    APM ◦ 例: エンドユーザーでエラー画面が出ている。この原因は xx というアプリケーションが yy という理由で失敗している ◦ ウォンテッドリーはマイクロサービスアーキテクチャのため、 APM は必要不可欠
  16. © 2025 Wantedly, Inc. APM • APM は主にインフラチームとバックエンドエンジニアが活用し ている •

    障害の大きさを問わず、まず APM で調査を始める • アプリケーションログまで見ることはほとんどない
  17. © 2025 Wantedly, Inc. Logs • その名の通りログ管理ができる機 能 ◦ 自由にクエリできる

    (クエリは無料!) ◦ ログからメトリクスを生成できたり APM <-> Logs で横断して閲覧できたり Datadog ならではの便利機能が豊富 https://www.datadoghq.com/p roduct/log-management/
  18. © 2025 Wantedly, Inc. Logs • ウォンテッドリーでは ALB や WAF

    のログを入れて、 WAF のルール整備のために 活用している • 前述の SLO 基盤にも活用してい る https://www.wantedly.com/companies/wantedly/post_articles/1002982
  19. © 2025 Wantedly, Inc. Logs • アプリケーションのログは Datadog には入れていない ◦

    APM でほとんどのケースにおいて十分 ◦ 量も膨大になってしまう ◦ ただしログが必要なこともあるので Loki, S3, BigQuery などに入れている • ALB のログと APM が繋がっていない課題がある ◦ ALB の trace ID と Datadog APM の trace ID の形式不一致が原因
  20. © 2025 Wantedly, Inc. Infrastructure 監視 • Amazon Aurora など

    k8s 外サービスの監視をしている ◦ メモリ逼迫時のアラートなど • k8s の健康状態監視も実施している ◦ 前述の Pod 数不足アラートなど • ホスト監視としては利用していない ◦ k8s を使ったマイクロサービスアーキテクチャのため、 ホスト自体をほぼ管理していない
  21. © 2025 Wantedly, Inc. Datadog 活⽤の課題 • Datadog 活用がまだまだ限定的で、 使える人が使っている状態になっている

    ◦ 全員 APM を活用して調査してほしいが、現実はそうもいかない • 草の根活動が重要そう ◦ 社内の LT 会を通じた継続的な周知などを実施 ◦ 普段の業務で自然に使えるよう、導線を用意することで活用されそう ▪ 事例: canary release 時に dashboard の URL を貼ったら参照されるように
  22. © 2025 Wantedly, Inc. canary release 時に dashboard の URL

    を貼ったら参照されるように https://speakerde ck.com/fohte/dua n-jie-de-ririsuwos hi-xian-suru-kube -canary?slide=11
  23. © 2025 Wantedly, Inc. 課題: Watchdog Watchdog • アラートが鳴りがちで狼少年になりかけている •

    大量に鳴ったらまずい、という活用はできている • 有用なことも多く、各プロダクトチームでもアラート 設定するように
  24. © 2025 Wantedly, Inc. 課題: anomaly detection anomaly detection •

    AWS コストの異常があったときに検知することを 期待して入れている • 平常時でも anomaly と判定されがちで、 あまり活用できていない
  25. © 2025 Wantedly, Inc. まとめ • ウォンテッドリーでは Datadog (特に APM)

    を活用中 • 活用しきれていない機能もある • 皆に Datadog を使ってもらうための草の根活動が大事