Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
導入から5年が経って見えた Datadog APM 運用の課題
Search
Atsushi Tanaka
March 13, 2024
Programming
2
620
導入から5年が経って見えた Datadog APM 運用の課題
Japan Datadog User Group Meetup#3
https://datadog-jp.connpass.com/event/309899/
Atsushi Tanaka
March 13, 2024
Tweet
Share
More Decks by Atsushi Tanaka
See All by Atsushi Tanaka
Ruby製社内ツールのGo移行
bgpat
2
350
取っていてよかった Kubernetes のバックアップ
bgpat
0
370
Terraform と Kubernetes の共存による IaC の実践
bgpat
0
1.2k
Kubernetes Cluster Migration
bgpat
4
4.3k
k8sとNginxでオートスケール / Autoscaling with k8s and Nginx
bgpat
2
1.2k
GCPのgemにコントリビュートした話
bgpat
0
660
at_exit
bgpat
0
700
OpenCensus with Datadog APM
bgpat
0
1.9k
Distributed Tracing for Microservices
bgpat
5
3.2k
Other Decks in Programming
See All in Programming
0→1と1→10の狭間で Javaという技術選定を振り返る/Reflecting on the Decision to Choose Java Between Scaling from 0 to 1 and 1 to 10
jaguar_imo
2
380
Zero Waste, Radical Magic, and Italian Graft – Quarkus Efficiency Secrets
hollycummins
0
230
VS Code をプロダクトにどう取り込むか
onomax
1
370
Rethinking UI building strategies @ SFI 2024
letelete
0
270
サイコロで理解する統計的仮説検定の考え方
tatamiya
4
950
Prepare for Jakarta EE 11 - Performance and Developer Productivity
ivargrimstad
0
820
GraphQLサーバの構成要素を整理する #ハッカー鮨 #tsukijigraphql / graphql server technology selection
izumin5210
4
840
From Spring Boot 2 to Spring Boot 3 with Java 21 and Jakarta EE
ivargrimstad
0
110
Anthropic Cookbook のおすすめレシピ
schroneko
7
990
初心者のためのRubyKaigi入門/RubyKaigi Introduction
a_matsuda
2
880
単体テストを書かない技術 #phpcon_odawara
o0h
PRO
27
8.3k
TCAとKMPを用いた新規動画配信アプリ 「ABEMA Live」の設計
tomu28
1
110
Featured
See All Featured
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
501
140k
From Idea to $5000 a Month in 5 Months
shpigford
377
45k
The Cost Of JavaScript in 2023
addyosmani
16
3.9k
Large-scale JavaScript Application Architecture
addyosmani
504
110k
Making Projects Easy
brettharned
108
5.5k
Writing Fast Ruby
sferik
621
60k
Designing the Hi-DPI Web
ddemaree
276
33k
The Mythical Team-Month
searls
216
42k
4 Signs Your Business is Dying
shpigford
175
21k
Rails Girls Zürich Keynote
gr2m
91
13k
Ruby is Unlike a Banana
tanoku
96
10k
Code Review Best Practice
trishagee
55
15k
Transcript
© 2024 Wantedly, Inc. 導⼊から5年が経って⾒えた Datadog APM 運⽤の課題 Japan Datadog
User Group Meetup#3 Mar. 13 2024 - Atsushi Tanaka @bgpat
© 2024 Wantedly, Inc. 過去の登壇資料 https://speakerdeck.com/bgpat/distributed-tracing-for-microservices
© 2024 Wantedly, Inc. 過去の登壇資料 https://speakerdeck.com/bgpat/opencensus-with-datadog-apm
© 2024 Wantedly, Inc. 今⽇伝えたいこと APM は導⼊後のメンテナンスが重要 • トレースが期待した状態になっているかの確認‧修正 ◦
気付いたら分断されていたり必要な値が⼊っていないことがある ◦ 負のループに陥らないように対応が必要 • 利⽤者への普及活動 ◦ とりあえず⼊れただけの状態で使ってくれる⼈は限られている ◦ 普段から慣れていないといざというときに使えない ◦ 勉強会や障害訓練等で利⽤を広げる活動も必要
© 2024 Wantedly, Inc. $ whoami @bgpat / Atsushi Tanaka
ウォンテッドリー株式会社 Infrastructure Engineer Kubernetes / Terraform SRE / Platform Engineering Datadog 歴 6〜7年くらい
© 2024 Wantedly, Inc. Wantedlyのマイクロサービス (5年前) • マイクロサービス70個以上 (社内サービスも含む)
© 2024 Wantedly, Inc. Wantedlyのマイクロサービス (5年前)
© 2024 Wantedly, Inc. そこで分散トレーシング (Datadog APM)
© 2024 Wantedly, Inc. を導⼊して5年が経過しました
© 2024 Wantedly, Inc. 導⼊時からの変化
© 2024 Wantedly, Inc. マイクロサービス化がさらに進んだ • マイクロサービス70個以上 (社内サービスも含む) →当時と同じ数え⽅で 150
サービス超 Service Catalog には 82 サービスが存在
© 2024 Wantedly, Inc. マイクロサービス化がさらに進んだ 分散トレーシングの価値は上がっている
© 2024 Wantedly, Inc. 5年が経過して⾒えた課題
© 2024 Wantedly, Inc. いつの間にか壊れるトレース 発⽣した問題 • トレースが分断されている • ⼊っていてほしい情報が抜け落ちている
◦ ユーザーID ◦ エラー情報 原因 • フレームワークの変更 • ライブラリのアップデート ◦ トレーシングライブラリを複数⼊れていると問題になりやすい
© 2024 Wantedly, Inc. いつの間にか壊れるトレース トレースが壊れる 使いづらい 利⽤者減 メンテされない
© 2024 Wantedly, Inc. 扱える⼈の2極化 普段からAPMを活⽤している⼈ vs 全く使わない⼈ 導⼊当時は勉強会を実施したがここ数年はしていない ↓
⼀番効果を発揮する障害対応で 何をすればいいか分からない⼈が増えた
© 2024 Wantedly, Inc. 扱える⼈の2極化 ←利⽤しているツールのアンケート結果 エンジニアの約3割は Datadog を使っていない
© 2024 Wantedly, Inc. 扱える⼈の2極化 障害訓練の振り返りから抜粋 • Datadog 操作なれてなくてやりたいことがぱっとできなかった ◦
env どこで指定するんだっけ • データドッグの使い⽅なんとなく理解した • 調査の⽅法が全然分からなかった ◦ どのツールを使えばいいか分からなかった ◦ Datadogの⾒⽅がパッと分からなかった • Datadog の⾒⽅に⼾惑ったのでチートシートなどがほしい • Datadog の trace がつながってなかった • Datadog の操作になれていない⼈が多かった印象が強い ◦ Datadog オペレーション講習会みたいなものをやると良さそう
© 2024 Wantedly, Inc. まとめ APM は導⼊後のメンテナンスが重要 • トレースが期待した状態になっているかの確認‧修正 ◦
気付いたら分断されていたり必要な値が⼊っていないことがある ◦ 負のループに陥らないように対応が必要 • 利⽤者への普及活動 ◦ とりあえず⼊れただけの状態で使ってくれる⼈は限られている ◦ 普段から慣れていないといざというときに使えない ◦ 勉強会や障害訓練等で利⽤を広げる活動も必要
© 2024 Wantedly, Inc. 詳しい話は懇親会 orカジュアル⾯談で https://www.wantedly.com/projects/522096