Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Datadog による 自己完結的アプリケーションモニタリング
Search
Recruit
PRO
March 13, 2024
Technology
6
1.4k
Datadog による 自己完結的アプリケーションモニタリング
2024/03/13に、Japan Datadog User Group Meetup#3で発表した、小檜山の資料です。
Recruit
PRO
March 13, 2024
Tweet
Share
More Decks by Recruit
See All by Recruit
Asset Centric な データ変換パイプラインの攻略法
recruitengineers
PRO
1
52
Kotlin Multiplatformのポテンシャル
recruitengineers
PRO
2
160
デザイン初め新年会2025_川端_PdM Days2025
recruitengineers
PRO
0
37
Azure Functions HTTPトリガーにおけるタイムアウトでハマったこと
recruitengineers
PRO
2
330
実務につなげる数理最適化
recruitengineers
PRO
7
930
うちにも入れたいDatadog
recruitengineers
PRO
2
1.4k
リクルートのデータ基盤 Crois 年3倍成長!1日40,000コンテナの実行を支える AWS 活用とプラットフォームエンジニアリング
recruitengineers
PRO
3
470
Splunk Enterpriseで S3のデータを直接検索してみた!
recruitengineers
PRO
2
250
Looker APIを使い倒す ユーザーフィードバックを基にした継続的改善サイクル
recruitengineers
PRO
3
86
Other Decks in Technology
See All in Technology
あなたの人生も変わるかも?AWS認定2つで始まったウソみたいな話
iwamot
3
880
「人物ごとのアルバム」の精度改善の軌跡/Improving accuracy of albums by person
mixi_engineers
PRO
2
140
メールヘッダーを見てみよう
hinono
0
130
2024AWSで個人的にアツかったアップデート
nagisa53
1
110
自社 200 記事を元に整理した読みやすいテックブログを書くための Tips 集
masakihirose
2
360
JAWS-UG20250116_iOSアプリエンジニアがAWSreInventに行ってきた(真面目編)
totokit4
0
170
LLM活用の現在とこれから:LayerXにおける事例とともに 2025/1 ver. / layerx-llm-202501
yuya4
3
140
dbtを中心にして組織のアジリティとガバナンスのトレードオンを考えてみた
gappy50
0
350
re:Invent 2024のふりかえり
beli68
0
130
Amazon Route 53, 待ちに待った TLSAレコードのサポート開始
kenichinakamura
0
190
「隙間家具OSS」に至る道/Fujiwara Tech Conference 2025
fujiwara3
7
6.7k
30分でわかる「リスクから学ぶKubernetesコンテナセキュリティ」/30min-k8s-container-sec
mochizuki875
3
460
Featured
See All Featured
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
29
960
KATA
mclloyd
29
14k
The Pragmatic Product Professional
lauravandoore
32
6.4k
Fantastic passwords and where to find them - at NoRuKo
philnash
50
3k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
870
Documentation Writing (for coders)
carmenintech
67
4.5k
The Cost Of JavaScript in 2023
addyosmani
46
7.2k
A designer walks into a library…
pauljervisheath
205
24k
GitHub's CSS Performance
jonrohan
1030
460k
Faster Mobile Websites
deanohume
305
30k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
Practical Orchestrator
shlominoach
186
10k
Transcript
#JDDUG Datadog による自己完結的アプリケーションモニタリング Datadog による 自己完結的アプリケーションモニタリング @mopp Japan Datadog User
Group Meetup#3
#JDDUG Datadog による自己完結的アプリケーションモニタリング Agenda | 00 01 03 04 About
me & us 自己完結的アプリケーションモニタリング Datadog 活用事例 まとめ
#JDDUG Datadog による自己完結的アプリケーションモニタリング About mopp • ミッション ◦ 技術的負債の解消 •
エディタ ◦ NeoVim • 好きな言語 ◦ C, Erlang/OTP • 最近ハマっていること ◦ 玉ねぎを飴色にすること
#JDDUG Datadog による自己完結的アプリケーションモニタリング About スタディサプリ 小中高 様々なスタディサプリの内 小中高向けのスタディサプリの お話をします
#JDDUG Datadog による自己完結的アプリケーションモニタリング 自己完結的アプリケーションモニタリング 01
#JDDUG Datadog による自己完結的アプリケーションモニタリング 自己完結的とは? 必要なものを必要なときに自分たちで用意できること
#JDDUG Datadog による自己完結的アプリケーションモニタリング 自己完結的とは? • 弊組織の SRE により推進されています • 具体的には、設計、実装、QA、デプロイ、監視などの全てを
一貫してチームで行うこと • 今日は「監視」のための Datadog 利用事例を紹介します
#JDDUG Datadog による自己完結的アプリケーションモニタリング 自己完結的アプリケーションモニタリングとは? • チームで ◦ 問題なく動作しているか?を知ることができる ◦ メトリクスやグラフなどを必要なときに追加できる
◦ 異常を即座に検知できる • 監視が出来ているってなに? ◦ 何が、どこで、どのくらい起きているか、を知ることができる
#JDDUG Datadog による自己完結的アプリケーションモニタリング 自己完結的アプリケーションモニタリングのために こういうこと、ありがちですよね? 「要件も6割くらいが完了して順調だな〜 そろそろ Dashboard でも作ろうかな」
#JDDUG Datadog による自己完結的アプリケーションモニタリング 自己完結的アプリケーションモニタリングのために
#JDDUG Datadog による自己完結的アプリケーションモニタリング 自己完結的アプリケーションモニタリングのために Dashboard は初期から作ろう
#JDDUG Datadog による自己完結的アプリケーションモニタリング 自己完結的アプリケーションモニタリングのために • 監視はアプリケーションと一緒に作っていこう ◦ 犬と共に歩んでください • そのために監視設定もタスクに入れてしまう
◦ Sprint Planning や Task Refinement で入れてしまう ◦ PR で一緒に追加、レビューで指摘する
#JDDUG Datadog による自己完結的アプリケーションモニタリング 自己完結的アプリケーションモニタリングのために • 監視も一緒に作るための Code - Test -
Monitor ステップ ◦ Code ▪ プロダクションコードとテストコードを書く ◦ Test ▪ 実際にアプリケーションを起動して動作確認する ◦ Monitor 🆕 ▪ 監視項目を追加する
#JDDUG Datadog による自己完結的アプリケーションモニタリング Datadog 活用事例 02
#JDDUG Datadog による自己完結的アプリケーションモニタリング 弊組織での Datadog 普及の道のり • Dashboard から利用が始まる •
SLO という概念の導入が推進される ◦ 各サービスに Monitor と SLO が設定される • APM が導入&推進される • 有識者が Notebook を使いこなし便利過ぎるとじわじわ話題に ※mopp 視点なので事実と異なる可能性があります
#JDDUG Datadog による自己完結的アプリケーションモニタリング Dashboard を使い込む • Datadog の基本は Dashboard だと考えています
◦ 日頃一番見るから ◦ 他の機能と連携するとより便利になるから ▪ SLO, Monitor, APM, Events など ◦ 何かあったときに見に行くから
#JDDUG Datadog による自己完結的アプリケーションモニタリング 使い込むために毎日見る • Daily Meeting で見てます ◦ 10分かからないくらい
• 異変を早めに検知するため ◦ 日頃の負荷の肌感をつけるため • Dashboard の土地勘をつけるため
#JDDUG Datadog による自己完結的アプリケーションモニタリング 使い込むために毎日見る • Kubernetes、SaaS、ドメイン固有の ものまで一つの Dashboard で見る ◦
ここを見ればこのサービスの 状態全てがわかる、が理想 • サービス1個につき1個の Dashboard ◦ 今は3つのサービスを見ている ◦ 4個以上だと大変なので 総合 Dashboard が欲しいかも
#JDDUG Datadog による自己完結的アプリケーションモニタリング Dashboard Tips: Percentile は基本 • p99, p90,
p50, avg あたりは基本なので見ましょう ◦ avg だけだとかなり当てにならない
#JDDUG Datadog による自己完結的アプリケーションモニタリング Dashboard Tips: しきい値を表示する • 例: t系なので CPU使用率が
20% を超えるなら見直しが必要 • Monitor でアラートするのも便利
#JDDUG Datadog による自己完結的アプリケーションモニタリング Dashboard Tips: 使用料金も見る • 最近、SRE によりAWS利用料金がサービス単位で可視化されました ◦
「うちらのサービス、思ったより高くね…?」となり改善に繋がる Text Widget で 説明が書いてあるのも易しくてよき 実は Powerpack 化されているので コピペですぐに使えて保守も簡単
#JDDUG Datadog による自己完結的アプリケーションモニタリング Dashboard Tips: 時間がないので箇条書き • Events のリストを表示する ◦
Kubernetes の Readiness Probe 失敗や OOM を見ている • Metrics Summary で何が表示できるか?を流し見する ◦ これ見たほうがいいかも、って案外なる ◦ Document のチェックも忘れずに • Pod数が多い CPU, Memory の使用量はヒートマップが便利
#JDDUG Datadog による自己完結的アプリケーションモニタリング custom metrics でバグ調査 • バグの調査に利用 if is_piyo_mismatch
# おかしいときの条件 tags = { user_id:, piyo_id:, platform:, browser:, version: } statsd.increment('hoge_namespace.piyo_mismatch.count', tags:) end • どのような状態か、頻度、発生時刻、などが Dashboard だと見やすい • たまにしか起きないバグ どのようなデータ分布なのかを調べたいとき、に便利 • NOTE: tags の組み合わせ数で課金されるので user_id を安直に入れるのは注意 ◦ 組織のメトリクス数が無限に増加し、請求に問題が発生します。
#JDDUG Datadog による自己完結的アプリケーションモニタリング monitor から Slack への通知 • サービスごとに専用の通知チャンネルを作成 ◦
チームだとサービス移譲のときに大変だし、混じって見づらい • 本番とそれ以外で分離 ◦ #hoge-service-prod-notifications ◦ #hoge-service-develop-notifications ◦ 初手のトリアージに便利 • チームにメンションをする ◦ IDを取るのが高難易度業務
#JDDUG Datadog による自己完結的アプリケーションモニタリング 培った Dashboard 力で調査する Notebook • グラフ弄りとメモ書きが同時にできる ◦
最高便利 • 共同編集もできる
#JDDUG Datadog による自己完結的アプリケーションモニタリング まとめ 03
#JDDUG Datadog による自己完結的アプリケーションモニタリング まとめ • 自分たちのアプリケーションは自分たちで手綱を握ろう • Code - Test
- Monitor で監視も共に育てよう • まずは Dashboard から使い尽くそう
#JDDUG Datadog による自己完結的アプリケーションモニタリング ご清聴ありがとうございました