Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Datadogとともにオブザーバビリティを布教しよう
Search
mego2221
February 11, 2025
Technology
0
190
Datadogとともにオブザーバビリティを布教しよう
システムの可視化と最適化をDatadogと学ぶ
https://rosca.connpass.com/event/344126/
mego2221
February 11, 2025
Tweet
Share
More Decks by mego2221
See All by mego2221
とっさのサーバトラブルもこれで大丈夫! Linuxコマンドの使い方とポイント ~入門編~
mego2221
0
130
インフラエンジニアのはじめかた
mego2221
0
150
Other Decks in Technology
See All in Technology
CRE Camp #1 エンジニアリングを民主化するCREチームでありたい話
mntsq
1
120
2025-07-06 QGIS初級ハンズオン「はじめてのQGIS」
kou_kita
0
170
Delta airlines Customer®️ USA Contact Numbers: Complete 2025 Support Guide
deltahelp
0
680
OPENLOGI Company Profile
hr01
0
67k
生成AI開発案件におけるClineの業務活用事例とTips
shinya337
0
250
Operating Operator
shhnjk
1
580
ビズリーチにおけるリアーキテクティング実践事例 / JJUG CCC 2025 Spring
visional_engineering_and_design
1
120
面倒な作業はAIにおまかせ。Flutter開発をスマートに効率化
ruideengineer
0
250
united airlines ™®️ USA Contact Numbers: Complete 2025 Support Guide
flyunitedhelp
1
300
B2C&B2B&社内向けサービスを抱える開発組織におけるサービス価値を最大化するイニシアチブ管理
belongadmin
1
6.9k
「クラウドコスト絶対削減」を支える技術—FinOpsを超えた徹底的なクラウドコスト削減の実践論
delta_tech
4
170
Beyond Kaniko: Navigating Unprivileged Container Image Creation
f30
0
130
Featured
See All Featured
Statistics for Hackers
jakevdp
799
220k
What's in a price? How to price your products and services
michaelherold
246
12k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.8k
Into the Great Unknown - MozCon
thekraken
40
1.9k
GitHub's CSS Performance
jonrohan
1031
460k
Documentation Writing (for coders)
carmenintech
72
4.9k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
48
2.9k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
Bash Introduction
62gerente
613
210k
Producing Creativity
orderedlist
PRO
346
40k
Making the Leap to Tech Lead
cromwellryan
134
9.4k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Transcript
Datadogでオブザーバビリティを布教しよう
2 © iCARE Co., Ltd. 自己紹介 • めぐろ(id: mego2221) •
株式会社iCARE SREチーム • 経歴 ◦ MSPの会社でサーバ監視/運用/構築を経験 ▪ インフラエンジニア 10年 ◦ 昨年iCAREにジョイン ▪ SRE 2年
3 © iCARE Co., Ltd. 今日話すこと • どうやってDatadogに関して学んだか • どうやってオブザーバビリティを布教したか
モニタリングツールとの関わり
5 © iCARE Co., Ltd. モニタリングツールとの関わり • 前職のMSPでは案件ごとにツールが違う • 現職ではDatadogを中心にした構成
◦ 2022年にDatadogを導入 ▪ Logs/APM/Monitors/Metrics/etc..
6 © iCARE Co., Ltd. Nagios CloudWatch Datadog サーバへSSH CloudWatchLogs
S3 Datadog ログ メトリクス Grafana CloudWatch Datadog 監視 前職 現職 ツールの比較
7 © iCARE Co., Ltd. Datadogに関するキャッチアップ • 各種設定を確認 ◦ Monitors(監視)はすべての項目を確認
• Monitorsの見直し ◦ 不要な監視の削除 ◦ Priorityの見直し ◦ 対応フロー(ドキュメント)の整備 • Datadog Learning Centerを利用
8 © iCARE Co., Ltd. Datadog Learning Centerについて • Datadogの機能をハンズオンで学べるサービス
• なんと無料
9 © iCARE Co., Ltd. 社内での使われ方の調査 • アンケート • Datadogに関する社内ドキュメントの分析
• Datadogダッシュボードの利用状況 ◦ POPULARITYを参考
10 © iCARE Co., Ltd. 見えてきた課題 • Datadogの使われ方がまちまち ◦ 使いこなしている人/ほぼ使わない人で分かれる
• ダッシュボードが利用されていない ◦ インフラのリソース確認がほとんど ◦ 開発チームに適したダッシュボードが少ない • オブザーバビリティに対する理解度も個人に依存している ダッシュボードを活用してオブザーバビリティを浸透させたい
オブザーバビリティについて
12 © iCARE Co., Ltd. なぜオブザーバビリティ? • システム・サービスの状況把握に必要不可欠 • 障害の影響範囲をすぐに把握できる
• 開発チームもパフォーマンス改善の判断がしやすくなる • Dickersonの信頼性の階層構造で最も強固であると説明
13 © iCARE Co., Ltd. Dickersonの信頼性の階層構造 • システムの信頼性を支える要素をピラミッド構造で表したもの • 下の層が脆弱だと、上の層も崩れやすい
• 最も強固な基盤が「オブザーバビリティ」 ◦ 観測できなければ改善もできない ※引用元: O'Reilly Japan SREをはじめよう
実施したこと
15 © iCARE Co., Ltd. ドキュメントの整備 • 社内のDatadogの仕様をドキュメント化 ◦ 有効にしている機能/よく使う機能の手順
• 過去にSREチームへ相談をもらったことをドキュメント化 ◦ ログ/Traceの調査方法 ◦ ボトルネックの調査方法 ◦ APMの使い方/見方
16 © iCARE Co., Ltd. Datadog勉強会の開催 • Datadogの概要からダッシュボード作りのハンズオンを実施 • ダッシュボードは今後も作ってもらうためにテンプレートを用意
17 © iCARE Co., Ltd. リリース時のサポート • 大規模なリリースが控えていたのでSREチームがサポート ◦ 負荷テスト時のパフォーマンス確認
◦ リリース手順のレビュー ◦ ダッシュボードの作成 • ダッシュボード ◦ リリース前後で比較しやすいような構成 ◦ 見るべきところや参考リンクなどをダッシュボードに記載
18 © iCARE Co., Ltd. 効果 取り組み 効果 ドキュメントの整備 SREチームへの依存度を減らし、属人化を解消
Datadog勉強会の開催 Datadogの理解が広がり、会社全体で活用できるようになった Datadogに対する苦手意識の解消 リリース時のサポート 🚀安定したリリースを実現し、トラブル発生時の対応スピードを向上 📊客観的なデータをもとに「安全なリリース」であることを説明できる
今後
20 © iCARE Co., Ltd. SLI/SLOの見直し • 過去に設定しており、現状にあっていない ◦ 長期的に見直しが行えておらず形骸化している
• CUJ(クリティカルユーザージャニー)をもとにSLI/SLOの見直しを行いたい ◦ CUJはユーザーがサービスを利用する際の最も重要で頻繁に行われる一連の操作や体験の こと • CUJ自体の見直しも必要なので、チームの垣根を超えて策定する必要がある
21 © iCARE Co., Ltd. Datadog SLOの活用 • Datadogから提供されている •
比較的容易に設定可能 ◦ SLO達成率の可視化 ◦ SLO違反時のアラート設定 ◦ エラーバジェットの管理
22 © iCARE Co., Ltd. さいごに • iCARE入社とSREエンジニアのキャリアがちょうど1年経過したのでDatadogの活用方法とオブ ザーバビリティの布教活動を紹介しました •
発表で気になることがあれば、お気軽にXや勉強会で声をかけてくれると嬉しいです! ◦ 直近の勉強会: 2/26 Japan Datadog User Group Meetup#7 ▪ https://datadog-jp.connpass.com/event/343144/ ◦ X: mego2221 ▪ https://x.com/mego2221
Thank You