Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Datadogとともにオブザーバビリティを布教しよう
Search
mego2221
February 11, 2025
Technology
0
180
Datadogとともにオブザーバビリティを布教しよう
システムの可視化と最適化をDatadogと学ぶ
https://rosca.connpass.com/event/344126/
mego2221
February 11, 2025
Tweet
Share
More Decks by mego2221
See All by mego2221
とっさのサーバトラブルもこれで大丈夫! Linuxコマンドの使い方とポイント ~入門編~
mego2221
0
130
インフラエンジニアのはじめかた
mego2221
0
150
Other Decks in Technology
See All in Technology
タイミーのデータモデリング事例と今後のチャレンジ
ttccddtoki
4
1.3k
Geminiとv0による高速プロトタイピング
shinya337
0
200
PHP開発者のためのSOLID原則再入門 #phpcon / PHP Conference Japan 2025
shogogg
4
930
Core Audio tapを使ったリアルタイム音声処理のお話
yuta0306
0
150
WordPressから ヘッドレスCMSへ! Storyblokへの移行プロセス
nyata
0
330
CI/CD/IaC 久々に0から環境を作ったらこうなりました
kaz29
1
200
登壇ネタの見つけ方 / How to find talk topics
pinkumohikan
5
590
asken AI勉強会(Android)
tadashi_sato
0
140
より良いプロダクトの開発を目指して - 情報を中心としたプロダクト開発 #phpcon #phpcon2025
bengo4com
1
3.2k
生成AI時代の開発組織・技術・プロセス 〜 ログラスの挑戦と考察 〜
itohiro73
1
370
Lazy application authentication with Tailscale
bluehatbrit
0
100
高速なプロダクト開発を実現、創業期から掲げるエンタープライズアーキテクチャ
kawauso
1
170
Featured
See All Featured
Adopting Sorbet at Scale
ufuk
77
9.4k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
107
19k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.4k
The Language of Interfaces
destraynor
158
25k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
48
2.9k
Agile that works and the tools we love
rasmusluckow
329
21k
The World Runs on Bad Software
bkeepers
PRO
69
11k
Documentation Writing (for coders)
carmenintech
72
4.9k
The Straight Up "How To Draw Better" Workshop
denniskardys
234
140k
Optimizing for Happiness
mojombo
379
70k
Writing Fast Ruby
sferik
628
62k
Transcript
Datadogでオブザーバビリティを布教しよう
2 © iCARE Co., Ltd. 自己紹介 • めぐろ(id: mego2221) •
株式会社iCARE SREチーム • 経歴 ◦ MSPの会社でサーバ監視/運用/構築を経験 ▪ インフラエンジニア 10年 ◦ 昨年iCAREにジョイン ▪ SRE 2年
3 © iCARE Co., Ltd. 今日話すこと • どうやってDatadogに関して学んだか • どうやってオブザーバビリティを布教したか
モニタリングツールとの関わり
5 © iCARE Co., Ltd. モニタリングツールとの関わり • 前職のMSPでは案件ごとにツールが違う • 現職ではDatadogを中心にした構成
◦ 2022年にDatadogを導入 ▪ Logs/APM/Monitors/Metrics/etc..
6 © iCARE Co., Ltd. Nagios CloudWatch Datadog サーバへSSH CloudWatchLogs
S3 Datadog ログ メトリクス Grafana CloudWatch Datadog 監視 前職 現職 ツールの比較
7 © iCARE Co., Ltd. Datadogに関するキャッチアップ • 各種設定を確認 ◦ Monitors(監視)はすべての項目を確認
• Monitorsの見直し ◦ 不要な監視の削除 ◦ Priorityの見直し ◦ 対応フロー(ドキュメント)の整備 • Datadog Learning Centerを利用
8 © iCARE Co., Ltd. Datadog Learning Centerについて • Datadogの機能をハンズオンで学べるサービス
• なんと無料
9 © iCARE Co., Ltd. 社内での使われ方の調査 • アンケート • Datadogに関する社内ドキュメントの分析
• Datadogダッシュボードの利用状況 ◦ POPULARITYを参考
10 © iCARE Co., Ltd. 見えてきた課題 • Datadogの使われ方がまちまち ◦ 使いこなしている人/ほぼ使わない人で分かれる
• ダッシュボードが利用されていない ◦ インフラのリソース確認がほとんど ◦ 開発チームに適したダッシュボードが少ない • オブザーバビリティに対する理解度も個人に依存している ダッシュボードを活用してオブザーバビリティを浸透させたい
オブザーバビリティについて
12 © iCARE Co., Ltd. なぜオブザーバビリティ? • システム・サービスの状況把握に必要不可欠 • 障害の影響範囲をすぐに把握できる
• 開発チームもパフォーマンス改善の判断がしやすくなる • Dickersonの信頼性の階層構造で最も強固であると説明
13 © iCARE Co., Ltd. Dickersonの信頼性の階層構造 • システムの信頼性を支える要素をピラミッド構造で表したもの • 下の層が脆弱だと、上の層も崩れやすい
• 最も強固な基盤が「オブザーバビリティ」 ◦ 観測できなければ改善もできない ※引用元: O'Reilly Japan SREをはじめよう
実施したこと
15 © iCARE Co., Ltd. ドキュメントの整備 • 社内のDatadogの仕様をドキュメント化 ◦ 有効にしている機能/よく使う機能の手順
• 過去にSREチームへ相談をもらったことをドキュメント化 ◦ ログ/Traceの調査方法 ◦ ボトルネックの調査方法 ◦ APMの使い方/見方
16 © iCARE Co., Ltd. Datadog勉強会の開催 • Datadogの概要からダッシュボード作りのハンズオンを実施 • ダッシュボードは今後も作ってもらうためにテンプレートを用意
17 © iCARE Co., Ltd. リリース時のサポート • 大規模なリリースが控えていたのでSREチームがサポート ◦ 負荷テスト時のパフォーマンス確認
◦ リリース手順のレビュー ◦ ダッシュボードの作成 • ダッシュボード ◦ リリース前後で比較しやすいような構成 ◦ 見るべきところや参考リンクなどをダッシュボードに記載
18 © iCARE Co., Ltd. 効果 取り組み 効果 ドキュメントの整備 SREチームへの依存度を減らし、属人化を解消
Datadog勉強会の開催 Datadogの理解が広がり、会社全体で活用できるようになった Datadogに対する苦手意識の解消 リリース時のサポート 🚀安定したリリースを実現し、トラブル発生時の対応スピードを向上 📊客観的なデータをもとに「安全なリリース」であることを説明できる
今後
20 © iCARE Co., Ltd. SLI/SLOの見直し • 過去に設定しており、現状にあっていない ◦ 長期的に見直しが行えておらず形骸化している
• CUJ(クリティカルユーザージャニー)をもとにSLI/SLOの見直しを行いたい ◦ CUJはユーザーがサービスを利用する際の最も重要で頻繁に行われる一連の操作や体験の こと • CUJ自体の見直しも必要なので、チームの垣根を超えて策定する必要がある
21 © iCARE Co., Ltd. Datadog SLOの活用 • Datadogから提供されている •
比較的容易に設定可能 ◦ SLO達成率の可視化 ◦ SLO違反時のアラート設定 ◦ エラーバジェットの管理
22 © iCARE Co., Ltd. さいごに • iCARE入社とSREエンジニアのキャリアがちょうど1年経過したのでDatadogの活用方法とオブ ザーバビリティの布教活動を紹介しました •
発表で気になることがあれば、お気軽にXや勉強会で声をかけてくれると嬉しいです! ◦ 直近の勉強会: 2/26 Japan Datadog User Group Meetup#7 ▪ https://datadog-jp.connpass.com/event/343144/ ◦ X: mego2221 ▪ https://x.com/mego2221
Thank You