Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Datadog GPU Monitoring で実現する GPU 監視 / datadog-...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Annosuke Yokoo
February 06, 2026
Technology
36
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Datadog GPU Monitoring で実現する GPU 監視 / datadog-gpu-monitoring
Annosuke Yokoo
February 06, 2026
More Decks by Annosuke Yokoo
See All by Annosuke Yokoo
Bits AI SRE と Datadog MCP Server による未来 / datadog-bits-ai-sre-and-mcp-server-feature
parupappa2929
0
270
Datadog による AI エージェント オブザーバビリティの最前線 / Datadog-AI-Agent-observability
parupappa2929
1
600
今日から始める CI/CD Observability / CICD Observability for Google Cloud
parupappa2929
0
61
Software Delivery Observability ~ CI・CD , DORA metrics も Datadog で可視化しよう ~ / datadog-ci-cd-observability
parupappa2929
0
760
Helm , Kustomize に代わる !? 次世代 k8s パッケージマネージャー Glasskube 入門 / glasskube-entry
parupappa2929
0
900
持続可能なプラットフォーム目指す、Platform Engineering 支援 / Enabling Platform Engineering
parupappa2929
0
150
Why adopt GitOps with ArgoCD ?
parupappa2929
0
210
Google Cloud Next Tokyo’24 勝手にRecap コンテナ最新アップデート紹介 / google-cloud-next-recap-gke-cloud-run
parupappa2929
0
140
迅速に叶える、GKE Autopilot によるユニバーサルモダンアーキテクチャの実践/Rapidly Achieve Universal Modern Architecture with GKE Autopilot in Practice
parupappa2929
0
220
Other Decks in Technology
See All in Technology
React、まだ楽しくて草
uhyo
7
4.2k
Microsoft Build Keynoteふりかえり
tomokusaba
0
120
小さくはじめるSLI/SLO ~育てながら組織に定着させる実践知~ / Starting Small with SLI/SLOs: Building Adoption Through Continuous Growth
nari_ex
1
710
「嘘をつくテスト」の失敗例から学ぶ 良いテストコード #frontend_phpcon_do
asumikam
0
590
やさしいA2A入門
minorun365
PRO
8
1.2k
サイバーセキュリティ概論 / Introduction to Cybersecurity
ks91
PRO
0
170
「コーディング」しない人のための Claude Code 入門 ChatGPT の次の一歩 — 業務に組み込む 育成・共有・自動化
rfdnxbro
2
1.3k
ブロックチェーン / Blockchain
ks91
PRO
0
120
Mastering Ruby Box
tagomoris
3
150
新規事業を牽引する技術選定 〜フルスタックTypeScript開発の実践事例〜
nullnull
3
380
protovalidate-es を導入してみた
bengo4com
0
160
ABEMA の Datadog × OTel 基盤、 中から見るか? 外から見るか?
tetsuya28
0
110
Featured
See All Featured
Leo the Paperboy
mayatellez
7
1.8k
30 Presentation Tips
portentint
PRO
1
320
Code Review Best Practice
trishagee
74
20k
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
140
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
Navigating Team Friction
lara
192
16k
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
530
Building Flexible Design Systems
yeseniaperezcruz
330
40k
Designing for Performance
lara
611
70k
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
360
sira's awesome portfolio website redesign presentation
elsirapls
0
270
The Invisible Side of Design
smashingmag
302
52k
Transcript
Datadog GPU Monitoring で実現する GPU 監視 2026/02/06 GPU UNITE 勉強会
- Annosuke Yokoo (@866mfs)
2 自己紹介 Annosuke Yokoo(横尾杏之介) Datadog - Sales Engineer X :
@866mfs Awards : Google Cloud Partner Top Engineer 2025 Fellow Community : Jagu'e'r オブザーバビリティ分科会 Oraganizer Interest : Sauna 🧖 / Cloud Native 🚢 / SRE Agent 🔭 X で Datadog の最新情報を(気まぐれで)呟く Bot やってます Scan Me 👇
❏ 内容 ◦ GPU Monitoring がなぜ必要なのか ◦ Datadog GPU Monitoring
でなにが出来るのか ❏ ゴール ◦ GPU Monitoring で見るべきメトリクスを知る ◦ Datadog GPU Monitoring で出来ることを知る 3 今日話すこと
4 GPU Monitoring が必要な背景 • Datadog's State of Cloud Costs
2024 Report によると、GPU への平均支出はクラウド支 出全体の10% を占めており、前年比で40%増加⇧ • 多くの顧客は、今後数年で GPU 支出が2〜5倍に増加⇧すると予想しており、 これは機械学習ベースの機能を本番環境へ移行する動きが加速しているため • 「シンプルに GPU を Monitoring する環境を構成・運用するのが大変だよね」 というのもある...
5 なぜ GPU 監視が必要なのか? • 大前提!この半導体不足の時代において、 GPU は資産的価値がある 💵 ◦
A100 80GB : 約 200万 〜 350万円 ◦ H100 80GB : 約 450万 〜 600万円 • GPU を使用したソフトウェア監視だけでなく、 GPU 自体のハードウェア監視も同様に重要(特にオンプレ環 境) • GPU の過熱や損傷を防ぎ、ハードウェア障害を減らしてハードウェアの寿命を延ばすことがインパクトの あるコスト最適化 になる • GPU のプロアクティブな監視により、コストのかかる交換やダウンタイムのリスクが軽減 ◦ GPU 交換のダウンタイムは長い ... ▪ 前職時代に オンプレ環境の GPU が過熱により死んで、数週間のダウンタイム発生したとき はつらかった...
GPU 監視で見るべき項目 項目 メトリクス なぜ必要か / 効果 ❶ 利用率・リソース使用状況 ・GPU
使用率 ・Memory 使用率 ・Memory 帯域幅の使用率 ・クロック速度( SM クロック) GPUがどの程度使われているかを把握する 👉ボトルネックの検出や GPU 未活用の把握が 可能となり、コスト効率のよい利用につながる ❷ スロットリング ・アイドルコスト ・ECC(エラーシグナル) ・高温による制限 ・ソフトウェアによる電力制限 パフォーマンス低下の原因 👉 ソフト、ハード共に制限をかけ GPU の過熱 や損傷を防ぐ ❸ 熱・電力・冷却 ・GPU 温度 ・現在の消費電力 ・ファン回転速度 ハードウェアの健全性維持と故障予防に必須 👉 GPU は高価な資産 . ハードウェア障害を未 然に防ぐ ❹ システム情報( Metadata) ・GPU モデル名 ・ドライバーバージョン トラブルシューティング・リソース管理
ここから Datadog の話になります 7
Company Highlights 企業情報ハイライト 2010 ニューヨークにて創業 33 事業展開している国 6,500 グローバルの従業員数 non-GAAPベースの研究開発投資比率
28% 30,000 エンタープライズのお客様社数 Datadogの統合基盤上で 提供されている製品群 23 Datadog 製品を製品以上に お使いのお客様 83% $2.68B (+26%) サブスクリプションの 年間経常売上 (ガイダンス) 2019年9月19日 NASDAQに上場 (DDOG) クラウド時代の モニタリング&セキュリティ プラットフォーム Datadogとは S&P 500 銘柄に追加! (2025/7/9)
Secure Analyze Cloud Service Management Cloud Service Management • Incident
Management • Case Management • Service Catalog • Resource Catalog • Workflow Automation • App Builder Monitor & Operate Optimize Software Delivery • RUM • RUM Heatmap/ Clickmap/ Scrollmap • Mobile App Testing • Session Replay • Cloud Security Mgmt • Application Security Mgmt • Cloud SIEM • Software Composition Analysis • Sensitive Data Scanner • Infra Monitoring • Network Monitoring • APM • Synthetics • Log Mgmt • Universal Service Monitoring • Observability Pipelines • LLM Observability • Continuous Profiler • Database Monitoring • Data Streams Monitoring • Cloud Cost Mgmt • Data Jobs Monitoring • CI Visibility • Intelligent Test Runner • Continuous Testing • Test Visibility Business Run Business Dev Monitor Operate Optimize Code Ship Test Understand Users Support Users Understand Business Run Secure 9 Datadog のオブザーバビリティ全体像
Datadog GPU Monitoring
11 Datadog GPU Monitoring Preview
12 Datadog GPU Monitoring Preview https://zenn.dev/datadog/articles/datadog-gpu-monitoring
① GPU Fleet-Level View
CORE の使用率が50% 以下になっている ① GPU Fleet-Level View
① GPU Fleet-Level View GPU デバイスが過小利用されている • GPU 使用率は高いけど、SM がうまく使われていない
• つまり「ワークロードが非効率」 ◦ プロファイリング ◦ CUDAカーネルのチューニング ◦ 並列設計の改善 GPU デバイスが非効率 • GPU 動いているけど、効果的に使用されていない • SM の多くがアイドル状態となっている • つまり「コスト効率が悪い」 ◦ プロファイリング ◦ 計算処理中心のワークロードに再設計する
② GPU Cost Allocation for Kubernetes Environments
③ DCGM Metrics / Slurm Metrics の監視
18 Datadog GPU Monitoring Setup Preview • 従来であれば、GPU Metrics の取得には
NVIDIA DCGM Exporter を使用するのが一 般的だった • eBPF の仕組みを使用することで、Datadog Agent のみで GPU Metrics を取得可能 • Datadog Agent が取得できる GPU Metrics は公開されている https://github.com/DataDog/integrations-core/tree/master/gpu
19 Datadog GPU Monitoring Setup Preview • 従来であれば、GPU Metrics の取得には
NVIDIA DCGM Exporter を使用するのが一 般的だった • eBPF の仕組みを使用することで、Datadog Agent のみで GPU Metrics を取得可能 • Datadog Agent が取得できる GPU Metrics は公開されている https://github.com/DataDog/integrations-core/tree/master/gpu GPU Monitoring が気になったら ぜひお近くの Datadog 担当者に🗣
❏ 内容 ◦ GPU Monitoring がなぜ必要なのか ▶ GPU は資産なので高価なものを早期に失わないためにも監視が大切 ◦
Datadog GPU Monitoring でなにが出来るのか ▶ GPU メトリクスの監視だけでなく、その先の「どうすればよいか」のインサイ トまで見れる ▶ GPU 周辺リソースの監視まで Datadog で一元的に可能 20 まとめ
Thank you