Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
「なぜ」を残し、SLOを育てる IaCによるSLI/SLO運用の実践
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Nealle
February 18, 2026
Technology
120
0
Share
「なぜ」を残し、SLOを育てる IaCによるSLI/SLO運用の実践
Japan Datadog User Group Meetup#15@東京 での登壇資料です。
https://datadog-jp.connpass.com/event/378380/
Nealle
February 18, 2026
More Decks by Nealle
See All by Nealle
クラウドネイティブなエンジニアに向ける Raycastの魅力と実際の活用事例
nealle
2
190
3つのボトルネックを解消し、リリースエンジニアリングを再定義した話
nealle
0
550
JDDUG#15 DataDogで行うバッチ改善
nealle
0
92
Datadogのログコスト最適化
nealle
0
720
今、アーキテクトとして 品質保証にどう関わるか
nealle
0
240
AI巻き込み型コードレビューのススメ
nealle
2
2.9k
Startup Tech Night ニーリーのAI活用
nealle
0
120
モビリティSaaSにおけるデータ利活用の発展
nealle
1
1k
Pythonに漸進的に型をつける
nealle
1
220
Other Decks in Technology
See All in Technology
AIを共同作業者にして書籍を執筆する方法 / How to Write a Book with AI as a Co-Creator
ama_ch
2
130
Revisiting [CLS] and Patch Token Interaction in Vision Transformers
yu4u
0
340
20年前の「OSS革命」に学ぶ AI時代の生存戦略
samakada
0
300
AI バイブコーティングでキーボード不要?!
samakada
0
330
AWS認定資格は本当に意味があるのか?
nrinetcom
PRO
1
260
Azure Lifecycle with Copilot CLI
torumakabe
3
1k
Choose your own adventure in agentic design patterns
glaforge
0
120
AIエージェントの権限管理 2: データ基盤の Fine grained access control 編
ren8k
0
120
ワールドカフェI /チューターを改良する / World Café I and Improving the Tutors
ks91
PRO
0
280
"SQLは書けません"から始まる データドリブン
kubell_hr
2
470
Code Interpreter で、AIに安全に コードを書かせる。
yokomachi
0
7k
最新の脅威動向から考える、コンテナサプライチェーンのリスクと対策
kyohmizu
1
680
Featured
See All Featured
First, design no harm
axbom
PRO
2
1.2k
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
510
Optimizing for Happiness
mojombo
378
71k
Context Engineering - Making Every Token Count
addyosmani
9
820
4 Signs Your Business is Dying
shpigford
187
22k
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
100
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
130
[SF Ruby Conf 2025] Rails X
palkan
2
960
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Fireside Chat
paigeccino
42
3.9k
Scaling GitHub
holman
464
140k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
260
Transcript
2026.02.18 Japan Datadog User Group Meetup#15@東京 株式会社ニーリー 高
直我 @nogtk NEALLE 「なぜ」を残し、SLOを育てる IaCによるSLI/SLO運用の実践 1
目次 1|自己紹介 2|会社・プロダクト紹介 3|なぜ SLI/SLO ダッシュボードを IaC するのか 4|どのように
IaC しているか 5| 課題 2 6| まとめ
1|自己紹介 NEALLE 1|会社概要 3
4 氏名 所属 経歴 高 直我 / Naoga Taka
株式会社ニーリー プロダクト統括本部 プラットフォームエンジニアリングG SRE / プラットフォームエンジニアリング 趣味 ゲーム 🎮 (最近ペルソナ3Rをクリアしました) 2019-2024 (株式会社マネーフォワード) Backendエンジニアとキャリアをスタート 担当プロダクトがオンプレ -> AWS に移行したことをきっかけに AWS/k8s/Datadog あたりの技術に触れ、徐々に軸足がそちらに 2025- (株式会社ニーリー) SRE へロールチェンジしニーリーにジョイン 💪 1|自己紹介 @_nogtk_ @nogtk
2|会社・プロダクト紹介 NEALLE 1|会社概要 5
6 2|事業・プロダクト紹介 BtoBtoCのVertical SaaS「Park Direct」を運営
3|なぜ SLI/SLO ダッシュボードを IaC するのか NEALLE 1|会社概要 7
SLI / SLO とは 3|なぜ SLI/SLO ダッシュボードを IaC するのか
8 • SLI (Service Level Indicator: サービスレベル指標) ◦ サービスの品質を測る指標 ◦ リクエストのエラーレート、レイテンシ etc. • SLO (Service Level Objective:サービスレベル目標) ◦ SLI として定めた指標の目標値 ◦ p99 でAPIレイテンシが 200ms 以内 etc. ➡ システムの健全性を数値で管理する仕組み
3|なぜ SLI/SLO ダッシュボードを IaC するのか 9 Datadog での SLO の見え方
3|なぜ SLI/SLO ダッシュボードを IaC するのか 10 SLO Dashboard の様子
“システムの健全性” を定義するのは難しい 3|なぜ SLI/SLO ダッシュボードを IaC するのか 11 •
リクエスト成功率は99.9%あれば十分?レイテンシは? • そもそもリクエスト成功率とレイテンシを見てればシステムの健全性が 測れているんだっけ? • システム(プロダクト)の成長・提供価値のアップデートに、SLI/SLO 視点でも追従していく必要性 ➡ システムの健全性の定義 (SLI/SLO運用) は反復的なプロセス 🔁 一度決めて終わりというものではない
3|なぜ SLI/SLO ダッシュボードを IaC するのか 12 SLOの定義とターゲットは、時間と共に システムの振る舞いについて学ぶにつれ て、いつでも見直していくことができま す。初めに厳しすぎるターゲットを設定
して、後からそれが実現できないことが 分かってから、緩めていくよりは、緩め のターゲットから始めて厳しくしていく 方が良いのです。 SLIやSLOは、それらが表現している サービスの実態が時間とともに変化する につれて、変わっていくべきものです。 時間の経過に伴い、それらを検証して改 良することを恐れないでください! “2.6.1 SLOの品質の改善” より “4.3.2 ターゲットの選択” より
• 過去の判断がわからず困る ◦ なぜこのSLIになっている? ◦ なぜエラーレートは 99.9% ではなく 90%?
• 変更に対する躊躇 ◦ 本当に SLO の閾値変えていいのかな...? ◦ 過去に何か理由があったのでは? • 同じ議論の堂々巡り ◦ それ前も議論したよね 3|なぜ SLI/SLO ダッシュボードを IaC するのか 13 反復するには「なぜ」の記録が不可欠 ➡ 意思決定のログが反復プロセスを加速させる 🏃
3|なぜ SLI/SLO ダッシュボードを IaC するのか 14 そこで SLI/SLO リソースの IaC
🔧📝 • Datadog の SLO / ダッシュボードを IaC することで、変更の 証跡がPRとして残る! ◦ 自然と変更ログが残る “力学” が働く
4|どのように IaC しているか NEALLE 1|会社概要 15
4|どのように IaC しているか 16 ① SLO のリストを宣言 ② SLO
/ Dashboard 用の Terraform module に値を渡す ③ それぞれの module 内でリソース作成
4|どのように IaC しているか 17 【左の例】 “トップページを開く” というシナリオに 対して以下を宣言している •
フロントエンドのパス • バックエンドのパス • 1週間・1ヶ月の成功率/レイテン シ
4|どのように IaC しているか 18
4|どのように IaC しているか 19
4|どのように IaC しているか 20
4|どのように IaC しているか 21
4|どのように IaC しているか 22 ダッシュボードの方は諦めました 😇 [TIPS] いきなりゼロからこれを記述するのは大変 なので、一旦手動でダッシュボード作ってか
ら Terraform import するのがいいように思 います
4|どのように IaC しているか 23 • 最終的にこんな Diff で、PR をマージし
Apply することで、 SLO / ダッシュボードが自動で更新される 👏
5|課題 NEALLE 1|会社概要 24
5|課題 25 • Terraform コードが技巧的・重厚になりつつある ◦ 今は比較的 Terraform
に明るい SRE メンバー中心にメンテしている ◦ 今後プロダクトエンジニアに委譲していく流れも踏まえると、もっとシンプルにして いきたい気持ちが • ちょっとしたメモがダッシュボードに残せない ◦ 悪化時の調査ログや “調査中” などのメモを残したい時がある ◦ 毎回 Terraform 経由で apply or import するのもしんどい ◦ ダッシュボード下部に Terraform 管理外のメモ用ウィジェットを置いて運用してい る
6|まとめ NEALLE 1|会社概要 26
• 変更ログをちゃんと追いたいリソースは IaC を検討する ◦ SLO をトピックに今回はお話しした ◦ 設定不備を許容したくないクリティカルなモニターなど、他にも適用できる
リソースはありそう • 「なぜこの設定値か」というコンテキストは資産になる ◦ コード化 + コンテキスト (意思決定ログ) によって AI エージェントにもフレ ンドリーに 6|まとめ 27 まとめ