Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
「なぜ」を残し、SLOを育てる IaCによるSLI/SLO運用の実践
Search
Nealle
February 18, 2026
Technology
150
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
「なぜ」を残し、SLOを育てる IaCによるSLI/SLO運用の実践
Japan Datadog User Group Meetup#15@東京 での登壇資料です。
https://datadog-jp.connpass.com/event/378380/
Nealle
February 18, 2026
More Decks by Nealle
See All by Nealle
Nealle Company Deck
nealle
0
27
業務アプリケーションでリアクティブ化するところ、しないところ
nealle
1
93
TypeScriptとAngular Signal で実現する保守性の高いアプリケーション設計 - 3層アーキテクチャによる責務分離の実践(たつかわ) https://2026.tskaigi.org/talks/10
nealle
1
420
クラウドネイティブなエンジニアに向ける Raycastの魅力と実際の活用事例
nealle
2
330
3つのボトルネックを解消し、リリースエンジニアリングを再定義した話
nealle
0
1.3k
JDDUG#15 DataDogで行うバッチ改善
nealle
0
120
Datadogのログコスト最適化
nealle
0
1.3k
今、アーキテクトとして 品質保証にどう関わるか
nealle
0
290
AI巻き込み型コードレビューのススメ
nealle
2
3.1k
Other Decks in Technology
See All in Technology
Lightning近況報告
kozy4324
0
210
Oracle AI Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
4
3k
Bucharest Tech Week 2026 - Guardians of the Cloud-Native Galaxy
edeandrea
PRO
0
130
“詰む”前に仕組みを作れ 〜技術の波に溺れないためのキャッチアップ術〜
takasyou
2
420
PostgreSQL 19 新機能概要 OSC Hokkaido 2026
nori_shinoda
0
190
IaC コードを資産へ:AWS CDK 社内ライブラリと横断展開 / aws-summit-japan-2026
gotok365
9
1.3k
2026年6月23日 Syncable Tech + Start Python Club にて
hamukazu
0
140
【Cyber-sec+】経営層を"動かす"ための考え方
hssh2_bin
0
200
入門!AWS Blocks
ysuzuki
1
160
データサイエンスを価値につなげるプロジェクト設計 〜 DS一年目が現場で得た気づき 〜
ysd113
1
290
When Platform Engineering Meets GenAI
sucitw
0
140
いまさら聞けない「仕様駆動開発入門」 〜AI活用時代の開発プロセスを考える〜
findy_eventslides
2
160
Featured
See All Featured
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
2k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
71
40k
sira's awesome portfolio website redesign presentation
elsirapls
0
280
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
220
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
400
Building a Modern Day E-commerce SEO Strategy
aleyda
45
9.1k
The Invisible Side of Design
smashingmag
301
52k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
Unsuck your backbone
ammeep
672
58k
GitHub's CSS Performance
jonrohan
1033
470k
Transcript
2026.02.18 Japan Datadog User Group Meetup#15@東京 株式会社ニーリー 高
直我 @nogtk NEALLE 「なぜ」を残し、SLOを育てる IaCによるSLI/SLO運用の実践 1
目次 1|自己紹介 2|会社・プロダクト紹介 3|なぜ SLI/SLO ダッシュボードを IaC するのか 4|どのように
IaC しているか 5| 課題 2 6| まとめ
1|自己紹介 NEALLE 1|会社概要 3
4 氏名 所属 経歴 高 直我 / Naoga Taka
株式会社ニーリー プロダクト統括本部 プラットフォームエンジニアリングG SRE / プラットフォームエンジニアリング 趣味 ゲーム 🎮 (最近ペルソナ3Rをクリアしました) 2019-2024 (株式会社マネーフォワード) Backendエンジニアとキャリアをスタート 担当プロダクトがオンプレ -> AWS に移行したことをきっかけに AWS/k8s/Datadog あたりの技術に触れ、徐々に軸足がそちらに 2025- (株式会社ニーリー) SRE へロールチェンジしニーリーにジョイン 💪 1|自己紹介 @_nogtk_ @nogtk
2|会社・プロダクト紹介 NEALLE 1|会社概要 5
6 2|事業・プロダクト紹介 BtoBtoCのVertical SaaS「Park Direct」を運営
3|なぜ SLI/SLO ダッシュボードを IaC するのか NEALLE 1|会社概要 7
SLI / SLO とは 3|なぜ SLI/SLO ダッシュボードを IaC するのか
8 • SLI (Service Level Indicator: サービスレベル指標) ◦ サービスの品質を測る指標 ◦ リクエストのエラーレート、レイテンシ etc. • SLO (Service Level Objective:サービスレベル目標) ◦ SLI として定めた指標の目標値 ◦ p99 でAPIレイテンシが 200ms 以内 etc. ➡ システムの健全性を数値で管理する仕組み
3|なぜ SLI/SLO ダッシュボードを IaC するのか 9 Datadog での SLO の見え方
3|なぜ SLI/SLO ダッシュボードを IaC するのか 10 SLO Dashboard の様子
“システムの健全性” を定義するのは難しい 3|なぜ SLI/SLO ダッシュボードを IaC するのか 11 •
リクエスト成功率は99.9%あれば十分?レイテンシは? • そもそもリクエスト成功率とレイテンシを見てればシステムの健全性が 測れているんだっけ? • システム(プロダクト)の成長・提供価値のアップデートに、SLI/SLO 視点でも追従していく必要性 ➡ システムの健全性の定義 (SLI/SLO運用) は反復的なプロセス 🔁 一度決めて終わりというものではない
3|なぜ SLI/SLO ダッシュボードを IaC するのか 12 SLOの定義とターゲットは、時間と共に システムの振る舞いについて学ぶにつれ て、いつでも見直していくことができま す。初めに厳しすぎるターゲットを設定
して、後からそれが実現できないことが 分かってから、緩めていくよりは、緩め のターゲットから始めて厳しくしていく 方が良いのです。 SLIやSLOは、それらが表現している サービスの実態が時間とともに変化する につれて、変わっていくべきものです。 時間の経過に伴い、それらを検証して改 良することを恐れないでください! “2.6.1 SLOの品質の改善” より “4.3.2 ターゲットの選択” より
• 過去の判断がわからず困る ◦ なぜこのSLIになっている? ◦ なぜエラーレートは 99.9% ではなく 90%?
• 変更に対する躊躇 ◦ 本当に SLO の閾値変えていいのかな...? ◦ 過去に何か理由があったのでは? • 同じ議論の堂々巡り ◦ それ前も議論したよね 3|なぜ SLI/SLO ダッシュボードを IaC するのか 13 反復するには「なぜ」の記録が不可欠 ➡ 意思決定のログが反復プロセスを加速させる 🏃
3|なぜ SLI/SLO ダッシュボードを IaC するのか 14 そこで SLI/SLO リソースの IaC
🔧📝 • Datadog の SLO / ダッシュボードを IaC することで、変更の 証跡がPRとして残る! ◦ 自然と変更ログが残る “力学” が働く
4|どのように IaC しているか NEALLE 1|会社概要 15
4|どのように IaC しているか 16 ① SLO のリストを宣言 ② SLO
/ Dashboard 用の Terraform module に値を渡す ③ それぞれの module 内でリソース作成
4|どのように IaC しているか 17 【左の例】 “トップページを開く” というシナリオに 対して以下を宣言している •
フロントエンドのパス • バックエンドのパス • 1週間・1ヶ月の成功率/レイテン シ
4|どのように IaC しているか 18
4|どのように IaC しているか 19
4|どのように IaC しているか 20
4|どのように IaC しているか 21
4|どのように IaC しているか 22 ダッシュボードの方は諦めました 😇 [TIPS] いきなりゼロからこれを記述するのは大変 なので、一旦手動でダッシュボード作ってか
ら Terraform import するのがいいように思 います
4|どのように IaC しているか 23 • 最終的にこんな Diff で、PR をマージし
Apply することで、 SLO / ダッシュボードが自動で更新される 👏
5|課題 NEALLE 1|会社概要 24
5|課題 25 • Terraform コードが技巧的・重厚になりつつある ◦ 今は比較的 Terraform
に明るい SRE メンバー中心にメンテしている ◦ 今後プロダクトエンジニアに委譲していく流れも踏まえると、もっとシンプルにして いきたい気持ちが • ちょっとしたメモがダッシュボードに残せない ◦ 悪化時の調査ログや “調査中” などのメモを残したい時がある ◦ 毎回 Terraform 経由で apply or import するのもしんどい ◦ ダッシュボード下部に Terraform 管理外のメモ用ウィジェットを置いて運用してい る
6|まとめ NEALLE 1|会社概要 26
• 変更ログをちゃんと追いたいリソースは IaC を検討する ◦ SLO をトピックに今回はお話しした ◦ 設定不備を許容したくないクリティカルなモニターなど、他にも適用できる
リソースはありそう • 「なぜこの設定値か」というコンテキストは資産になる ◦ コード化 + コンテキスト (意思決定ログ) によって AI エージェントにもフレ ンドリーに 6|まとめ 27 まとめ