Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SLO Docsのすゝめ
Search
ryuichi1208
June 06, 2024
9
4.1k
SLO Docsのすゝめ
ryuichi1208
June 06, 2024
Tweet
Share
More Decks by ryuichi1208
See All by ryuichi1208
会話で作る信頼性
ryuichi1208
0
130
シグナル(Unix)と仲良くなる
ryuichi1208
0
6
AI前提のサービス運用について再考する
ryuichi1208
5
1.3k
A Shallow Dive into the World of TCP
ryuichi1208
1
620
入門リトライ
ryuichi1208
20
7.9k
超入門SRE 2025
ryuichi1208
4
1.5k
Goで作って学ぶWebSocket
ryuichi1208
5
3.9k
コード化されていない稼働中のサーバを移設_再構築する技術
ryuichi1208
20
14k
AI前提のサービス運用ってなんだろう?
ryuichi1208
9
1.9k
Featured
See All Featured
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
680
Un-Boring Meetings
codingconduct
0
170
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
400
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
34k
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
140
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2k
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
Reality Check: Gamification 10 Years Later
codingconduct
0
2k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
0
97
Learning to Love Humans: Emotional Interface Design
aarron
274
41k
My Coaching Mixtape
mlcsv
0
15
Transcript
1 SLO Docsのすゝめ 渡部 ⿓⼀ 2024/06/06 ゆるSRE勉強会#6
技術部プラットフォームグループ 2021年 中途入社 2 自己紹介 渡部 龍一 Watanabe Ryuichi •
SNS: @ryuichi_1208 • GMOペパボでSRE • 好きなこと: EOL対応、障害対応
3 • SRE NEXT 関連イベントをやります! ◦ 6/29@仙台 ◦ 7/5@京都 ◦
7/20@広島 宣伝
SLI/SLOの運⽤ 4
なんでやるんだっけ? 5
6 • サービス品質の明確化 ◦ どれくらいの品質を⽬指すのかをメンバー間ではっきりさせる • インシデント対応の効率化 • リソースの最適化 •
継続的な改善の推進 • ビジネス上の意思決定の⽀援/フレームワーク SLI/SLOの運⽤がもたらし得るメリット
7 SLI/SLOを定めるぞ! 運⽤もバリバリやっていくぞ!
8 思ったよりスムーズに運⽤できてないな...
なんでだろう? 9
10 • チームメンバーの⼊れ替わりなどでなぜこの指標/⽬標になっているのかが不明 • エラーバジェット枯渇した際のアクション • いつ定義されたのか、ずっとそのままの運⽤になってしまう ◦ SLOをきつくするか緩めるかもしくはSLI⾃体を⾒直すか決めてない •
⼀部のメンバーだけで運⽤されており全体へ浸透していない ◦ サービスごとに定義されていて情報がまとめられていない SLI/SLOの運⽤の課題
SLO Docs 11
12 • WEB+DB PRESS Vol.130で取り上げられていたもの • SLI/SLOを運⽤する上で必要となる情報を取りまとめたドキュメント • テンプレートを決めておくことで複数サービス/ロールでも認知負荷を低めで運⽤を ⾏うことができる
• GitHub上のMarkdownで管理して変更は全てissue or Pull Requestで管理 SLO Docs
13 • 概要 • SLI/SLOの設定値/設定理由 • ⽬的/⽬的としないこと • SLO Miss
Policy / Postmortem Policy • エスカレーションポリシー • SLI/SLOを変更するためのルール ◦ どのルートで承認が必要なのか ◦ どういったタイミングでSLI/SLOの⾒直しを⾏うのかを記載 実際のSLO Docsの抜粋
14
15 • OpenSLO/OpenSLO • YAML使⽤して信頼性とパフォーマンスの⽬標を宣⾔的に定義するサービス レベル ⽬標⾔語(SLO as Code) •
SLO Docsに反映しておくことで⾃動的にダッシュボードやアラート設定 ◦ 数が多くなってくると設定してテストするだけでもtoilになりがち OpenSLOとの組み合わせ
まとめ 16
17 • 継続的に調整するのが⼤事だし調整した議論を記録を残すのが⼤事 ◦ 情報を⼀箇所にまとめておくことで把握しやすくする ◦ 導⼊時の苦労と失敗もissueに残しておく(試⾏錯誤を後から追えるように) • 良いSLI/SLOライフを! まとめ
18 ご静聴ありがとうございました