Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SLOの導入で失敗したこと.pdf
Search
ryotaro kobayashi
April 17, 2022
Technology
0
130
SLOの導入で失敗したこと.pdf
ryotaro kobayashi
April 17, 2022
Tweet
Share
More Decks by ryotaro kobayashi
See All by ryotaro kobayashi
なぜあなたのオブザーバビリティ導入は頓挫するのか
ryota_hnk
0
350
Information_from_Rancher_JP.pdf
ryota_hnk
0
62
Rancherのイイところとアレなところ.pdf
ryota_hnk
0
69
Splunk_on_Rancher_のススメ.pdf
ryota_hnk
0
65
cloudstackとの思い出.pdf
ryota_hnk
0
66
EC2のApache-PHPで動いてたバッチシステムをECS-Fargateに移行して運用してる話.pdf
ryota_hnk
0
580
脱Excel_OSSを組み合わせた構成管理自動化.pdf
ryota_hnk
0
61
監視ってなんだっけ_.pdf
ryota_hnk
0
110
みんなで考えるDevOps.pdf
ryota_hnk
0
65
Other Decks in Technology
See All in Technology
AI Ready API ─ AI時代に求められるAPI設計とは?/ AI-Ready API - Designing MCP and APIs in the AI Era
yokawasa
20
5.7k
そもそも AWS FIS について。なぜ今 FIS のハンズオンなのか?などなど
kazzpapa3
2
110
All About Sansan – for New Global Engineers
sansan33
PRO
1
1.2k
OpenTelemetry の Log を使いこなそう
biwashi
4
960
機械学習を「社会実装」するということ 2025年夏版 / Social Implementation of Machine Learning July 2025 Version
moepy_stats
1
480
エンジニアリングマネージャー“お悩み相談”パネルセッション
ar_tama
1
640
Maintainer Meetupで「生の声」を聞く ~講演だけじゃないKubeCon
logica0419
1
160
Bliki (ja), and the Cathedral, and the Bazaar
koic
8
1.3k
Introduction to Sansan, inc / Sansan Global Development Center, Inc.
sansan33
PRO
0
2.7k
OTel 公式ドキュメント翻訳 PJ から始めるコミュニティ活動/Community activities starting with the OTel official document translation project
msksgm
0
200
20250719_JAWS_kobe
takuyay0ne
1
160
claude codeでPrompt Engineering
iori0311
0
390
Featured
See All Featured
Producing Creativity
orderedlist
PRO
346
40k
Designing for humans not robots
tammielis
253
25k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.9k
Why You Should Never Use an ORM
jnunemaker
PRO
58
9.5k
The World Runs on Bad Software
bkeepers
PRO
70
11k
Balancing Empowerment & Direction
lara
1
490
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
130
19k
Mobile First: as difficult as doing things right
swwweet
223
9.7k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
34
5.9k
KATA
mclloyd
30
14k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.4k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
50
5.5k
Transcript
SLOの導入で 失敗したこと 2021/12/20 ryotaro(twitter:@ryota_hnk)
Agenda 01 02 03 04 組織構成とSREチーム SLOの導入方法 振り返り 自己紹介
1. 自己紹介
• 求人検索サービスのSRE • おっさんだけど業界歴は浅い フリーター → COBOLer → Oracle DBA
→ インフラエンジニ ア → SRE • 好きな技術:TCP/IP • 苦手な技術:正規表現 ryotaro @ryota_hnk
これからお話しすることは所属組織を代 表する意見ではなく、あくまでも個人とし ての振り返りです。 組織にSLOを導入する際の参考としてご 活用いただけると幸いです。
2. 組織構成とSRE
• 各サービスごとにチームが分かれてる • 各チームが独立して運用している(イン フラ含めて) • SREは各チームに共通的な基盤や仕組 みを提供する • SREは各サービスに間接的に関わって
いる • SREチーム≠運用チーム SREの立ち位置 UI/UX チーム SRE チーム 広告 チーム データ 基盤 チーム etc
3. SLOの導入
• いろんな書籍や事例を参考に考えた • 各チームと話し合い、 CUJを中心とした SLOを作成 • エラーバジェットは水曜起算の 1週間 •
エラーバジェットが枯渇した場合は、そ のスプリントはリリース禁止 • ルールを整備して、各チームにSLO運 用をお願いした(SREは運用補助) SLOを策定
• ユーザーが 1 つの目的を達成するため に行うサービスとの一連のインタラクショ ン(1 回のクリックやマルチステップ パイ プラインなど) •
複数サービスを跨ぐため、 SLOは複数 チームでの共同運用 となった(SREはそ の補助) CUJ(Critical User Journey) PCで求人一覧を見る PCから求人広告を出す
4. 半年間の振返り
• POやMgrにはリリース禁止が痛す ぎた • リリース禁止が相次ぐと事業計画 に支障がでる • リリース作業を禁止されると、その スプリントの計画が崩れる 「リリース禁止」というワードが強すぎた
• エラーバジェット枯渇時には信頼 性回復に努める • 話し合ってポストモーテムを作成 し、再発防止に努める やりたかったこと 現実
• リリース禁止が障害の原因ではな いチームにも適用されて割を食う • 守ることに目がいって、 SLO自体を 変えようとしなくなる オーナーシップ不在 • 各チームで協力して
SLOを運用 • SLO違反時には情報を共有しあっ て解決 • SLO自体がおかしいと思ったら、 話し合いで変更する やりたかったこと 現実
• とりあえずDiscordに集まっただけ • 障害の原因になっていないチーム は時間のロスになる SLO違反の対応フローが整ってなかった • SLO違反時には各チームで協力 して対応、調査 やりたかったこと
現実
• 起算日はエラーバジェットが少な いので、起算日に障害が起きると あっという間に枯渇からリリース禁 止 • 逆に週末はエラーバジェットが溜 まってるので多少のエラーは大丈 夫というチート •
リリースミスしてすぐに切り戻しても リリース禁止になった時の悲しさ エラーバジェットに起算日を設けた • スプリントを1週間(水曜スタート)に した。スクラム開発が基本なので、 スプリントの計画に盛り込みやす いように • 次のスプリントで障害対策をできる ので、チームの機動力が上がる やりたかったこと 現実
• 「え?リリース禁止?」だけが飛び交う Slack • リリース禁止が障害のペナルティに なった • SLIで品質をみて欲しい人生だった • 「俺たちは普通に運用監視も障害対
策もできてるのに、SLOを導入するメ リットがわからんです」 想いが伝えられなかった • システム健全性の可視化 • 機能開発か信頼性向上、どちらに リソースを割くかのパラメータに SLOを使う やりたかったこと 現実
Thanks! 総括 • 詰め込みすぎたのかなという印象 • 段階的導入も放置されるリスクがある • 「人にやってもらう」難しさ • テキストだと伝わらないのか
伝えすぎてしまうのか