Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
成り立ちから押さえるSRE
Search
iwamot
PRO
September 09, 2022
Technology
2
780
成り立ちから押さえるSRE
2022-09-09
ENECHANGE Tech Talk (社内勉強会)
iwamot
PRO
September 09, 2022
Tweet
Share
More Decks by iwamot
See All by iwamot
クォータ監視、AWS Organizations環境でも楽勝です✌️
iwamot
PRO
2
390
Cline、めっちゃ便利、お金が飛ぶ💸
iwamot
PRO
22
20k
開発組織を進化させる!AWSで実践するチームトポロジー
iwamot
PRO
3
1.1k
始めないともったいない!SLO運用で得られる3つのメリット
iwamot
PRO
1
130
あなたの人生も変わるかも?AWS認定2つで始まったウソみたいな話
iwamot
PRO
3
7.5k
効率的な技術組織が作れる!書籍『チームトポロジー』要点まとめ
iwamot
PRO
2
320
AWS⼊社という選択肢、⾒えていますか
iwamot
PRO
2
1.3k
40代後半で開発エンジニアからクラウドインフラエンジニアにキャリアチェンジし、生き残れる自信がようやく持てた話
iwamot
PRO
9
9.3k
DockerのマルチプラットフォームイメージをGitHub Actionsでビルドして公開する際に、参考にしたドキュメントと便利だったツール
iwamot
PRO
4
490
Other Decks in Technology
See All in Technology
Pythonデータ分析実践試験 出題傾向や学習のポイントとテクニカルハイライト
terapyon
1
120
Winning at PHP in Production in 2025
beberlei
1
270
Part1 GitHubってなんだろう?その1
tomokusaba
1
330
AIによるコードレビューで開発体験を向上させよう!
moongift
PRO
0
380
Part1 GitHubってなんだろう?その2
tomokusaba
0
310
AI-in-the-Enterprise|OpenAIが公開した「AI導入7つの教訓」——ChatGPTで変わる企業の未来とは?
customercloud
PRO
0
140
Notion x ポストモーテムで広げる組織の学び / Notion x Postmortem
isaoshimizu
1
150
Mastraに入門してみた ~AWS CDKを添えて~
tsukuboshi
0
390
2025-04-14 Data & Analytics 井戸端会議 Multi tenant log platform with Iceberg
kamijin_fanta
1
180
Azure & DevSecOps
kkamegawa
1
110
MySQL Indexes and Histograms – How they really speed up your queries
lefred
0
150
Oracle Cloud Infrastructure:2025年4月度サービス・アップデート
oracle4engineer
PRO
0
350
Featured
See All Featured
The Pragmatic Product Professional
lauravandoore
33
6.6k
Testing 201, or: Great Expectations
jmmastey
42
7.5k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Into the Great Unknown - MozCon
thekraken
38
1.7k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Making the Leap to Tech Lead
cromwellryan
133
9.2k
Building an army of robots
kneath
305
45k
Code Reviewing Like a Champion
maltzj
523
40k
How STYLIGHT went responsive
nonsquared
100
5.5k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
14
1.4k
We Have a Design System, Now What?
morganepeng
52
7.5k
Done Done
chrislema
184
16k
Transcript
成り立ちから押さえるSRE 2022-09-09 ENECHANGE Tech Talk (社内勉強会) CTO室 岩本隆史 (@iwamot)
SRE略史 2003: Ben Treynor (Benjamin Treynor Sloss) 氏がGoogleに入社 Productionチームのマネジメントを担当 DevとOpsの対立を解決する「エラーバジェット」を発案
運用プラクティスを「Site Reliability Engineering (SRE)」と命名 2014: SRECon14にて同氏が基調講演 (YouTube) 2015: メルカリのインフラチームがSREチームに名称変更 2016: 『Site Reliability Engineering』出版 2018: 『The Site Reliability Workbook』出版
DevとOpsの対立 Dev: 好きなものを好きなときに邪魔なしにローンチしたい 信頼性が軽視されすぎ Ops: いったん動いたシステムは一切変更したくない 信頼性が重視されすぎ
Ben Treynor氏の気づき 100%を信頼性の目標とすることは誤り ユーザー~サービス間の可用性は99.999%よりもはるかに低い PC・Wi-Fi・ISP・電力網など多くの別システムが介在する 岩本註:CloudFrontのSLAは月間稼働率99.9%
エラーバジェットの発案 信頼性の目標が99.9%なら、0.1%のエラーは許容できる この0.1%をエラーの予算とみなす 予算を超えない限り、機能をローンチしてよい 予算を超えたら、信頼性の回復にのみフォーカスする DevとOpsが同じ目標を共有できる
SRECon14基調講演で示されたSRE (1) Hire only coders SREにはソフトウェアエンジニアリングのスキルが必要
SRECon14基調講演で示されたSRE (2) Have an SLA for your service Measure and
report performance against SLA Use Error Budgets and gate launches on them
SRECon14基調講演で示されたSRE (3) Common staffing pool for SRE and DEV Excess
Ops work overflows to DEV team Cap SRE operational load at 50% Share 5% of ops work with DEV team 運用作業 (トイル) が勤務時間の50%を超えたらDevに差し戻す トイルの例:割り込み対応・オンコール・リリース 残りの時間は主にトイル削減に費やす トイルはサービスの成長に比例する (採用では追いつかない)
SRECon14基調講演で示されたSRE (4) Oncall teams at least 8 people, or 6x2
Maximum of 2 events per on-call shift 多ければ忙しすぎ、少なければ時間の無駄
SRECon14基調講演で示されたSRE (5) Post mortem for every event Post mortems are
blameless and focus on process and technology, not people 学びがなければインシデントが繰り返される 非難は問題を隠蔽する文化を醸成する
Googleでの実例 (2011) ネットワーク運用チームの人的リソースが不足し始めた トイルが原因と気づき、自動化を進めた 1年後、手動対応は例外となった システムの信頼性がはるかに向上した 出典:ごく普通のエンジニアリング運用チームを強力な SRE チームに 変える
各プラクティスの関係性 (岩本の理解) 信頼性の目標 (SLO, Service Level Objective) 策定が最重要 信頼性を維持・改善する施策 トイルの削減
(50%ルール) 非難のないポストモーテム 適切な負荷のオンコール
参考記事 e34fmの#3からSREについての概要を文字起こししてみた Introducing Google Customer Reliability Engineering (CRE)