Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Cookpad Lounge #4 SRE 座談会 SLI/SLO
Search
Okumura Takahiro
June 17, 2021
Technology
0
740
Cookpad Lounge #4 SRE 座談会 SLI/SLO
https://cookpad.connpass.com/event/215427/
でお話した、クックパッドにおける SLI/SLO に関する取り組みについての資料です。
Okumura Takahiro
June 17, 2021
Tweet
Share
More Decks by Okumura Takahiro
See All by Okumura Takahiro
あなたの知らない データベースのロギングの世界 / logging queries
hfm
10
3.3k
MHAの次 / Next to MHA
hfm
2
2.2k
Dynamic certificate internals with ngx_mruby #nagoyark03
hfm
5
800
動的証明書読み込み ngx_mruby編 #hoscon / GMO HosCon 2016
hfm
10
3.9k
漂流する中の節目 / Career Keynote 2016 at GMO Pepabo
hfm
1
9.6k
Learning Configuration Management Tool / Itamae Meetup 2015
hfm
1
1.4k
Vagrant勉強会 at ペパボ (2014/2/27)
hfm
0
750
Other Decks in Technology
See All in Technology
小学3年生夏休みの自由研究「夏休みに Copilot で遊んでみた」
taichinakamura
0
160
Microsoft Azure全冠になってみた ~アレを使い倒した者が試験を制す!?~/Obtained all Microsoft Azure certifications Those who use "that" to the full will win the exam! ?
yuj1osm
2
110
AWS re:Invent 2024で発表された コードを書く開発者向け機能について
maruto
0
190
成果を出しながら成長する、アウトプット駆動のキャッチアップ術 / Output-driven catch-up techniques to grow while producing results
aiandrox
0
340
宇宙ベンチャーにおける最近の情シス取り組みについて
axelmizu
0
110
ブラックフライデーで購入したPixel9で、Gemini Nanoを動かしてみた
marchin1989
1
540
バクラクのドキュメント解析技術と実データにおける課題 / layerx-ccc-winter-2024
shimacos
2
1.1k
継続的にアウトカムを生み出し ビジネスにつなげる、 戦略と運営に対するタイミーのQUEST(探求)
zigorou
0
580
組織に自動テストを書く文化を根付かせる戦略(2024冬版) / Building Automated Test Culture 2024 Winter Edition
twada
PRO
17
4.5k
TSKaigi 2024 の登壇から広がったコミュニティ活動について
tsukuha
0
160
Oracle Cloud Infrastructure:2024年12月度サービス・アップデート
oracle4engineer
PRO
0
190
フロントエンド設計にモブ設計を導入してみた / 20241212_cloudsign_TechFrontMeetup
bengo4com
0
1.9k
Featured
See All Featured
Site-Speed That Sticks
csswizardry
2
190
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
28
2.1k
No one is an island. Learnings from fostering a developers community.
thoeni
19
3k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
95
17k
We Have a Design System, Now What?
morganepeng
51
7.3k
Designing for Performance
lara
604
68k
Product Roadmaps are Hard
iamctodd
PRO
49
11k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.5k
How To Stay Up To Date on Web Technology
chriscoyier
789
250k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
For a Future-Friendly Web
brad_frost
175
9.4k
It's Worth the Effort
3n
183
28k
Transcript
Cookpad Lounge #4 SLI/SLO
本日のテーマ: SLI/SLO を導入した話 クックパッドマート(以降、マート)というサービスで SLI/SLO を用 いた信頼性のトラッキングを始めています。 クックパッド(以降、レシピサービス)への導入は現在進行中で す。 マートで感じた課題は何か、どのように導入してどう運用してい
るのか、現状の所感などを話します。
その前に...2020年クックパッドの SLI/SLO 2つの課題: 1. SRE チームが信頼性指標を確立・追跡できていない 2. 開発・SRE 間で信頼性の共通認識(合意形成)が曖昧 まず
1 のために、各サービスに一律で SLI/SLO (ALB のリクエ スト成功率と p90 レスポンスタイム) を設定した。
SLI/SLO の追跡 hako-console という内製の Web アプリケーションコンソールが あり、そこから SLI/SLO の Grafana
ダッシュボードがリンクされ ている > Web アプリケーションを把握するためのコンソール > https://techlife.cookpad.com/entry/2018/04/02/140846
hako-console
SLI/SLO dashboard for each service
SLI/SLO services list
一方その頃マートでは(導入動機) 2020年、急成長するマート側からの要請もあり、@hfm は embedded SRE としてマート中心に活動していた。 急成長に伴い、障害やアラートが目立つようになり、サービスの 信頼性に関する共通認識の曖昧さに課題を感じた。 「マートはいま大丈夫なの?やばいの?」を測るモノサシとして SLI/SLO
が使えると思い、導入を進めた。
playback: 2020年のクックパッドの SLI/SLO 2つの課題: 1. SRE チームが信頼性指標を確立・追跡できていない 2. 開発・SRE 間で信頼性の共通認識(合意形成)が曖昧
結果的に 2 をマートで先行していくことになった。
SLI/SLO の提案、議論、策定 Google Docs に SLI/SLO の草案を作り、開発リーダーや事業 責任者にレビューしてもらい、合意を得た。 トラッキングすべき SLI/SLO
の策定や、エラーバジェットポリ シー、障害ポリシー、エスカレーションポリシーなど継続的な運 用をするためのポリシーも提案に含まれる。 • https://sre.google/workbook/slo-document/ • https://sre.google/workbook/error-budget-policy/
提案ドキュメント
マートの SLI/SLO ダッシュボード
マートにおける SLI/SLO の運用 定期的な SLI/SLO の確認は SRE チームでも行っている。 また、マートチームでも自分たちで定期的に確認しており、また 違反時における信頼性の回復活動も自分たちで行えている。
ここまでのまとめと所感 マートの急成長に伴い、信頼性の共通認識を構築する必要を 感じたことから、SLI/SLO を提案・導入し、信頼性のトラッキング を始めた。 数値 (SLI/SLO) に加え、運用に関する各種ポリシーに大きな価 値を感じている。「SLO 違反時に、誰がいつ何をすべきか」をあ
らかじめ取り決めることで、SRE チームからスケールアウトして 運用が続けられている。
展望:レシピサービスへの SLI/SLO 導入 現在、レシピサービスでも信頼性に対する課題が生じており、 SLI/SLO の導入を進めている。大きなサービスなので巻き込む べき人も多く、大変だがやりがいは大きい。 また、アラーティングが整備しきれておらず、もっといい感じに SLI/SLO をトラッキングできる環境を用意して、開発側に提供し
ていきたい。
We are hiring https://cookpad.jobs