SLOは何を実現するのか / What does SLO achieve?

SLOは何を実現するのか Forkwell Library #28 SLO サービスレベル⽬標 2023/07/25 19:35-20:05 ⼭⼝能迪 (@ymotongpoo)
1

どしどし質問をお待ちしております 2

⼭⼝能迪 Developer Relations Engineer Google 3 @ymotongpoo @ymotongpoo

SRE文脈でのSLO 4

SREについて SRE とは本番システムを信頼性高く開発・運用するための一連のプラクティスと心構え、および職務を指します。 5

信頼性に基づいた開発と運用 6 コンセプトビジネス開発運用市場全部署が信頼性を基準にビジネスのプロセス

信頼性指標の計測暗黙的‧明⽰的な期待に応えているから、ユーザーは満⾜する。 7 期待（⽬標値）指標

信頼性（Reliability） The probability that [a system] an item will perform
a required function without failure under stated conditions for a stated period of time. （システムが）求められる機能を、定められた条件の下で、定められた期間にわたり、障害を起こすことなく実⾏する確率 P. O'Connor and A. Kleyner, Practical Reliability Engineering, 5th edition: Wiley, 2012. 8

サービスレベル指標（SLI）とサービスレベル目標（SLO）ユーザーの満⾜度によく相関している指標とその⽬標 9 SLO SLI

信頼性指標の元データサービスの性質による典型的な信頼性指標の元データ • リクエスト／レスポンス可用性、レイテンシー、品質 • データ処理カバレッジ、正確性、鮮度、スループット • ストレージ
スループット、レイテンシー監視システムは、多くの潜在的な SLI を捉える可能性がありますし、そうあるべきですが、ほとんどはそのままでは SLO を定義するのには使えません。 10

サービスレベル指標（SLI）の定義次の式のように、定量的かつ慎重に定義します。可⽤性の場合の例 • 良いイベント: HTTPステータスコードが 2xx、3xx、4xxのレスポンス • 有効なイベント: 全レスポンス
11 SLI : 良いイベント有効なイベント × 100%

サービスレベル指標（SLI）の共有組織内で共通認識を持つために⾔語化する 12 SLI の種類: 可⽤性 SLI の仕様: CheckoutService へのリクエストに対するすべてのレスポンスのうち、
HTTP レスポンスコード 2xx、3xx、4xx を返すもの (＝良いレスポンス) の割合。ただし 429 を除く。 SLI の実装: Web アクセスログから HTTP レスポンスコードを特定する

サービスレベル目標（SLO）の定義 SLIの⽬標値。計測期間も定義する必要がある。 • SLI: CheckoutService の良いレスポンスの割合 • SLO: CheckoutService の過去28⽇間の良いレスポンスが99.9%
13

サービスレベル目標（SLO）の共有 SLIと合わせてSLOも共有する 14 SLI の種類 : 可⽤性 SLI の仕様 :
CheckoutService へのリクエストに対するすべてのレスポンスのうち、 HTTP レスポンスコード 2xx、3xx、4xx を返すもの (＝良いレスポンス) の割合。ただし 429 を除く。 SLI の実装 : Web ログから HTTP レスポンスコードを特定する SLO : 過去 28 ⽇間の CheckoutService のレスポンスのうち 99.9% が良いレスポンスでなければならない根拠 : 過去に0.1%までのエラーであれば顧客問い合わせがなかった

エラーバジェット SLOが決まるとエラーバジェット（許容できるエラーの量）が決まる ⇨ 不具合が発⽣すると、エラーバジェットを消費することになるエラーバジェットを監視することでサービスの余裕がわかる 15 残りのエラーバジェット 0.1% = 100%
- 99.9%

バーンレートアラートバーンレートが急な場合ほど早く知らせる 16 エラーバジェット時間 EB 100% （SLI 0.1%) 28
d 想定通りの EB の消費＝バーンレート 1 想定の 2 倍速の EB の消費＝バーンレート 2 14 d 想定の 7 倍速の EB の消費＝バーンレート 7 4 d

ポリシーを設定し更にEBを活用 ➔ しきい値 1: ⾃動アラートが SLO の危険を SRE に通知します ➔
… ➔ しきい値 3: SRE が、SLO を守るためには助けが必要と結論付け、開発者にエスカレーションします ➔ しきい値 4: 30 ⽇間のエラーバジェットを使い切っても根本原因は⾒つかっていません。機能リリースは停⽌され、開発チームはより多くのリソースを割り当てます ➔ しきい値 5: 90 ⽇間のエラーバジェットを使い切っても根本原因は⾒つかっていません。SRE は経営陣にエスカレーションを⾏い、安定性のためのエンジニアリング業務により多くの時間を確保します 17

信頼性に基づいた開発と運用 18 コンセプトビジネス開発運用市場 SLOを基準に客観的に判断可能ビジネスのプロセス

Four Keysとの比較 19

Four Keys (2014〜2017年) 20 デプロイ頻度変更リードタイムサービス復旧時間変更障害率速度安定性
ソフトウェアデリバリーパフォーマンス

Four Keys はどのタイミングの指標か障害〜復旧運⽤開発〜デプロイ • デプロイ頻度 • 変更リードタイム
• 変更障害率 • サービス復旧時間安定時のパフォーマンスは？

「組織のパフォーマンス」再考ソフトウェアデリバリーパフォーマンス ≠ サービス品質 • リリースされたソフトウェアにユーザーが満⾜しなければ意味がない • 2018年のSODRより組織の能⼒を捕捉するために可⽤性を5番⽬の指標に • 2022年のSODRでは発展させて「信頼性」を5番⽬の指標に
22

運用パフォーマンスとしての信頼性障害〜復旧運⽤開発〜デプロイ • デプロイ頻度 • 変更リードタイム • 変更障害率
• サービス復旧時間 SLOに基づき運⽤ • 信頼性

エラーバジェット：何を優先させるか？ 24 バジェットを消費した場合信頼性を優先する • ポストモーテムアイテムの優先順位付け • デプロイメントパイプラインの⾃動化 • モニタリングと可観測性の向上
• SRE のコンサルテーションが必要バジェットが⼗分な場合ベロシティを優先する • 予想されるシステムの変更 • ハードウェア、ネットワークなどの不可避的な障害 • 計画的ダウンタイム • 危険な実験

運用パフォーマンスとしての信頼性障害〜復旧運⽤開発〜デプロイ • デプロイ頻度 • 変更リードタイム • 変更障害率
• サービス復旧時間エラーバジェットに基づき運⽤ • 信頼性 SLO エラーバジェットバーンレート

どこから始めるのか SLO関連書籍をぜひ参照してみてください 26

SLOは何を実現するのか / What does SLO achieve?

SLOは何を実現するのか / What does SLO achieve?

ymotongpoo

More Decks by ymotongpoo

Other Decks in Technology

Featured

Transcript

SLOは何を実現するのか Forkwell Library #28 SLO サービスレベル⽬標 2023/07/25 19:35-20:05 ⼭⼝能迪 (@ymotongpoo)

どしどし質問をお待ちしております 2

⼭⼝能迪 Developer Relations Engineer Google 3 @ymotongpoo @ymotongpoo

SRE文脈でのSLO 4

SREについて SRE とは本番システムを信頼性高く開発・運用するための一連のプラクティスと心構え、および職務を指します。 5

信頼性に基づいた開発と運用 6 コンセプトビジネス開発運用市場全部署が信頼性を基準にビジネスのプロセス

信頼性指標の計測暗黙的‧明⽰的な期待に応えているから、ユーザーは満⾜する。 7 期待（⽬標値）指標

信頼性（Reliability） The probability that [a system] an item will perform

サービスレベル指標（SLI）とサービスレベル目標（SLO）ユーザーの満⾜度によく相関している指標とその⽬標 9 SLO SLI

信頼性指標の元データサービスの性質による典型的な信頼性指標の元データ • リクエスト／レスポンス可用性、レイテンシー、品質 • データ処理カバレッジ、正確性、鮮度、スループット • ストレージ

サービスレベル指標（SLI）の定義次の式のように、定量的かつ慎重に定義します。可⽤性の場合の例 • 良いイベント: HTTPステータスコードが 2xx、3xx、4xxのレスポンス • 有効なイベント: 全レスポンス

サービスレベル指標（SLI）の共有組織内で共通認識を持つために⾔語化する 12 SLI の種類: 可⽤性 SLI の仕様: CheckoutService へのリクエストに対するすべてのレスポンスのうち、

サービスレベル目標（SLO）の定義 SLIの⽬標値。計測期間も定義する必要がある。 • SLI: CheckoutService の良いレスポンスの割合 • SLO: CheckoutService の過去28⽇間の良いレスポンスが99.9%

サービスレベル目標（SLO）の共有 SLIと合わせてSLOも共有する 14 SLI の種類 : 可⽤性 SLI の仕様 :

バーンレートアラートバーンレートが急な場合ほど早く知らせる 16 エラーバジェット時間 EB 100% （SLI 0.1%) 28

ポリシーを設定し更にEBを活用 ➔ しきい値 1: ⾃動アラートが SLO の危険を SRE に通知します ➔

信頼性に基づいた開発と運用 18 コンセプトビジネス開発運用市場 SLOを基準に客観的に判断可能ビジネスのプロセス

Four Keysとの比較 19

Four Keys (2014〜2017年) 20 デプロイ頻度変更リードタイムサービス復旧時間変更障害率速度安定性

Four Keys はどのタイミングの指標か障害〜復旧運⽤開発〜デプロイ • デプロイ頻度 • 変更リードタイム

運用パフォーマンスとしての信頼性障害〜復旧運⽤開発〜デプロイ • デプロイ頻度 • 変更リードタイム • 変更障害率

エラーバジェット：何を優先させるか？ 24 バジェットを消費した場合信頼性を優先する • ポストモーテムアイテムの優先順位付け • デプロイメントパイプラインの⾃動化 • モニタリングと可観測性の向上

運用パフォーマンスとしての信頼性障害〜復旧運⽤開発〜デプロイ • デプロイ頻度 • 変更リードタイム • 変更障害率

どこから始めるのか SLO関連書籍をぜひ参照してみてください 26