Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[SRE NEXT] 複雑なシステムにおけるUser Journey SLOの導入

[SRE NEXT] 複雑なシステムにおけるUser Journey SLOの導入

2025/07/11のSRE NEXT 2025 当日の登壇資料です。

Avatar for yakenji

yakenji

July 14, 2025
Tweet

Other Decks in Programming

Transcript

  1. 4    •サービス開始:2013年7月 •対応OS:Android、iOS ※Webブラウザからも利用可能 •利用料:無料 ※売れたときの手数料:販売価格の10% •対応地域・言語:日本・日本語基本仕様 •累計出品数:40億品を突破 (2024年9月)

    でなくなったモノが必要とする人に渡る喜びを感じ、また購入 者は豊富な出品数から「宝探し」感覚で魅力的な商品を見つけ ることを楽しんでいます。 さらに「メルカリ」は物の売買だけではなく出品者と購入者の コミュニケーションも重視し、チャットや絵文字、「いい ね!」機能の拡充などお客さまがより快適に取引を楽しめるた めの機能改善にも取り組んでいます。 「メルカリ」は、個人間での不要品の売買を簡単に行えるフリ マアプリです。エスクロー決済を活用した安心・安全な取引環 境の整備や、簡単かつ手頃な価格の配送オプションなど差別化 されたユニークなお客さま体験を提供しています。 現在、「メルカリ」では1秒間に7.9個の商品が売れています。 売れやすい環境が整う中、多くの出品者は、自分にとって必要 4 メルカリとは
  2. 12 各User Journeyは複数のサービスに依存 複数の
 - エンドポイント 
 - サービス
 


    例えば …
 発送の場合: 
 - Shipping 
 - Item
 - User
 - Transaction 

  3. 14 障害が発生しても重大度が不明 # incident-channel # incident-channel As Is To Be

    障害発生時に 
 影響範囲が 
 具体的にはわからない 
 
 さらに …
 各サービスのSLOでは 
 お客さま目線の 
 サービスレベルは不明 

  4. 17 1 User Journey, 1 single SLO 1 User Journeyに

    
 サービスの数だけ 
 SLOがあっても 
 使いこなせない 
 
 多少の誤差は許容 
 あっても1つのSLOに 
 なるように 

  5. 18 計測可能なメトリクスから SLIを決定 Availability: SCUJ = SA × SB Latency

    : ACUJ = min(AA, AB) クリティカルAPI 
 (= 障害発生でUJがAvailableで はなくなるもの) 
 のメトリクスを用いて 
 SLIを定義 
 
 トライ&エラーが大事 
 コード化で後から 
 チューニングできるように 
 クリティカルAPI A・Bの  Availability: SA, SB エラー率  Latency : AA, AB 目標応答時間の達成率
  6. 20 障害注入によりクリティカル APIを探索 各CUJで使用される 
 APIを探索 
 
 各APIに障害を 


    擬似発生させてアプリの挙動 
 を判定
 
 AvailableではなくなるAPI 
 => クリティカルなAPI 

  7. 29 • Critical User Journey SLO を導入して障害対応・サービス品質の 可視化を行った ◦ お客さまが実際に感じる品質を数値化

    ◦ お客さまが障害時に何ができて何ができないのかを即時把握 ◦ わかりやすいSLIの定義が重要 • アプリの変化に追従して陳腐化しない仕組みの整備を行った ◦ アプリは常にアップデートされるので自動でSLOもアップデート ◦ SLOと現実が乖離すると意味なし!アップデートし続けるのが重要 ◦ これからもメンテナンスとの闘いは続く。。。 まとめ