Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【SRE Kaigi 2026】認知負荷を最小化するオブザーバビリティとSLOの導入 ―4名S...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

【SRE Kaigi 2026】認知負荷を最小化するオブザーバビリティとSLOの導入 ―4名SREが200名のコードエンジニアを支援

SRE Kaigi 2026で登壇した内容です

Avatar for HIGUCHI.Takashi

HIGUCHI.Takashi

January 31, 2026
Tweet

Other Decks in Business

Transcript

  1. 給与計算機能 勤怠機能 組織図機能 ‧ ‧ ‧ Dev Team A Dev

    Team B Dev Team C 従業員サーベイ機能 約40チーム 約200名 ‧ ‧ ‧ 10 開発組織体制
  2. 給与計算機能 勤怠機能 組織図機能 Dev Team A Dev Team B Dev

    Team C 従業員サーベイ機能 SRE Team 4名 Enabling 11 約40チーム 約200名 SREの⽴ち位置
  3. • SRE ◦ SLO計測の仕組みを提供 ▪ SaaS×APMを活⽤して計測及び 運⽤環境を提供 ◦ SLO振り返り会の参加‧助⾔ •

    開発チーム ◦ SLO⽬標値の策定 ◦ SLO運⽤ ▪ 定期的な振り返り会の実施 ▪ 違反時の信頼性改善活動 ⽂書化して全社展開 して期待値を調整 18 責任分界点の明確化 ※SLOに絞って⼀部抜粋
  4. キャパシティプランニング 負荷試験の計画‧実⾏ ⾼トラフィックでも 変わらず快適に使える状態 ????? ⼀部メソッドの 速度改善 ロードマップがある場合 ロードマップがない場合 クラウドの

    新サービス検証 トップページの エラー率計測 事業計画 n千⼈規模のお客様へのサービス提供をする 「”SmartHR”の信頼性は上がった?」 という問いに答えられるのか? 22 事業計画から逆算して考える
  5. スコア 基準 5 ほぼ全チーム 4 70%くらいのチーム 3 50%くらいのチーム 2 30%くらいのチーム

    1 10%くらいのチーム 例)Reach(到達範囲)の基準を定義 25 RICEスコアの基準例
  6. スコア Reach Impact Confidenc e Effort RICE 実施可否 ⾼トラフィックでも 変わらず快適に使える

    状態にする 5 5 3 3 25 やる SLO運⽤が出来ている チームを更に広げる 3 5 3 4 11.25 やる インフラコストを 最適化する 4 3 2 3 8 やる 業務効率化スクリプト 実⾏基盤を整備する 2 1 4 3 2.7 やらない スコアが低いものはDrop 26 RICEスコアによって整理された「やるべきこと」
  7. 38

  8. → 少⼈数ではチーム1つ1つの状況を追えない Dev Team A Dev Team B Dev Team C

    ‧ ‧ ‧ Dev Team Z SRE Team • SLI∕SLO定義できましたか? • 次なにを⽬指すかわかりますか? • 適時しきい値の調整できてますか? 63 SLO運⽤の課題