Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
横断的なSRE推進と成熟度評価
Search
Ryosuke Suto
March 12, 2022
Technology
8.7k
9
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
横断的なSRE推進と成熟度評価
Ryosuke Suto
March 12, 2022
More Decks by Ryosuke Suto
See All by Ryosuke Suto
GKEを利用したサービスの運用
strsk8
1
710
パブリック/プライベートクラウドでつかうKubernetes
strsk8
1
2.5k
GKE@AbemaTV
strsk8
12
9.7k
re:Invent2015参加レポ
strsk8
0
350
成長し続けるインフラの安定運用事情
strsk8
19
5.3k
ソーシャルゲームDBの危機回避
strsk8
10
15k
Other Decks in Technology
See All in Technology
Oracle AI Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
6
2k
LayerXにおけるセキュリティ管理の現在地と次の一手
tosho
0
250
GitHub Copilot 最新アップデート – 「一歩先」の実践活用術
moulongzhang
5
1.5k
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
personabb
1
540
Agent Skills設計で柔軟性と硬さのバランスが難しい話
nassy20
0
140
フィジカル版Github Onshapeの紹介
shiba_8ro
0
290
失敗を資産に変えるClaude Code
shinyasaita
0
720
IaC コードを資産へ:AWS CDK 社内ライブラリと横断展開 / aws-summit-japan-2026
gotok365
5
1.1k
Kubernetesにおける学習基盤とLLMOpsの概要
ry
1
320
Android の公式 Skill / Android skills
yanzm
0
160
AI-DLCを “そのまま導入しなかった”話 ~組織に合わせてアジャストした 私たちの実践共有~
hiroramos4
PRO
0
210
AI駆動開発を通して感じた、 AI時代のデザイナーの役割変化
whisaiyo
4
2.3k
Featured
See All Featured
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
Mobile First: as difficult as doing things right
swwweet
225
10k
エンジニアに許された特別な時間の終わり
watany
107
250k
Documentation Writing (for coders)
carmenintech
77
5.4k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
730
Fireside Chat
paigeccino
42
4k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
360
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
28
3.5k
How to Think Like a Performance Engineer
csswizardry
28
2.7k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
62
44k
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
860
Transcript
横断的なSRE推進と成熟度評価 SRE Promotion & Maturity Assessment Ryosuke Suto
須藤 涼介/Ryosuke Suto •Service Reliability Group(SRG) - Manager •勤続16年 •CA麻雀部(A1)
今日話すこと 組織改善 プロダクト SRE導入 横断的 SRE推進 • インフラ→SREs変化 • SREsとしての職務
• SREの定義 • SREのススメ方 • SRE成熟度評価 • 今後の展望
1.プロダクトチームとSREs 2.インフラチーム→SREsになるまで 3.SREを組織としてどう捉えるか 4.横断的なSRE推進 5.今後の展望
表記の注意 •SRE Site Reliability Engineering 職種ではなく一連の概念の総称 •SREs 概念ではなく職種 この記事内ではSRGのメンバーや組織を表す
プロダクトチームとSREs
メディア事業
Ameba Product A Product B Product C AWA Pigg CL
Hayabusa SREs ・DC移設 ・負荷対策 ・アラート改善 ・SLI/SLO設定 ・インシデント対応の改善 ・アラート改善 ・ベストプラクティスの開発と展開 ・SRE ・クラウドネイティブ ・DB、監視、その他… Embedded SRE Embedded SRE SRE Center of Practice Project Project ※一部の例であり、実際はこれと異なる部分もあります。 Project : 半期ごとに各開発チームと対話し更新する プロダクトチームとの関わり方 12名
インフラチーム→SREsになるまで
インフラチーム時代の関わり方 組織改善 プロダクト SRE導入 横断的 SRE推進
インフラチーム時代の関わり方 •メディア全プロダクトの運用を全員が兼務でカバー 認知負荷MAX 運用の差し込みで1日が終了 Joinしているアラート用チャンネルの多さに疲弊or麻痺 •各チームごとに独立した活動 チーム内のプロダクトで手いっぱい 技術的なシナジーが生み出しづらい
担当制の廃止 •基礎的な運用はプロダクトチームにエスカレーション やらなくなったこと(基礎的な運用) ・スケーリングや既存アーキテクチャへの新規構築(専門性Low) ・オンコール やること(ニーズベース) ・アーキテクチャの初期設計やIaCのベース提供 ・運用プラクティスの改善 ・パフォーマンスチューニングや負荷対策 ・SRE導入
プロジェクト制の導入 •半年ごとにニーズをヒアリングしプロジェクト化 担当制だと不明瞭だったコミットメントが明確になる システム責任者にも運用面の課題を考えてもらうきっかけになる SREsを流動的に配置できる プロダクト側とのコミュニケーションが希薄にならない
プロジェクトライフサイクル プロジェクト 合意 定期的な 進捗報告 プロジェクト 開始 期末報告 プロダクトFB プロジェクト
完了 メンバーアサイン プロジェクト更新 6ヶ月
職務の明確化とワーキンググループ •Embedded SREs 担当プロダクトの信頼性改善におけるリーダーシップの発揮 SRE導入 プロジェクトのミッション遂行 •SRE Center of Practice
横断的事業課題解決における技術的専門性の発揮 ベストプラクティスの開発(手法、ツール含む) ワーキンググループでの横断的課題発見、解決 現在はDBと運用監視のワーキンググループを運用中
SREを組織としてどう捉えるか
SREを組織としてどう捉えるか 組織改善 プロダクト SRE導入 横断的 SRE推進
SREという言葉の曖昧さ •組織内で統一された認識がない Ω「言葉だけは知ってます」 Ω「ソフトウェアエンジニアに運用チームの設計を…?」 Ω「SREsがなんかええ感じにやってくれるやつ」 •何から手を付けていいかわからない(プラクティスが多い) Ω「とりあえずAPIのレイテンシー全部測ればいいんだっけ?」 Ω「最近障害が多いから改善したい…が…?」
この組織の「SRE」定義する •SREとは信頼性を機能として扱うためのプラクティスや組織文化 •と信頼性を直接的/間接的に改善していくためのプラクティス •SREsはSREを推進するための役割でSREを実行する役割ではない •SREsはプロダクトチームにSREをインストールする
自分たちの現在地を知る •目標を設定するにはまず現在地を知る必要がある •何から始めるべきか議論がしやすい •各階層の理想状態がわかればアクションが決めやすい
実プロダクトでのSREの始め方 ①プロダクトチーム全体へのコンセプト説明 SREとは?信頼性とは?メリットは?どのように進めるか? バックエンド→開発チーム→プロダクト全体で抽象度を上げる ②導入ステップの設計 コンセプト理解→プロダクト分析(課題抽出)→優先度設定 ③導入フェーズ 例:インシデントルールの整備、CUJの分析、SLO設定…
横断的なSRE推進
横断的なSRE推進への挑戦 組織改善 プロダクト SRE導入 横断的 SRE推進
横断的なSRE推進への挑戦 •プロジェクト単体で進めていることを横断的に展開したい •物理的に全プロダクトへEmbeddedすることは難しい •全体を俯瞰しデータ化することで力点を見極めたい •プロダクト責任者と現状認識をすり合わせておきたい
SRE成熟度評価
•能力成熟度モデル統合をベースに作成 •信頼性の階層等を参考にSREに必要な項目をリスト化 •評価しやすくするために極力シンプルにする •Lv.3を定義するためにSREsは情報を集約する必要性が出てくる
Lv.3ガイドライン
評価をしてみて •まざまざとウィークポイントが明らかになる •中長期的な計画が立てやすくなる •Lv.3の整備が急務 •評価の間隔は3ヶ月〜6ヶ月が良さそう
今後の展望
続・SRE推進 •Lv.3(ベストプラクティス)の作成/ブラッシュアップ •横断的な成熟度改善計画の実行 •改善目標の定量化 •向こう1年でLv.1がほぼない状態を目指す
クラウドネイティブ技術との付き合い方 •CNCFのプロジェクト数は42増えて120に(CNCF Annual Report 2021) •技術選定の自由度とベストプラクティス(標準化)のバランスを 取らないとカオス化が想定される •情報のキャッチアップ速度、精度 •SREsがリードしていける形にしたい
ありがとうございました