Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
横断的なSRE推進と成熟度評価
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Ryosuke Suto
March 12, 2022
Technology
8.7k
9
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
横断的なSRE推進と成熟度評価
Ryosuke Suto
March 12, 2022
More Decks by Ryosuke Suto
See All by Ryosuke Suto
GKEを利用したサービスの運用
strsk8
1
710
パブリック/プライベートクラウドでつかうKubernetes
strsk8
1
2.5k
GKE@AbemaTV
strsk8
12
9.7k
re:Invent2015参加レポ
strsk8
0
350
成長し続けるインフラの安定運用事情
strsk8
19
5.3k
ソーシャルゲームDBの危機回避
strsk8
10
15k
Other Decks in Technology
See All in Technology
10年間のブログ発信を振り返って見えたWebアプリケーションエンジニアとしての軌跡
stefafafan
0
170
データレイクの「見えない問題」を可視化する
sansantech
PRO
1
110
ぼっちではじめた登壇が「51名」「241件」の発信に化けた
subroh0508
1
250
IaC コードを資産へ:AWS CDK 社内ライブラリと横断展開 / aws-summit-japan-2026
gotok365
5
1.2k
就職⽀援サービスにおけるキャリアアドバイザーのシフトスケジューリング
recruitengineers
PRO
1
150
手塩にかけりゃいいってもんじゃない
ming_ayami
0
610
SONiC Scale-Up Working Group から探る Scale-UpやUltraEthernet機能の実装方法
ebiken
PRO
2
420
AWS Security Hub CSPMの成功・失敗体験
cmusudakeisuke
0
270
データサイエンスを価値につなげるプロジェクト設計 〜 DS一年目が現場で得た気づき 〜
ysd113
1
280
LayerX コーポレートエンジニアリング室におけるサプライチェーンセキュリティへの取り組み / Supply Chain Security at LayerX Corporate Engineering
yuyatakeyama
2
680
2026年6月23日 Syncable Tech + Start Python Club にて
hamukazu
0
140
フィジカル版Github Onshapeの紹介
shiba_8ro
0
290
Featured
See All Featured
Stop Working from a Prison Cell
hatefulcrawdad
274
21k
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
420
The Limits of Empathy - UXLibs8
cassininazir
1
360
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Building Flexible Design Systems
yeseniaperezcruz
330
40k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
360
Bash Introduction
62gerente
615
220k
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
1.4k
The Mindset for Success: Future Career Progression
greggifford
PRO
0
360
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
1.1k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
10k
Transcript
横断的なSRE推進と成熟度評価 SRE Promotion & Maturity Assessment Ryosuke Suto
須藤 涼介/Ryosuke Suto •Service Reliability Group(SRG) - Manager •勤続16年 •CA麻雀部(A1)
今日話すこと 組織改善 プロダクト SRE導入 横断的 SRE推進 • インフラ→SREs変化 • SREsとしての職務
• SREの定義 • SREのススメ方 • SRE成熟度評価 • 今後の展望
1.プロダクトチームとSREs 2.インフラチーム→SREsになるまで 3.SREを組織としてどう捉えるか 4.横断的なSRE推進 5.今後の展望
表記の注意 •SRE Site Reliability Engineering 職種ではなく一連の概念の総称 •SREs 概念ではなく職種 この記事内ではSRGのメンバーや組織を表す
プロダクトチームとSREs
メディア事業
Ameba Product A Product B Product C AWA Pigg CL
Hayabusa SREs ・DC移設 ・負荷対策 ・アラート改善 ・SLI/SLO設定 ・インシデント対応の改善 ・アラート改善 ・ベストプラクティスの開発と展開 ・SRE ・クラウドネイティブ ・DB、監視、その他… Embedded SRE Embedded SRE SRE Center of Practice Project Project ※一部の例であり、実際はこれと異なる部分もあります。 Project : 半期ごとに各開発チームと対話し更新する プロダクトチームとの関わり方 12名
インフラチーム→SREsになるまで
インフラチーム時代の関わり方 組織改善 プロダクト SRE導入 横断的 SRE推進
インフラチーム時代の関わり方 •メディア全プロダクトの運用を全員が兼務でカバー 認知負荷MAX 運用の差し込みで1日が終了 Joinしているアラート用チャンネルの多さに疲弊or麻痺 •各チームごとに独立した活動 チーム内のプロダクトで手いっぱい 技術的なシナジーが生み出しづらい
担当制の廃止 •基礎的な運用はプロダクトチームにエスカレーション やらなくなったこと(基礎的な運用) ・スケーリングや既存アーキテクチャへの新規構築(専門性Low) ・オンコール やること(ニーズベース) ・アーキテクチャの初期設計やIaCのベース提供 ・運用プラクティスの改善 ・パフォーマンスチューニングや負荷対策 ・SRE導入
プロジェクト制の導入 •半年ごとにニーズをヒアリングしプロジェクト化 担当制だと不明瞭だったコミットメントが明確になる システム責任者にも運用面の課題を考えてもらうきっかけになる SREsを流動的に配置できる プロダクト側とのコミュニケーションが希薄にならない
プロジェクトライフサイクル プロジェクト 合意 定期的な 進捗報告 プロジェクト 開始 期末報告 プロダクトFB プロジェクト
完了 メンバーアサイン プロジェクト更新 6ヶ月
職務の明確化とワーキンググループ •Embedded SREs 担当プロダクトの信頼性改善におけるリーダーシップの発揮 SRE導入 プロジェクトのミッション遂行 •SRE Center of Practice
横断的事業課題解決における技術的専門性の発揮 ベストプラクティスの開発(手法、ツール含む) ワーキンググループでの横断的課題発見、解決 現在はDBと運用監視のワーキンググループを運用中
SREを組織としてどう捉えるか
SREを組織としてどう捉えるか 組織改善 プロダクト SRE導入 横断的 SRE推進
SREという言葉の曖昧さ •組織内で統一された認識がない Ω「言葉だけは知ってます」 Ω「ソフトウェアエンジニアに運用チームの設計を…?」 Ω「SREsがなんかええ感じにやってくれるやつ」 •何から手を付けていいかわからない(プラクティスが多い) Ω「とりあえずAPIのレイテンシー全部測ればいいんだっけ?」 Ω「最近障害が多いから改善したい…が…?」
この組織の「SRE」定義する •SREとは信頼性を機能として扱うためのプラクティスや組織文化 •と信頼性を直接的/間接的に改善していくためのプラクティス •SREsはSREを推進するための役割でSREを実行する役割ではない •SREsはプロダクトチームにSREをインストールする
自分たちの現在地を知る •目標を設定するにはまず現在地を知る必要がある •何から始めるべきか議論がしやすい •各階層の理想状態がわかればアクションが決めやすい
実プロダクトでのSREの始め方 ①プロダクトチーム全体へのコンセプト説明 SREとは?信頼性とは?メリットは?どのように進めるか? バックエンド→開発チーム→プロダクト全体で抽象度を上げる ②導入ステップの設計 コンセプト理解→プロダクト分析(課題抽出)→優先度設定 ③導入フェーズ 例:インシデントルールの整備、CUJの分析、SLO設定…
横断的なSRE推進
横断的なSRE推進への挑戦 組織改善 プロダクト SRE導入 横断的 SRE推進
横断的なSRE推進への挑戦 •プロジェクト単体で進めていることを横断的に展開したい •物理的に全プロダクトへEmbeddedすることは難しい •全体を俯瞰しデータ化することで力点を見極めたい •プロダクト責任者と現状認識をすり合わせておきたい
SRE成熟度評価
•能力成熟度モデル統合をベースに作成 •信頼性の階層等を参考にSREに必要な項目をリスト化 •評価しやすくするために極力シンプルにする •Lv.3を定義するためにSREsは情報を集約する必要性が出てくる
Lv.3ガイドライン
評価をしてみて •まざまざとウィークポイントが明らかになる •中長期的な計画が立てやすくなる •Lv.3の整備が急務 •評価の間隔は3ヶ月〜6ヶ月が良さそう
今後の展望
続・SRE推進 •Lv.3(ベストプラクティス)の作成/ブラッシュアップ •横断的な成熟度改善計画の実行 •改善目標の定量化 •向こう1年でLv.1がほぼない状態を目指す
クラウドネイティブ技術との付き合い方 •CNCFのプロジェクト数は42増えて120に(CNCF Annual Report 2021) •技術選定の自由度とベストプラクティス(標準化)のバランスを 取らないとカオス化が想定される •情報のキャッチアップ速度、精度 •SREsがリードしていける形にしたい
ありがとうございました