Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SRE推進における失敗と成功 〜く"し"け"な"い"〜 - NIFTY Tech Day 2023
Search
ニフティ株式会社
PRO
November 27, 2023
Video
Resources
Technology
0
400
SRE推進における失敗と成功 〜く"し"け"な"い"〜 - NIFTY Tech Day 2023
ニフティ株式会社
PRO
November 27, 2023
Tweet
Share
Video
Resources
NIFTY Tech Day 2023
https://techday.nifty.co.jp/2023/
More Decks by ニフティ株式会社
See All by ニフティ株式会社
2025-04-25 NIFTY's InnerSource Activites
niftycorp
PRO
0
210
外コミュニティ活動や登壇活動が技術 広報として大事だよ、と改めて周囲に伝 えられた件 - EM Oasis 特別会
niftycorp
PRO
0
94
Dify触ってみた。
niftycorp
PRO
1
210
Amazon Bedrockを使用して、 運用対応を楽にしてみた
niftycorp
PRO
1
230
自社製CMSからの脱却:10件のWebサイト再構築に学ぶ運用重視の技術選定 - NIFTY Tech Day 2025
niftycorp
PRO
0
110
エンジニアの殻を破る:インナーソースと社外活動がもたらした成長 - NIFTY Tech Day 2025
niftycorp
PRO
0
73
システム全体像把握の超高速化〜システム関連図を使い倒そう (LT) - NIFTY Tech Day 2025
niftycorp
PRO
0
72
Rust で生成 AI の社内 chatbot をメンテしている話 (LT) - NIFTY Tech Day 2025
niftycorp
PRO
0
78
メタバースは仕事に使える?〜100日間でバーチャルオフィスへの挑戦〜 (LT) - NIFTY Tech Day 2025
niftycorp
PRO
0
68
Other Decks in Technology
See All in Technology
「良さそう」と「とても良い」の間には 「良さそうだがホンマか」がたくさんある / 2025.07.01 LLM品質Night
smiyawaki0820
1
310
米国国防総省のDevSecOpsライフサイクルをAWSのセキュリティサービスとOSSで実現
syoshie
2
1.2k
Github Copilot エージェントモードで試してみた
ochtum
0
110
【PHPカンファレンス 2025】PHPを愛するひとに伝えたい PHPとキャリアの話
tenshoku_draft
0
120
Amazon S3標準/ S3 Tables/S3 Express One Zoneを使ったログ分析
shigeruoda
4
550
Claude Code Actionを使ったコード品質改善の取り組み
potix2
PRO
6
2.4k
ひとり情シスなCTOがLLMと始めるオペレーション最適化 / CTO's LLM-Powered Ops
yamitzky
0
440
JEDAI Databricks Free Editionもくもく会
taka_aki
1
100
作曲家がボカロを使うようにPdMはAIを使え
itotaxi
0
130
Observability в PHP без боли. Олег Мифле, тимлид Altenar
lamodatech
0
360
エンジニア向け技術スタック情報
kauche
1
280
Prox Industries株式会社 会社紹介資料
proxindustries
0
330
Featured
See All Featured
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
657
60k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Stop Working from a Prison Cell
hatefulcrawdad
270
20k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
What's in a price? How to price your products and services
michaelherold
246
12k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
GraphQLとの向き合い方2022年版
quramy
49
14k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
20
1.3k
Making the Leap to Tech Lead
cromwellryan
134
9.4k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Facilitating Awesome Meetings
lara
54
6.4k
Transcript
Copyright ©NIFTY Corporation All Rights Reserved. SRE推進における失敗と成功 〜く"し"け"な"い"〜 会員システムグループ SREチーム 2023-11-18
浅見 則彦
浅見 則彦 / Asami Norihiko • Work ◦ 会員システムグループ /
SREチーム - Tech Lead ◦ SREギルドマスター ◦ NIFTY Tech Talk 運営 • Communiy ◦ AWS community builder | Cloud Operations rubihiko @rubihiko
Copyright © NIFTY Corporation All Rights Reserved. 経緯・歴史 3
AWS PoC・移行〜 2022 2018 2019 2020 2021 AWS移行中〜安定化 SRE推進〜 SRE横展開〜 SRE推進チームができるまで サービス毎のAWS移行が始まる PoC・サービス移行を全員で実施 1サービス単位で移行を進め、 1人大体3〜5サービスを担当する SREを全社的に横展開を進める SLI/SLOの設定、モニタリング、ポスト モーテム、障害対応ロールプレイングな どを中心に、SREアプローチの提案や SREsを増やすための活動を行う 移行も大部分が完了 システム不安定な部分が気になり始める クラウドに適した構成や自動化が求められる 安定化PJを立ち上げシステム安定化を進める。 SRE推進チームの前身となる活動がこれ
2023
重点的に(意識して)取り組んでいる要素 • コミュニケーション • イベント • 環境
〜2023の状況 コミュニケーション • SREチーム人数増える • SREギルド • システム安定化WG • SREs育成
◦ SRE本輪読会 ◦ SLO本輪読会 ◦ クラウドネイティブ勉強会 • Enabling SRE / Embedded SRE • Slack問い合わせ窓口 環境 • SLI/SLO, FourKeys • Production Readiness Checklist • インシデント管理(PagerDuty) イベント • SLO Workshop • ポストモーテム共有会 • AWS GameDay(社内開催) • SRE NEXT協賛
失敗と成功(改善)
コミュニケーション
コミュニケーション・文化醸造 🤨失敗 • 浸透を急かしてしまった • 複数のアプローチを同時に進行 • チーム目標に入れる約束ができな かった •
成熟度の測定が進まなかった 😁改善していきたいこと • 文化浸透はゆっくり確実に • ニフティの文化を尊重する • スクラム実践しているチームでは導 入はスムーズだった • チーム目標に入れてもらう • 成熟度は全体的なものではなく、 チーム毎に決めるべきだった
どの戦略を使った? ボトムアップで進める Embedded (Embedded SRE, Enabling SRE) とConsulting を使っていた https://cloud.google.com/blog/products/devops-sre/how-sre-teams-are-organized-and-h
ow-to-get-started?hl=en どうして? 組織で見るとサービスやシステムが沢山 あるものの、チーム単位でプラットフォー ム、言語、DevOps体制が独立・異なって るため、小さい単位で始め、成功のモデ ルケースを増やしていき浸透させたかっ た
改善
• 上司や上司にお願いして回る • 各チームからSREsを選出してもらう • 横の連携を強くしないといけない • ギルドの体制を整備する 仲間を増やして活動を広げる •
社内の公募制度を活用 ◦ 社内のチームを異動できる制度があります • キャリア採用を活用 SREギルド (各チームSREsの集まり) SRE推進チーム SREチームメンバー増加 / SREギルド結成 / 安定化WG
SREギルド サービスA サービスB サービスC SRE(推進)チーム WG 開発チーム(パートナー) 運用チーム インフラチーム 開発・運用チーム
開発・運用・インフラチーム SREs SREs ※色々な部署のメンバー ※SREsの集まり SREs SREs SREs 技術・戦術支援 ギルド運営 チームで実践 導入支援 全社向けのガイドラインなど発信
地道な活動の継続 Enabling SRE / Embedded SRE / 勉強会 / 問い合わせ窓口
SREアプローチの支援・導入活動、SREsの勉強会をコツコツ続ける、気軽にSREチーム とコミュニケーションができる問い合わせ窓口の整備など
イベント
イベント 🤨失敗 • イベント運営難しい ◦ 盛り上げっているような、いな いような ◦ 参加人数が安定しない ◦
進んでいる感がない • 世の中の動き見てる? 😁改善していきたいこと • 少なくとも自分は盛り上がる(あげ る) • サクラを仕込む • 参加ハードルを下げる ◦ 事前課題などは無し • イベント協賛
改善
イベントを通じて学ぶ SLO Workshop / ポストモーテム共有会 / AWS GameDay(社内開催) / SRE
NEXT協賛 SRE・DevOps・品質に関係したワークショップを開催手を動かして学ぶ AWS様協力のもと、社内GameDay開催し実践しながら学ぶ SRE NEXTでは世の企業の取り組みを知り、広い知見を得てもらう ♥SRE NEXT 2023 🦄社内GameDay
ポストモーテム共有会 みんなで共有にしない ともったいない
ポストモーテム共有会 会員システムG: 51名 サブチーム: 11 くらいのボリューム
環境
環境 🤨失敗 • 導入進捗が2極化 • メリットが伝わっていない • 活用まで行かないケース • 小さく始められない
• インシデント振り返りできていない 😁改善していきたいこと • SREsの育成や支援強化 • メリットを理解する • お客様目線で考えてもらう • 信頼性の価値 • テスト手法などの学習
改善
環境の変化 SLI/SLO / FourKeys / Production Readiness Checklist / PagerDuty
全社的にSLI/SLOを設定していく・活用しましょうという流れ FourKeysも試験的に導入進めています(+SLO) インシデント管理・分析、エスカレーション高速化 e-learning(テスト・障害対応) Udemyのラーニングパスでの学習 UdemyはUdemy, Inc.の商標です
SLI/SLO FourKeys Production Readiness Checklist PagerDuty ※サンプルデータが含まれており、実際の品質を提示するものではありません
まとめ • 文化の浸透は一気に効率よくやろうとすると逆に遅くなる ◦ 変化は少しずつ起こす • 環境への適用 ◦ 導入した、で終わらない体制を整える、改善のサイクルを回す •
成長できる環境を作る ◦ お願いベースではなく、一緒に成長できる環境を用意する • イベント ◦ 不定期よりも定期に継続したほうがよい