Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SREチームの立ち上げから1年の取り組みとこれからの課題
Search
Tech Leverages
August 25, 2024
Technology
1
820
SREチームの立ち上げから1年の取り組みとこれからの課題
# SRE meetup 〜サービス事業会社のSREが向き合う課題〜
レバレジーズ(株) / 金澤 伸行 SREチームの立ち上げから1年の取り組みとこれからの課題
Tech Leverages
August 25, 2024
Tweet
Share
More Decks by Tech Leverages
See All by Tech Leverages
We Are PdE!! 〜高価値なプロダクトを作れるようになるための勉強会〜
leveragestech
1
560
Prisma Typed SQLのススメ
leveragestech
1
84
今日から始める技術的負債の解消
leveragestech
3
530
ドキュメントとの付き合い方を考える
leveragestech
2
200
開発者体験を向上させる ボトムアップな組織改善
leveragestech
1
240
市場価値の高いエンジニアを 目指そう!!
leveragestech
2
66
より快適なエラーログ監視を目指して
leveragestech
5
1.7k
絶賛設計中!参画者のエンゲージメントを最大化する体験重視のオンボーディング
leveragestech
1
120
SREが強化するべき組織のケイパビリティ
leveragestech
0
100
Other Decks in Technology
See All in Technology
アジャイルチームがらしさを発揮するための目標づくり / Making the goal and enabling the team
kakehashi
3
150
OCI 運用監視サービス 概要
oracle4engineer
PRO
0
4.8k
Introduction to Works of ML Engineer in LY Corporation
lycorp_recruit_jp
0
140
iOSチームとAndroidチームでブランチ運用が違ったので整理してます
sansantech
PRO
0
150
マルチプロダクトな開発組織で 「開発生産性」に向き合うために試みたこと / Improving Multi-Product Dev Productivity
sugamasao
1
310
あなたの知らない Function.prototype.toString() の世界
mizdra
PRO
1
270
個人でもIAM Identity Centerを使おう!(アクセス管理編)
ryder472
4
240
強いチームと開発生産性
onk
PRO
35
11k
OCI Network Firewall 概要
oracle4engineer
PRO
0
4.2k
飲食店データの分析事例とそれを支えるデータ基盤
kimujun
0
190
ExaDB-D dbaascli で出来ること
oracle4engineer
PRO
0
3.9k
テストコード品質を高めるためにMutation Testingライブラリ・Strykerを実戦導入してみた話
ysknsid25
7
2.7k
Featured
See All Featured
XXLCSS - How to scale CSS and keep your sanity
sugarenia
246
1.3M
Scaling GitHub
holman
458
140k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
506
140k
A designer walks into a library…
pauljervisheath
204
24k
Building Flexible Design Systems
yeseniaperezcruz
327
38k
Ruby is Unlike a Banana
tanoku
97
11k
Reflections from 52 weeks, 52 projects
jeffersonlam
346
20k
jQuery: Nuts, Bolts and Bling
dougneiner
61
7.5k
Typedesign – Prime Four
hannesfritz
40
2.4k
The World Runs on Bad Software
bkeepers
PRO
65
11k
Code Review Best Practice
trishagee
64
17k
The Cult of Friendly URLs
andyhume
78
6k
Transcript
SREチームの立ち上げ から1年の取り組みと これからの課題 レバレジーズ株式会社 システム本部 / レバテック開発部 / レバテックSRE 金澤伸行
| © 2024 Levtech Co., Ltd. 2 システム本部 / レバテック開発部 /
レバテックSRE 金澤 伸行 NOBUYUKI KANAZAWA 社内での経歴 • 2022年9月 入社 • 2022年9月〜 社内業務システム開発 • 2023年3月〜 EmbeddedSREと兼任開始 • 2024年9月〜 レバテックSREチーム発足 海外サッカーとピザが好きです 最近サイクリングにハマりました 実は初の外部登壇で緊張しています
| © 2024 Levtech Co., Ltd. 3 システム本部 / レバテック開発部 /
レバテックSRE 金澤 伸行 NOBUYUKI KANAZAWA 社内での経歴 • 2022年9月 入社 • 2022年9月〜 社内業務システム開発 • 2023年3月〜 EmbeddedSREと兼任開始 • 2024年9月〜 レバテックSREチーム発足 ここでの取り組みについてお話します!
| © 2024 Levtech Co., Ltd. 4 事業ポートフォリオ レバテックについて エージェント プログラミング
スクール コンテンツ メディア プラット フォーム ダイレクト リクルーティング ITエンジニア・クリエイターの フリーランス・転職・就職・教育の すべてを備える採用プラットフォーム エージェントを中心に、求人媒体、 プログラミング教育まで IT専門職のキャリアを厚くサポート。
| © 2024 Levtech Co., Ltd. 5 1. SREチーム立ち上げ前のお話 2. EmbeddedSRE
3. レバテック開発部SREチーム発足 4. 1年間の成果 5. これからの課題 目次 INDEX
SREチーム立ち上げ前のお話・・・
| © 2024 Levtech Co., Ltd. 7 実は・・・ SREチーム立ち上げ前のお話・・・ SREチームは既に存在していました
| © 2024 Levtech Co., Ltd. 8 当時のすごくざっくりな組織図 SREチーム立ち上げ前のお話・・・ システム本部 SRE(主にインフラサポート)
レバテック開発部 hoge開発部 fuga開発部
| © 2024 Levtech Co., Ltd. 9 当時のすごくざっくりな組織図 SREチーム立ち上げ前のお話・・・ システム本部 SRE(主にインフラサポート)
レバテック開発部 hoge開発部 fuga開発部 MySQLのバージョンアップ メンテナンス 障害対応 障害対応 メンテナンス MySQLのバージョンアップ
| © 2024 Levtech Co., Ltd. 10 お悩み SREチーム立ち上げ前のお話・・・ サービスの規模拡大にともない各開発部も抱えるシステムが増え、社内 全てのサービスをSREだけで管理することが難しくなっていった
| © 2024 Levtech Co., Ltd. 11 お悩み SREチーム立ち上げ前のお話・・・ SRE 管理しきれない・・・
事業との調整やドメイン理解までは手が出せない・・
| © 2024 Levtech Co., Ltd. 12 お悩み SREチーム立ち上げ前のお話・・・ 開発チーム インフラはよくわからんし待つしかできない・・・
インフラ以外にも解消したい運用課題はあるけ ど機能開発で精一杯・・・
| © 2024 Levtech Co., Ltd. 13 お悩み SREチーム立ち上げ前のお話・・・ インフラ管理の課題解消と、事業と開発の課題感のすり合わせが必要
EmbeddedSRE
| © 2024 Levtech Co., Ltd. 15 Embedded SRE始動 EmbeddedSRE 大きなシステム運用課題を持つチームにSRE人材を配置し
て、開発チームの近くでSREとして動ける体制を作ろう
| © 2024 Levtech Co., Ltd. 16 Embedded SRE始動 EmbeddedSRE
| © 2024 Levtech Co., Ltd. 17 Embedded SRE始動 EmbeddedSRE なんかよさそう!
| © 2024 Levtech Co., Ltd. 18 Embedded SRE始動 EmbeddedSRE でも誰がやるの?
| © 2024 Levtech Co., Ltd. 19 Embedded SRE始動 EmbeddedSRE 採用してドメイン理解してもらうか、
ドメイン理解のある人をSREに育てるか
| © 2024 Levtech Co., Ltd. 20 Embedded SRE始動 EmbeddedSRE 採用してドメイン理解してもらうか、
ドメイン理解のある人をSREに育てるか
| © 2024 Levtech Co., Ltd. 21 Embedded SRE始動 EmbeddedSRE 対象は運用課題が多いシステムに絞り、技術的(イ
ンフラ)問題をまず解決する
| © 2024 Levtech Co., Ltd. 22 Embedded SREとしての活動 EmbeddedSRE •
育成観点 ◦ 読書課題 ▪ 社内勉強会として内容を共有する時間を設ける ◦ 現在稼働しているサービスのインフラ構成を再現する • 業務観点(3ヶ月1セット) ◦ 課題として挙げられているタスクの対応(1ヶ月) ▪ IaC化および推進 • Ansible • Terraform ▪ CICDの構築 ▪ モニタリング体制の整備 ◦ 各チームに戻り運用課題を抽出して解決する(2ヶ月) ▪ 所属チームへの共有も行う
| © 2024 Levtech Co., Ltd. 23 Embedded SREを半年ほどやってみて・・・ EmbeddedSRE アプリケーションとインフラの管理が分かれてい
たことで、見えていなかった課題が見えてくる バッチ処理を実行してるインスタンスはスペック上げてるけど負荷分 散の設定が良くなくてリソース持て余しているな・・・
| © 2024 Levtech Co., Ltd. 24 Embedded SREを半年ほどやってみて・・・ EmbeddedSRE 作業やインフラがコード化されることで誰でも見
れば何をしているかわかる状態に Apacheの設定めっちゃ環境差分あるやん・・・ リリースがワークフローに実行でできるようになったので作業手順書 がいらなくなりました
| © 2024 Levtech Co., Ltd. 25 EmbeddedSREの課題 EmbeddedSRE 他のチームにも導入していきたいがEmbeddedの形だと 現時点ではどうしてもリソースが足りない
| © 2024 Levtech Co., Ltd. 26 EmbeddedSREの課題 EmbeddedSRE 各チームのミクロな問題解決はできる一方、踏み込んだSRE としての活動をするにはマクロで動く必要がある
オブザーバビリティとかSLMも 進めていきたいなあ・・・
| © 2024 Levtech Co., Ltd. 27 EmbeddedSREの課題 EmbeddedSRE 運用課題の大きいチームはEmbeddedSREである程度解決で きたので、これからはマクロな動きをしていこう
レバテック開発部SREチーム発足
| © 2024 Levtech Co., Ltd. 29 集合! レバテック開発部SREチーム発足 EvangelistSRE1名+EmbeddedSREとして活動したメンバーで レバテックSREを結成(2023年9月)
| © 2024 Levtech Co., Ltd. 30 結成の目的 レバテック開発部SREチーム発足 開発部内において、横断的に活動できる状態を作り、生産性 やサービスの信頼性に寄与する活動をしていく
| © 2024 Levtech Co., Ltd. 31 結成時点での目標 レバテック開発部SREチーム発足 解散!! SREグループが解散して各チームで信頼性の管理と運用課題への効果的な取り組みができている状態を目指す
| © 2024 Levtech Co., Ltd. 32 すごくざっくりな組織図 レバテック開発部SREチーム発足 システム本部 SRE(主にインフラサポート)
レバテック開発部 hoge開発部 fuga開発部
| © 2024 Levtech Co., Ltd. 33 すごくざっくりな組織図 レバテック開発部SREチーム発足 システム本部 SRE(事業軸とは別で全社的な取り組み)
hoge開発部 fuga開発部 レバテックSRE サービスA サービスB サービスC サービスD レバテック開発部
| © 2024 Levtech Co., Ltd. 34 レバテック開発部が抱えていた課題 レバテック開発部SREチーム発足 • 障害対応
◦ 暗黙知が多くベテランに依存 ◦ 関係者への周知の遅れ ◦ 手作業によるミスが原因で障害になることも ◦ インフラメトリクスやエラーログによる検知でノイズが多い ◦ ユーザー影響を十分に検知できていない • インフラの自走運用 ◦ チームだけで運用完結できる状態ではない
| © 2024 Levtech Co., Ltd. 35 課題に対しての取り組み レバテック開発部SREチーム発足 • インフラ管理
◦ IaCとしてのTerraformへの共通化 ◦ ペアプロ/モブプロ/レビューによるイネイブリング • インシデント対応の整備 ◦ 障害報告のワークフロー化 ▪ 役割分担や何をするべきなのかを明確にする意図 • ポストモーテムの布教 ◦ 障害発生時のポストモーテムの雛形作成 ◦ 各チームのポストモーテムに参加
| © 2024 Levtech Co., Ltd. 36 課題に対しての取り組み レバテック開発部SREチーム発足 • オブザーバビリティの導入
◦ 従来の監視で使用していたDatadogからNewrelicへの移行 ▪ (詳細はテックブログを参照) ◦ 勉強会や障害対応訓練の実施 ◦ 事例共有会を通した情報共有の機会作り • SLMの導入 ◦ SLO勉強会の実施 ◦ SLI/SLOの導入サポート
1年間の成果
| © 2024 Levtech Co., Ltd. 38 課題に対しての成果 レバテック開発部SREチーム発足 • インフラ管理
◦ 既存リソースに関しては各チームで運用できる状態に ◦ つきっきりではなく必要な場合に相談を受ける形で運用 • インシデント対応の整備 ◦ 開発部全体で障害の発生を把握できる状態 ◦ 緊急時にはチームをまたいだ連携が取れる ◦ マーケティングや営業などとのコミュニケーション漏れなく取れるように • ポストモーテムの布教 ◦ 障害から学ぶを文化にすることができた ◦ ドキュメントを残すことで開発部全体で学びに
| © 2024 Levtech Co., Ltd. 39 課題に対しての成果 レバテック開発部SREチーム発足 • オブザーバビリティの導入
◦ Newrelicへの移行完了 ◦ 各チームで独立して活用できる状態になっている ◦ 監視では把握しきれなかったユーザー影響の検知 ◦ ログに頼っていた障害対応からの脱却 ◦ メトリクス確認会の実施による問題の事前検知 • SLMの導入 ◦ 開発チームと協力して流入経路に対するSLI/SLOを設定 ◦ Newrelicを活用して8月から運用を開始 ◦ 今後SLOを活用しながら事業部と開発部の意思決定に活用し、適用範囲も広げて いく想定
これからの課題
| © 2024 Levtech Co., Ltd. 41 改善は進んだけど・・・ これからの課題 • マクロで物事を進めるとミクロの問題が気になってくる、SREチームとして
の関わり方の距離感を考えている ◦ 特定のチームだけオブザーバビリティの活用が進んでいない ◦ 特定のチームだけ障害多い ◦ これらの解消のためにSREチームとしてどのように関わるべきか ▪ 長期的にはサポートはしながらチームで運用できることが望ましい ▪ 一方で現状うまく行っておらず時間がかかっている ▪ この状態のままであることがリスクな場合も多い
| © 2024 Levtech Co., Ltd. 42 改善は進んだけど・・・ これからの課題 • ある程度チームへの移譲が進んだけど、どこまで任せるべきなのか
◦ インフラ周りはセキュリティやコストも関わってくる ◦ 最終目標は解散だったが、現時点ではガードレールにはならないと行けない ◦ 最終的にはチームで責任を持つべきなのか?
| © 2024 Levtech Co., Ltd. 43 改善は進んだけど・・・ これからの課題 • 事業のKPIとシステムの運用課題が結びついていないため、共通のSLO設定
が難しい ◦ 事業拡大のための運用の必要性を共通認識として持てるように ◦ 設定したSLOも改善を続けていく
| © 2024 Levtech Co., Ltd. 44 レバテック開発部におけるSREのあり方の再考 これからの課題 一般的なSREの定義に縛られず、レバテックのサービスの信頼性を高 め、価値を提供するためにやるべきことの再定義を行い続ける
| © 2024 Levtech Co., Ltd. 45 最後に これからの課題 皆さんのご意見聞かせてください!!