Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SREチームの立ち上げから1年の取り組みとこれからの課題
Search
Tech Leverages
August 25, 2024
Technology
1
2.3k
SREチームの立ち上げから1年の取り組みとこれからの課題
# SRE meetup 〜サービス事業会社のSREが向き合う課題〜
レバレジーズ(株) / 金澤 伸行 SREチームの立ち上げから1年の取り組みとこれからの課題
Tech Leverages
August 25, 2024
Tweet
Share
More Decks by Tech Leverages
See All by Tech Leverages
理想のパスワードは?
leveragestech
0
20
データエンジニアとしてのキャリア戦略 〜これからの挑戦〜
leveragestech
0
78
ドメインロジックで考えるテスタビリティ
leveragestech
1
310
専門領域に特化したチームの挑戦
leveragestech
0
430
もう一度、 事業を支えるシステムに。
leveragestech
6
4.1k
ログに対する誤解とベストプラクティス
leveragestech
0
600
We Are PdE!! 〜高価値なプロダクトを作れるようになるための勉強会〜
leveragestech
1
1.1k
Prisma Typed SQLのススメ
leveragestech
1
200
今日から始める技術的負債の解消
leveragestech
4
560
Other Decks in Technology
See All in Technology
デジタルアイデンティティ人材育成推進ワーキンググループ 翻訳サブワーキンググループ 活動報告 / 20250114-OIDF-J-EduWG-TranslationSWG
oidfj
0
110
Zero Data Loss Autonomous Recovery Service サービス概要
oracle4engineer
PRO
1
5k
Opcodeを読んでいたら何故かphp-srcを読んでいた話
murashotaro
0
360
20240522 - 躍遷創作理念 @ PicCollage Workshop
dpys
0
310
エンジニアリングマネージャー視点での、自律的なスケーリングを実現するFASTという選択肢 / RSGT2025
yoshikiiida
4
2.8k
「完全に理解したTalk」完全に理解した
segavvy
1
270
3年でバックエンドエンジニアが5倍に増えても破綻しなかったアーキテクチャ そして、これから / Software architecture that scales even with a 5x increase in backend engineers in 3 years
euglena1215
11
4.3k
20241228 - 成為最強魔法使!AI 實時生成比賽的策略 @ 2024 SD AI 年會
dpys
0
340
大規模言語モデルとそのソフトウェア開発に向けた応用 (2024年版)
kazato
2
450
終了の危機にあった15年続くWebサービスを全力で存続させる - phpcon2024
yositosi
28
25k
PHPerのための計算量入門/Complexity101 for PHPer
hanhan1978
6
1.5k
OCI技術資料 : ファイル・ストレージ 概要
ocise
3
12k
Featured
See All Featured
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
112
50k
Visualization
eitanlees
146
15k
[RailsConf 2023] Rails as a piece of cake
palkan
53
5.1k
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
Fantastic passwords and where to find them - at NoRuKo
philnash
50
2.9k
Java REST API Framework Comparison - PWX 2021
mraible
28
8.3k
Being A Developer After 40
akosma
89
590k
The Pragmatic Product Professional
lauravandoore
32
6.4k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
19
2.3k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
3
340
Keith and Marios Guide to Fast Websites
keithpitt
410
22k
Transcript
SREチームの立ち上げ から1年の取り組みと これからの課題 レバレジーズ株式会社 システム本部 / レバテック開発部 / レバテックSRE 金澤伸行
| © 2024 Levtech Co., Ltd. 2 システム本部 / レバテック開発部 /
レバテックSRE 金澤 伸行 NOBUYUKI KANAZAWA 社内での経歴 • 2022年9月 入社 • 2022年9月〜 社内業務システム開発 • 2023年3月〜 EmbeddedSREと兼任開始 • 2024年9月〜 レバテックSREチーム発足 海外サッカーとピザが好きです 最近サイクリングにハマりました 実は初の外部登壇で緊張しています
| © 2024 Levtech Co., Ltd. 3 システム本部 / レバテック開発部 /
レバテックSRE 金澤 伸行 NOBUYUKI KANAZAWA 社内での経歴 • 2022年9月 入社 • 2022年9月〜 社内業務システム開発 • 2023年3月〜 EmbeddedSREと兼任開始 • 2024年9月〜 レバテックSREチーム発足 ここでの取り組みについてお話します!
| © 2024 Levtech Co., Ltd. 4 事業ポートフォリオ レバテックについて エージェント プログラミング
スクール コンテンツ メディア プラット フォーム ダイレクト リクルーティング ITエンジニア・クリエイターの フリーランス・転職・就職・教育の すべてを備える採用プラットフォーム エージェントを中心に、求人媒体、 プログラミング教育まで IT専門職のキャリアを厚くサポート。
| © 2024 Levtech Co., Ltd. 5 1. SREチーム立ち上げ前のお話 2. EmbeddedSRE
3. レバテック開発部SREチーム発足 4. 1年間の成果 5. これからの課題 目次 INDEX
SREチーム立ち上げ前のお話・・・
| © 2024 Levtech Co., Ltd. 7 実は・・・ SREチーム立ち上げ前のお話・・・ SREチームは既に存在していました
| © 2024 Levtech Co., Ltd. 8 当時のすごくざっくりな組織図 SREチーム立ち上げ前のお話・・・ システム本部 SRE(主にインフラサポート)
レバテック開発部 hoge開発部 fuga開発部
| © 2024 Levtech Co., Ltd. 9 当時のすごくざっくりな組織図 SREチーム立ち上げ前のお話・・・ システム本部 SRE(主にインフラサポート)
レバテック開発部 hoge開発部 fuga開発部 MySQLのバージョンアップ メンテナンス 障害対応 障害対応 メンテナンス MySQLのバージョンアップ
| © 2024 Levtech Co., Ltd. 10 お悩み SREチーム立ち上げ前のお話・・・ サービスの規模拡大にともない各開発部も抱えるシステムが増え、社内 全てのサービスをSREだけで管理することが難しくなっていった
| © 2024 Levtech Co., Ltd. 11 お悩み SREチーム立ち上げ前のお話・・・ SRE 管理しきれない・・・
事業との調整やドメイン理解までは手が出せない・・
| © 2024 Levtech Co., Ltd. 12 お悩み SREチーム立ち上げ前のお話・・・ 開発チーム インフラはよくわからんし待つしかできない・・・
インフラ以外にも解消したい運用課題はあるけ ど機能開発で精一杯・・・
| © 2024 Levtech Co., Ltd. 13 お悩み SREチーム立ち上げ前のお話・・・ インフラ管理の課題解消と、事業と開発の課題感のすり合わせが必要
EmbeddedSRE
| © 2024 Levtech Co., Ltd. 15 Embedded SRE始動 EmbeddedSRE 大きなシステム運用課題を持つチームにSRE人材を配置し
て、開発チームの近くでSREとして動ける体制を作ろう
| © 2024 Levtech Co., Ltd. 16 Embedded SRE始動 EmbeddedSRE
| © 2024 Levtech Co., Ltd. 17 Embedded SRE始動 EmbeddedSRE なんかよさそう!
| © 2024 Levtech Co., Ltd. 18 Embedded SRE始動 EmbeddedSRE でも誰がやるの?
| © 2024 Levtech Co., Ltd. 19 Embedded SRE始動 EmbeddedSRE 採用してドメイン理解してもらうか、
ドメイン理解のある人をSREに育てるか
| © 2024 Levtech Co., Ltd. 20 Embedded SRE始動 EmbeddedSRE 採用してドメイン理解してもらうか、
ドメイン理解のある人をSREに育てるか
| © 2024 Levtech Co., Ltd. 21 Embedded SRE始動 EmbeddedSRE 対象は運用課題が多いシステムに絞り、技術的(イ
ンフラ)問題をまず解決する
| © 2024 Levtech Co., Ltd. 22 Embedded SREとしての活動 EmbeddedSRE •
育成観点 ◦ 読書課題 ▪ 社内勉強会として内容を共有する時間を設ける ◦ 現在稼働しているサービスのインフラ構成を再現する • 業務観点(3ヶ月1セット) ◦ 課題として挙げられているタスクの対応(1ヶ月) ▪ IaC化および推進 • Ansible • Terraform ▪ CICDの構築 ▪ モニタリング体制の整備 ◦ 各チームに戻り運用課題を抽出して解決する(2ヶ月) ▪ 所属チームへの共有も行う
| © 2024 Levtech Co., Ltd. 23 Embedded SREを半年ほどやってみて・・・ EmbeddedSRE アプリケーションとインフラの管理が分かれてい
たことで、見えていなかった課題が見えてくる バッチ処理を実行してるインスタンスはスペック上げてるけど負荷分 散の設定が良くなくてリソース持て余しているな・・・
| © 2024 Levtech Co., Ltd. 24 Embedded SREを半年ほどやってみて・・・ EmbeddedSRE 作業やインフラがコード化されることで誰でも見
れば何をしているかわかる状態に Apacheの設定めっちゃ環境差分あるやん・・・ リリースがワークフローに実行でできるようになったので作業手順書 がいらなくなりました
| © 2024 Levtech Co., Ltd. 25 EmbeddedSREの課題 EmbeddedSRE 他のチームにも導入していきたいがEmbeddedの形だと 現時点ではどうしてもリソースが足りない
| © 2024 Levtech Co., Ltd. 26 EmbeddedSREの課題 EmbeddedSRE 各チームのミクロな問題解決はできる一方、踏み込んだSRE としての活動をするにはマクロで動く必要がある
オブザーバビリティとかSLMも 進めていきたいなあ・・・
| © 2024 Levtech Co., Ltd. 27 EmbeddedSREの課題 EmbeddedSRE 運用課題の大きいチームはEmbeddedSREである程度解決で きたので、これからはマクロな動きをしていこう
レバテック開発部SREチーム発足
| © 2024 Levtech Co., Ltd. 29 集合! レバテック開発部SREチーム発足 EvangelistSRE1名+EmbeddedSREとして活動したメンバーで レバテックSREを結成(2023年9月)
| © 2024 Levtech Co., Ltd. 30 結成の目的 レバテック開発部SREチーム発足 開発部内において、横断的に活動できる状態を作り、生産性 やサービスの信頼性に寄与する活動をしていく
| © 2024 Levtech Co., Ltd. 31 結成時点での目標 レバテック開発部SREチーム発足 解散!! SREグループが解散して各チームで信頼性の管理と運用課題への効果的な取り組みができている状態を目指す
| © 2024 Levtech Co., Ltd. 32 すごくざっくりな組織図 レバテック開発部SREチーム発足 システム本部 SRE(主にインフラサポート)
レバテック開発部 hoge開発部 fuga開発部
| © 2024 Levtech Co., Ltd. 33 すごくざっくりな組織図 レバテック開発部SREチーム発足 システム本部 SRE(事業軸とは別で全社的な取り組み)
hoge開発部 fuga開発部 レバテックSRE サービスA サービスB サービスC サービスD レバテック開発部
| © 2024 Levtech Co., Ltd. 34 レバテック開発部が抱えていた課題 レバテック開発部SREチーム発足 • 障害対応
◦ 暗黙知が多くベテランに依存 ◦ 関係者への周知の遅れ ◦ 手作業によるミスが原因で障害になることも ◦ インフラメトリクスやエラーログによる検知でノイズが多い ◦ ユーザー影響を十分に検知できていない • インフラの自走運用 ◦ チームだけで運用完結できる状態ではない
| © 2024 Levtech Co., Ltd. 35 課題に対しての取り組み レバテック開発部SREチーム発足 • インフラ管理
◦ IaCとしてのTerraformへの共通化 ◦ ペアプロ/モブプロ/レビューによるイネイブリング • インシデント対応の整備 ◦ 障害報告のワークフロー化 ▪ 役割分担や何をするべきなのかを明確にする意図 • ポストモーテムの布教 ◦ 障害発生時のポストモーテムの雛形作成 ◦ 各チームのポストモーテムに参加
| © 2024 Levtech Co., Ltd. 36 課題に対しての取り組み レバテック開発部SREチーム発足 • オブザーバビリティの導入
◦ 従来の監視で使用していたDatadogからNewrelicへの移行 ▪ (詳細はテックブログを参照) ◦ 勉強会や障害対応訓練の実施 ◦ 事例共有会を通した情報共有の機会作り • SLMの導入 ◦ SLO勉強会の実施 ◦ SLI/SLOの導入サポート
1年間の成果
| © 2024 Levtech Co., Ltd. 38 課題に対しての成果 レバテック開発部SREチーム発足 • インフラ管理
◦ 既存リソースに関しては各チームで運用できる状態に ◦ つきっきりではなく必要な場合に相談を受ける形で運用 • インシデント対応の整備 ◦ 開発部全体で障害の発生を把握できる状態 ◦ 緊急時にはチームをまたいだ連携が取れる ◦ マーケティングや営業などとのコミュニケーション漏れなく取れるように • ポストモーテムの布教 ◦ 障害から学ぶを文化にすることができた ◦ ドキュメントを残すことで開発部全体で学びに
| © 2024 Levtech Co., Ltd. 39 課題に対しての成果 レバテック開発部SREチーム発足 • オブザーバビリティの導入
◦ Newrelicへの移行完了 ◦ 各チームで独立して活用できる状態になっている ◦ 監視では把握しきれなかったユーザー影響の検知 ◦ ログに頼っていた障害対応からの脱却 ◦ メトリクス確認会の実施による問題の事前検知 • SLMの導入 ◦ 開発チームと協力して流入経路に対するSLI/SLOを設定 ◦ Newrelicを活用して8月から運用を開始 ◦ 今後SLOを活用しながら事業部と開発部の意思決定に活用し、適用範囲も広げて いく想定
これからの課題
| © 2024 Levtech Co., Ltd. 41 改善は進んだけど・・・ これからの課題 • マクロで物事を進めるとミクロの問題が気になってくる、SREチームとして
の関わり方の距離感を考えている ◦ 特定のチームだけオブザーバビリティの活用が進んでいない ◦ 特定のチームだけ障害多い ◦ これらの解消のためにSREチームとしてどのように関わるべきか ▪ 長期的にはサポートはしながらチームで運用できることが望ましい ▪ 一方で現状うまく行っておらず時間がかかっている ▪ この状態のままであることがリスクな場合も多い
| © 2024 Levtech Co., Ltd. 42 改善は進んだけど・・・ これからの課題 • ある程度チームへの移譲が進んだけど、どこまで任せるべきなのか
◦ インフラ周りはセキュリティやコストも関わってくる ◦ 最終目標は解散だったが、現時点ではガードレールにはならないと行けない ◦ 最終的にはチームで責任を持つべきなのか?
| © 2024 Levtech Co., Ltd. 43 改善は進んだけど・・・ これからの課題 • 事業のKPIとシステムの運用課題が結びついていないため、共通のSLO設定
が難しい ◦ 事業拡大のための運用の必要性を共通認識として持てるように ◦ 設定したSLOも改善を続けていく
| © 2024 Levtech Co., Ltd. 44 レバテック開発部におけるSREのあり方の再考 これからの課題 一般的なSREの定義に縛られず、レバテックのサービスの信頼性を高 め、価値を提供するためにやるべきことの再定義を行い続ける
| © 2024 Levtech Co., Ltd. 45 最後に これからの課題 皆さんのご意見聞かせてください!!