Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
1年 SRE をやって見えてきた SRE とプロダクト開発の関わり方
Search
Daigo HIROOKA
April 17, 2024
Technology
0
560
1年 SRE をやって見えてきた SRE とプロダクト開発の関わり方
ゆるSRE勉強会 #5 ~しくじりSRE - 俺みたいになるな!~(
https://yuru-sre.connpass.com/event/312943/)の
LT 資料
Daigo HIROOKA
April 17, 2024
Tweet
Share
More Decks by Daigo HIROOKA
See All by Daigo HIROOKA
機械学習を届ける視点 - Sansan & CADDiが語るSaaS R&DとML最前線
daigo0927
1
310
(機械学習システムでも) SLO から始める信頼性構築 - ゆる SRE#9 2025/02/21
daigo0927
0
450
Introducing "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
daigo0927
0
1.1k
GroupViT CVPR2022読み会スライド
daigo0927
0
1k
Mip-NeRF ICCV2021輪読会スライド
daigo0927
1
1.9k
Cloud WorkflowsによるMLワークフロー
daigo0927
2
710
CVPR2021読み会スライド
daigo0927
2
1k
RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
daigo0927
1
2.8k
Your_Classifier_is_Secretly_an_Energy_Based_Model_and_You_Should_Treat_It_Like_One.pdf
daigo0927
0
1.1k
Other Decks in Technology
See All in Technology
kubellが考える戦略と実行を繋ぐ活用ファーストのデータ分析基盤
kubell_hr
0
150
allow_retry と Arel.sql / allow_retry and Arel.sql
euglena1215
1
160
オブザーバビリティが広げる AIOps の世界 / The World of AIOps Expanded by Observability
aoto
PRO
0
320
[RSJ25] Feasible RAG: Hierarchical Multimodal Retrieval with Feasibility-Aware Embodied Memory for Mobile Manipulation
keio_smilab
PRO
0
120
クラウドセキュリティを支える技術と運用の最前線 / Cutting-edge Technologies and Operations Supporting Cloud Security
yuj1osm
2
300
RSCの時代にReactとフレームワークの境界を探る
uhyo
10
3.2k
2025年夏 コーディングエージェントを統べる者
nwiizo
0
120
La gouvernance territoriale des données grâce à la plateforme Terreze
bluehats
0
140
Snowflakeの生成AI機能を活用したデータ分析アプリの作成 〜Cortex AnalystとCortex Searchの活用とStreamlitアプリでの利用〜
nayuts
1
420
AWSで始める実践Dagster入門
kitagawaz
1
520
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
8.7k
自作JSエンジンに推しプロポーザルを実装したい!
sajikix
1
160
Featured
See All Featured
Navigating Team Friction
lara
189
15k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
36
2.5k
It's Worth the Effort
3n
187
28k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.9k
Bash Introduction
62gerente
615
210k
A Modern Web Designer's Workflow
chriscoyier
696
190k
The Language of Interfaces
destraynor
161
25k
The Pragmatic Product Professional
lauravandoore
36
6.9k
How GitHub (no longer) Works
holman
315
140k
The Cult of Friendly URLs
andyhume
79
6.6k
Visualization
eitanlees
148
16k
How STYLIGHT went responsive
nonsquared
100
5.8k
Transcript
ゆるSRE勉強会 #5 ~しくじりSRE - 俺みたいになるな!~ @daigo_hirooka 1年 SRE をやって見えてきた SRE
とプロダクト開発の関わり方
自己紹介 • 廣岡大吾 ◦ dhirooka (@daigo_hirooka) / X(Twitter) • キャディ株式会社
◦ 2022/12 - 23/3: MLOps Engineer として 図面解析システムの開発・運用など担当 ▪ 一時期 Embedded SRE を兼任 ◦ 2023/4 - now: Enabling SRE として 図面活用 SaaS Drawer の信頼性向上に向けて色々 ▪ 最近 SRE チームが1周年になりました🎉
あなたの SRE タイプは? SRE NEXT 2023 のアンケートボード SRE NEXT 公式アカウントの投稿より引用
Embedded SRE Enabling SRE Platform Engineering
今回のテーマ:二つの SRE タイプを振り返ってみる • キャディ株式会社 ◦ 2022/12 - 23/3: MLOps
Engineer として 図面解析システムの開発・運用など担当 ▪ 一時期 Embedded SRE を兼任 ◦ 2023/4 - now: Enabling SRE として 図面活用 SaaS Drawer の信頼性向上に向けて色々 二つの SRE タイプを踏まえて、どうすれば もっとうまく信頼性向上を推進できたか考えてみる
Embedded SRE at AI team:背景 • AI team の MLOps
エンジニアと、サブポジションとして Embedded SRE を兼任 • キャディにおける embedded SRE の役目と成り立ち ◦ スタートアップという環境下で、非機能要件設計やインフラ構築への配慮が薄くなりがち だったため、これらと強く結びついた役割として各チームで embedded SRE を任命 ◦ 社内の Platform Group が整備するポリシーやガイドラインの理解、チームへの展開も担当
Embedded SRE at AI team:成果と心残り • 図面解析の性能目標などの非機能要件整備や、関連するモニタリング整備、 platform group との連携窓口としては機能していた
• いわゆる「SRE」のプラクティス(非常時プレイブックの整備、計装の推進など)はまだまだ ◦ そもそも SRE の責任への知識が少なかった ◦ Embedded SRE として何をどこからやるべきか、の具体的な要件・優先順位が 明確でなかった ◦ そもそも AI team が提供する機能で、信頼性起因の課題が顕在化していなかった
Enabling SRE at SaaS Product:背景 • 図面活用 SaaS Drawer の専任
SRE チーム ◦ 他に検索チーム、非同期図面処理チームなどがマイクロサービス的に存在 • SRE チーム設立の背景 ◦ サービスローンチ後半年ほど経っており、インフラや信頼性にフォーカスするチームの 必要性が増していた ◦ SaaSのSREチームを立ち上げました - CADDi Tech Blog
Enabling SRE at SaaS Product:取り組み • チーム設立初期 ◦ インフラアップデート、サービスアカウントの整理、コストダッシュボードの構築など ◦
インフラや非機能要件周りで顕在化していた課題を拾いつつ、開発チームと Platform Group の連携窓口としても動いた ◦ ✅小粒でも見えやすい成果を作ることで、 Quick Win を得られた
Enabling SRE at SaaS Product:取り組み • Enabling SRE としての信頼性プラクティスの推進 ◦
SRE 本など読んだ上で、 SLI/SLO の構築やインシデント・オンコール対応整備など とっつきやすいところに順次着手 ◦ 頭数が少なかったので各チームエンジニアや PdM とのコミュニケーションを厚くした ▪ ✅信頼貯金+各チームの課題の解像度が上がって結果的に Good 👍
Enabling SRE at SaaS Product:最近の洞察 • 1年間の SRE チームとしてサービス全体の信頼性向上に取り組んだおかげで、 チーム/コンポーネント単位の課題の解像度が上がってきた
◦ 新規立ち上げプロダクトへの信頼性構築の支援 ◦ SLI/SLO のボトルネックへの重点的な分析、改善支援 ◦ インシデント調査時のボトルネック領域への改善支援 • 💡個別の課題が見えてきたタイミングで embedded SRE を設けると、やることが明確
• Enabling SRE ◦ SRE チームとして人を集約することで、優先度の高いタスクにフォーカスできる &ナレッジも集まる ◦ 関連チームや EM,
PdM とのコミュニケーションを厚くすることで、プロダクトにおける 信頼性の必要性や有用性を広めることができる。チーム単位の課題も見えてくる 二つの SRE タイプを踏まえて
• Embedded SRE ◦ 「SRE」としての役割を期待するなら、やるべき内容や目標の具体化が重要 ◦ 既に課題が顕在化している場合はそこから着手する ▪ パフォーマンスのボトルネック調査や改善が必要 ▪
アラートやインシデント対応時のプレイブック不足 ◦ フラットな状態から始める場合は SLI/SLO の計画からやるのが良さそう ▪ PdM やエンジニアチームで CUJ ディスカッション、監視や計装の強化 ▪ チーム内でのダッシュボード確認の習慣づけ ◦ SRE チームから一時的に派遣するような関わり方もありそう 二つの SRE タイプを踏まえて
• SRE ポジション/チームの構築は役割と目標をよく考えて進めよう • 参考 ◦ Books For Site Reliability
Engineering ◦ Embedded SRE at Mercari ◦ Embedded SREとは何か - SREの組織類型についての覚書 - chroju.dev ◦ SaaSのSREチームを立ち上げました - CADDi Tech Blog まとめ