Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
駆け出しSREが半年で作り上げた仕組みと学びのまとめ
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Shogo Fukami
November 17, 2025
0
260
駆け出しSREが半年で作り上げた仕組みと学びのまとめ
Shogo Fukami
November 17, 2025
Tweet
Share
More Decks by Shogo Fukami
See All by Shogo Fukami
堅牢なフロントエンドテスト基盤を構築するために行った取り組み
shogo4131
9
3.1k
フロントエンド UIコンポーネント Shadcn/uiの良さを伝えたい!
shogo4131
0
270
本業 + 副業2社で働くエンジニアの時間術
shogo4131
0
250
スタートアップで学ぶフルリモート開発の進め方
shogo4131
0
590
フリーランスエンジニア辞めてみた!
shogo4131
0
660
Jotaiをプロジェクトに導入してみた
shogo4131
0
97
MUIは不要? React次世代コンポーネントライブラリ Mantine!!!
shogo4131
0
190
Featured
See All Featured
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
170
Side Projects
sachag
455
43k
How to Talk to Developers About Accessibility
jct
2
130
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
The Spectacular Lies of Maps
axbom
PRO
1
520
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
79
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Stop Working from a Prison Cell
hatefulcrawdad
273
21k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.1k
Everyday Curiosity
cassininazir
0
130
Code Review Best Practice
trishagee
74
20k
Transcript
駆け出しSREが半年で作り上げた 仕組みと学びのまとめ Shogo Fukami
⾃⼰紹介 名前: Shogo Fukami 所属: 株式会社カナリー 役割: テクニカルリードエンジニア(テックリード) 趣味: 週2で温泉‧サウナ
温泉ソムリエ認定 X: @react_nextjs
「SLO / SLIを策定して運⽤してください。」 「アラートの仕組みを作ってください。」
アプリケーションエンジニアの僕 「何それ美味しいの?」 状態でした
意識することなくSREのキャリアをスタートしました
課題 SLO/SLI: そもそもアプリケーションの信頼性が測れない ‧何をもって「OK」なのか基準が不明確 アラート基盤: 障害を正しく検知できない / ノイズ多い ‧「狼少年」状態のアラート →
本当の障害を⾒逃すリスク 影響 サービスの品質レベルが不明、事故の⾒逃し or アラート疲れ、
やったこと(SLO/SLI基盤) SLI定義 Datadogでの実装 SLO算出⽅法の整備 成功リクエスト率 レイテンシ Web Core Vitals エラー率
エラーバジェットアラート バーンレートアラート ダッシュボード作成 ローリング/カレンダーウィンドウ エラー予算管理
難しかったこと(SLO/SLI) PdMとのSLI/SLOの合意形成が難しい サービスレベルの⽬線合わせの必要性 対応: 反復的なアプローチで解決 ビジネス価値 ≒ お客様体験 ≒ 技術指標
① 定義候補 → ② サンプル可視化 → ③ ⼩さく運⽤ → ④ ⾒直し
やったこと(アラート基盤構築) 既存アラート棚卸しとノイズ削減 (重複‧無効‧閾値⾒直し) SentryとDatadogをDatadogに⼀本化 (集約/運⽤負荷軽減) Datadog Workflow AutomationでAIを使⽤した⼀次対応 フロー整備
難しかったこと(アラート基盤) フロントエンドのアラートは多変数: ブラウザ/OS/Bot/JSランタイムなど⼀次調査が⼤変でした 対応: Workflow AutomationでAI化調査を挟み、再現条件/影響範囲を⾃動要約 効果: 調査時間短縮、誤検知削減、優先度付けが明確に
半年で得た学び アプリケーション開発と違いSREは守りの分野だが、事業の速度を⽀える攻めの基盤でもある エンジニアを5年ぐらいやってると未経験の分野でも⼀定以上の成果は出せる いいサービスを継続していくにしてもSREの領域はアプリケーションエンジニアでも⼀度は経験し た⽅が良い
まとめ / Thank you 計測 → 合意 → ⾃動化で 「⾒える化」と「静かな運⽤」を実現
次の⼀歩: 皆さんのサービスでも SLI定義から始めてみてください ご清聴ありがとうございました