Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
駆け出しSREが半年で作り上げた仕組みと学びのまとめ
Search
Shogo Fukami
November 17, 2025
350
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
駆け出しSREが半年で作り上げた仕組みと学びのまとめ
Shogo Fukami
November 17, 2025
More Decks by Shogo Fukami
See All by Shogo Fukami
堅牢なフロントエンドテスト基盤を構築するために行った取り組み
shogo4131
10
3.9k
フロントエンド UIコンポーネント Shadcn/uiの良さを伝えたい!
shogo4131
0
310
本業 + 副業2社で働くエンジニアの時間術
shogo4131
0
270
スタートアップで学ぶフルリモート開発の進め方
shogo4131
0
630
フリーランスエンジニア辞めてみた!
shogo4131
0
700
Jotaiをプロジェクトに導入してみた
shogo4131
0
120
MUIは不要? React次世代コンポーネントライブラリ Mantine!!!
shogo4131
0
220
Featured
See All Featured
Building Applications with DynamoDB
mza
96
7.1k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
2
580
Crafting Experiences
bethany
1
180
The SEO identity crisis: Don't let AI make you average
varn
0
490
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
870
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
ラッコキーワード サービス紹介資料
rakko
1
3.7M
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
200
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
490
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
310
Transcript
駆け出しSREが半年で作り上げた 仕組みと学びのまとめ Shogo Fukami
⾃⼰紹介 名前: Shogo Fukami 所属: 株式会社カナリー 役割: テクニカルリードエンジニア(テックリード) 趣味: 週2で温泉‧サウナ
温泉ソムリエ認定 X: @react_nextjs
「SLO / SLIを策定して運⽤してください。」 「アラートの仕組みを作ってください。」
アプリケーションエンジニアの僕 「何それ美味しいの?」 状態でした
意識することなくSREのキャリアをスタートしました
課題 SLO/SLI: そもそもアプリケーションの信頼性が測れない ‧何をもって「OK」なのか基準が不明確 アラート基盤: 障害を正しく検知できない / ノイズ多い ‧「狼少年」状態のアラート →
本当の障害を⾒逃すリスク 影響 サービスの品質レベルが不明、事故の⾒逃し or アラート疲れ、
やったこと(SLO/SLI基盤) SLI定義 Datadogでの実装 SLO算出⽅法の整備 成功リクエスト率 レイテンシ Web Core Vitals エラー率
エラーバジェットアラート バーンレートアラート ダッシュボード作成 ローリング/カレンダーウィンドウ エラー予算管理
難しかったこと(SLO/SLI) PdMとのSLI/SLOの合意形成が難しい サービスレベルの⽬線合わせの必要性 対応: 反復的なアプローチで解決 ビジネス価値 ≒ お客様体験 ≒ 技術指標
① 定義候補 → ② サンプル可視化 → ③ ⼩さく運⽤ → ④ ⾒直し
やったこと(アラート基盤構築) 既存アラート棚卸しとノイズ削減 (重複‧無効‧閾値⾒直し) SentryとDatadogをDatadogに⼀本化 (集約/運⽤負荷軽減) Datadog Workflow AutomationでAIを使⽤した⼀次対応 フロー整備
難しかったこと(アラート基盤) フロントエンドのアラートは多変数: ブラウザ/OS/Bot/JSランタイムなど⼀次調査が⼤変でした 対応: Workflow AutomationでAI化調査を挟み、再現条件/影響範囲を⾃動要約 効果: 調査時間短縮、誤検知削減、優先度付けが明確に
半年で得た学び アプリケーション開発と違いSREは守りの分野だが、事業の速度を⽀える攻めの基盤でもある エンジニアを5年ぐらいやってると未経験の分野でも⼀定以上の成果は出せる いいサービスを継続していくにしてもSREの領域はアプリケーションエンジニアでも⼀度は経験し た⽅が良い
まとめ / Thank you 計測 → 合意 → ⾃動化で 「⾒える化」と「静かな運⽤」を実現
次の⼀歩: 皆さんのサービスでも SLI定義から始めてみてください ご清聴ありがとうございました