Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2025年新卒エンジニア研修 SRE資料/202504-sre

2025年新卒エンジニア研修 SRE資料/202504-sre

2025年4月に実施した新卒エンジニア研修の資料です。
SRE(Site Reliability Engineering) 、日経の SRE の取り組み

More Decks by 日本経済新聞社 エンジニア採用事務局

Other Decks in Technology

Transcript

  1. 開発速度と信頼性 ソフトウェア開発の一般的な役割分担: 開発 (Development): 新機能の設計・実装 コードの変更・修正 主な関心事: 早く新しい価値を届けたい! 運用 (Operations):

    システムの安定稼働・監視 インフラの構築・管理 主な関心事: システムを止めずに安定させたい! 目標の違いから、時には対立 ("壁") が生まれることも… エンジニア新卒研修2025 - SRE 10
  2. DevOps 開発 (Dev) と 運用 (Ops) が協力する文化・プラクティス 目的: ビジネス価値を 迅速

    かつ 継続的 に、安定 して届ける。 文化: チーム間の壁を取り払い、コミュニケーションと協力を促進。 プラクティス: CI/CD パイプライン、自動テスト、Infrastructure as Code (IaC)、モニタリングなど。 エンジニア新卒研修2025 - SRE 12
  3. SRE と DevOps の関係 "Class SRE implements interface DevOps" (by

    Google) SREは、DevOpsの考え方を「信頼性」という視点で実践する具体的な方法 DevOps: 開発と運用が協力して、より良いサービスを作る 考え方 チーム間の壁をなくす 継続的に改善する SRE: DevOpsの考え方を実現する「信頼性」を中心とした 具体的な方法 信頼性を数値で計測し、全員の共通認識とする 手作業を自動化し、信頼性の高いシステム・プロセスを実現する 障害から継続的に学びを得る エンジニア新卒研修2025 - SRE 13
  4. 2. SREの基本原則 SREの活動を支える4つの重要な柱: 1. モニタリング (システムの声を聴く - SLO/SLI) 2. エラーバジェット

    (失敗を許容する考え方) 3. 自動化 (つまらない作業 = "トイル" をなくす) 4. インシデント管理 (失敗から学ぶ - 非難のないポストモーテム) エンジニア新卒研修2025 - SRE 15
  5. 原則1: モニタリング (Monitoring) システムの状態を継続的に計測・可視化すること。 なぜモニタリング?: システムの健康状態を知る (元気? 不調?) 問題を早期発見する (アラート)

    SLO (信頼性目標) が達成できているか測る データに基づいた判断をする (リリース判断、改善) 計測できないものは改善できない。まずは計測! エンジニア新卒研修2025 - SRE 16
  6. サービスレベル指標 / サービスレベル目標 サービスレベル指標: SLI (Service Level Indicator) 計測指標: サービスにおいて重要な側面を測る定量的な指標。

    ユーザー体験で重要なものは何か。 例: リクエスト成功率、レスポンスタイム サービスレベル目標: SLO (Service Level Objective) 目標値: SLIに対する内部的な目標 ユーザーの期待する信頼性のレベル (これを満たせばユーザーは満足するはずという値) 例: リクエスト成功率 > 99.9% エンジニア新卒研修2025 - SRE 17
  7. 原則2: エラーバジェット (Error Budget) 許容できる信頼性低下の量 = ユーザーが気にしない程度のダウンタイムやエラー。 計算例: SLO 99.9%

    → エラーバジェット 0.1% (月間約43分) 目的: 100%完璧を目指すのは高コストで非現実的。 エラーバジェットは 信頼性と開発速度 (新機能リリース) のバランスを取る指標。 予算が残っていれば、新しい挑戦 (リリース等) がしやすい。 予算が少なければ、信頼性改善を優先 (新機能リリースを控える)。 エラーバジェットは「ペナルティ」ではなく「開発のためのリスク許容量」 エンジニア新卒研修2025 - SRE 18
  8. 原則3: 自動化 (Automation) 手作業 (トイル) をコードに置き換えること。 トイル: 自動化可能で何度も実施する手作業、価値がスケールしない作業。 例: 月次の手動バックアップ、手動デプロイ、定型的な設定変更、手動テスト

    自動化の目的: 信頼性向上: ヒューマンエラー削減、一貫性確保。 効率化: 作業時間短縮 → 開発者はより創造的な作業へ。 迅速化: CI/CDによる素早いリリース。 面倒な繰り返し作業は、自動化できないか常に考えよう! エンジニア新卒研修2025 - SRE 19
  9. 原則4: インシデント管理 (Incident Management) インシデント (サービス停止や劣化) に迅速に対応し、復旧させ、再発を防止するプロセス。 前提: 複雑なシステムではインシデントは必ず起きる。 手段:

    インシデント対応マニュアルの策定 インシデント後のふりかえり (ポストモーテム) 目的: 発生時の影響を最小限に (MTTR短縮)。 根本原因を理解し、学びを得て改善する。 エンジニア新卒研修2025 - SRE 20
  10. 3. 開発プロセスとSRE 信頼性は、開発ライフサイクルの全フェーズで考慮されるべき品質特性。 設計: SLO定義、耐障害性、モニタリング容易性、安全なデプロイ方法 実装: 適切なログ、エラーハンドリング、パフォーマンス、テスト容易性 テスト: 負荷テスト、カオスエンジニアリング、自動化 デプロイ:

    CI/CD、ロールバック計画、段階的リリース 運用: モニタリング、アラート対応、インシデント分析、改善 システムに「あとで信頼性を足す」のは難しい。最初から考えよう! エンジニア新卒研修2025 - SRE 22
  11. まとめ なぜSREが必要? 開発速度と信頼性の両立のため。 データ(SLO等)とDevOpsで実現。 SREの基本原則は? 4つの柱 モニタリング, エラーバジェット, 自動化, インシデント管理。

    何を意識する? ユーザー視点で信頼性を考える。データで判断し、全員で責任を持つ。開発全段階で意識し、 継続的に改善。 この講義で得た知識・視点を、これからの業務に活かしてみてください! エンジニア新卒研修2025 - SRE 28