2025年新卒エンジニア研修 SRE資料/202504-sre

Site Reliability Engineering (SRE) 日本経済新聞社エンジニア新卒研修 2025 エンジニアとして、システムの信頼性をどう考え、どう実践するか？エンジニア新卒研修2025 -
SRE 1

本日のゴール SREがなぜ必要とされているのかを理解する。 SREの基本的な考え方 (原則) を知る。これからの仕事で意識すべきことを知る。エンジニア新卒研修2025 - SRE 2

アジェンダ 1. SREとは？ 2. SREの基本原則 3. 開発プロセスとSRE 4. SREを支える文化 5.
まとめエンジニア新卒研修2025 - SRE 3

SRE って聞いたことありますか？エンジニア新卒研修2025 - SRE 4

SREとは - Site Reliability Engineering ソフトウェアエンジニアリングの手法を運用に適用し、スケーラブルで信頼性の高いシステムを構築・運用するアプローチ。エンジニア新卒研修2025 - SRE
5

SREのコアコンセプト「SREとは、ソフトウェアエンジニアに運用チームを設計させたらどうなるか、ということだ」 Ben Treynor Sloss (Google SRE創設者) 開発者自身がシステムの信頼性に責任を持つ文化へ。手作業ではなく、エンジニアリング (自動化、ツール開発)
で運用課題を解決する。エンジニア新卒研修2025 - SRE 6

「信頼性」とは？ユーザーが期待する水準を満たし続けること単なる「稼働率 (Uptime; どれだけの時間稼働しているか)」だけではない。レイテンシ、エラー率、スループット、可用性など、ユーザー体験に関わる様々な側面を含む。たとえば、日経電子版で言えば、、、ユーザが記事を読みたいときに読める
記事が1秒以内に表示されるなどエンジニア新卒研修2025 - SRE 7

SRE が必要となった背景エンジニア新卒研修2025 - SRE 8

変化するシステムと運用の課題システムの複雑化・大規模化: マイクロサービス、クラウド、分散システム… リリースサイクルの高速化要求: ビジネスの変化に素早く対応したい！従来の運用アプローチの限界: 手作業によるミスや遅延変化への追従が困難 (スケーラビリティ問題) システムの「信頼性」と「開発速度」の両立が大きな課題に。
エンジニア新卒研修2025 - SRE 9

開発速度と信頼性ソフトウェア開発の一般的な役割分担: 開発 (Development): 新機能の設計・実装コードの変更・修正主な関心事: 早く新しい価値を届けたい！運用 (Operations):
システムの安定稼働・監視インフラの構築・管理主な関心事: システムを止めずに安定させたい！目標の違いから、時には対立 ("壁") が生まれることも… エンジニア新卒研修2025 - SRE 10

開発と運用チームの対立による問題チーム間の「壁」が引き起こす具体的な課題: 開発の遅延: 運用チームの承認待ちや複雑なデプロイ手順により、機能リリースが遅れ、ビジネス機会を損失する。責任の押し付け合い: 問題発生時に互いに責任を押し付け合い、根本原因の特定と解決が遅れる。知識の分断: 開発者は運用の課題を理解せず、運用は開発の意図を理解できず、技術的負債と運用コストが増大する。
モチベーションの低下: 互いの仕事への理解不足から尊重し合えず、チーム間のコミュニケーションと協力が減少する。このような問題が、ビジネス価値の提供を妨げる要因に。エンジニア新卒研修2025 - SRE 11

DevOps 開発 (Dev) と運用 (Ops) が協力する文化・プラクティス目的: ビジネス価値を迅速
かつ継続的に、安定して届ける。文化: チーム間の壁を取り払い、コミュニケーションと協力を促進。プラクティス: CI/CD パイプライン、自動テスト、Infrastructure as Code (IaC)、モニタリングなど。エンジニア新卒研修2025 - SRE 12

SRE と DevOps の関係 "Class SRE implements interface DevOps" (by
Google) SREは、DevOpsの考え方を「信頼性」という視点で実践する具体的な方法 DevOps: 開発と運用が協力して、より良いサービスを作る考え方チーム間の壁をなくす継続的に改善する SRE: DevOpsの考え方を実現する「信頼性」を中心とした具体的な方法信頼性を数値で計測し、全員の共通認識とする手作業を自動化し、信頼性の高いシステム・プロセスを実現する障害から継続的に学びを得るエンジニア新卒研修2025 - SRE 13

なぜSREを学ぶのか？信頼性は全員が意識すべきこと SREは特定のチームだけでなく、すべてのエンジニアがユーザーに価値を届けるために必要な考え方。最初に学ぶことで、品質を意識した開発の基礎ができる。ユーザー視点を身につける信頼性とはユーザーの満足度。SREは、ユーザーが本当に求めていること（速度、安定性など）をデータで捉え、改善する視点を養う。システム全体で考える力自分のコードがシステム全体、そしてユーザー体験にどう影響するかを理解する助けになる。問題解決の視野も広がる。

2. SREの基本原則 SREの活動を支える4つの重要な柱: 1. モニタリング (システムの声を聴く - SLO/SLI) 2. エラーバジェット
(失敗を許容する考え方) 3. 自動化 (つまらない作業 = "トイル" をなくす) 4. インシデント管理 (失敗から学ぶ - 非難のないポストモーテム) エンジニア新卒研修2025 - SRE 15

原則1: モニタリング (Monitoring) システムの状態を継続的に計測・可視化すること。なぜモニタリング？: システムの健康状態を知る (元気？不調？) 問題を早期発見する (アラート)
SLO (信頼性目標) が達成できているか測るデータに基づいた判断をする (リリース判断、改善) 計測できないものは改善できない。まずは計測！エンジニア新卒研修2025 - SRE 16

サービスレベル指標 / サービスレベル目標サービスレベル指標: SLI (Service Level Indicator) 計測指標: サービスにおいて重要な側面を測る定量的な指標。
ユーザー体験で重要なものは何か。例: リクエスト成功率、レスポンスタイムサービスレベル目標: SLO (Service Level Objective) 目標値: SLIに対する内部的な目標ユーザーの期待する信頼性のレベル (これを満たせばユーザーは満足するはずという値) 例: リクエスト成功率 > 99.9% エンジニア新卒研修2025 - SRE 17

原則2: エラーバジェット (Error Budget) 許容できる信頼性低下の量 = ユーザーが気にしない程度のダウンタイムやエラー。計算例: SLO 99.9%
→ エラーバジェット 0.1% (月間約43分) 目的: 100%完璧を目指すのは高コストで非現実的。エラーバジェットは信頼性と開発速度 (新機能リリース) のバランスを取る指標。予算が残っていれば、新しい挑戦 (リリース等) がしやすい。予算が少なければ、信頼性改善を優先 (新機能リリースを控える)。エラーバジェットは「ペナルティ」ではなく「開発のためのリスク許容量」エンジニア新卒研修2025 - SRE 18

原則3: 自動化 (Automation) 手作業 (トイル) をコードに置き換えること。トイル: 自動化可能で何度も実施する手作業、価値がスケールしない作業。例: 月次の手動バックアップ、手動デプロイ、定型的な設定変更、手動テスト
自動化の目的: 信頼性向上: ヒューマンエラー削減、一貫性確保。効率化: 作業時間短縮 → 開発者はより創造的な作業へ。迅速化: CI/CDによる素早いリリース。面倒な繰り返し作業は、自動化できないか常に考えよう！エンジニア新卒研修2025 - SRE 19

原則4: インシデント管理 (Incident Management) インシデント (サービス停止や劣化) に迅速に対応し、復旧させ、再発を防止するプロセス。前提: 複雑なシステムではインシデントは必ず起きる。手段:
インシデント対応マニュアルの策定インシデント後のふりかえり (ポストモーテム) 目的: 発生時の影響を最小限に (MTTR短縮)。根本原因を理解し、学びを得て改善する。エンジニア新卒研修2025 - SRE 20

ポストモーテムインシデント後に実施する振り返り分析。目的: 学習と改善 (犯人探しではない！) 重要な文化: Blameless (非難しない) 個人ではなく、システムやプロセスの問題に焦点を当てる。「なぜそのミスが起こり得る状況だったか？」を問う。
成果物: 具体的な再発防止策 (アクションアイテム)。失敗は最大の学びの機会。オープンに議論できる文化が重要。エンジニア新卒研修2025 - SRE 21

3. 開発プロセスとSRE 信頼性は、開発ライフサイクルの全フェーズで考慮されるべき品質特性。設計: SLO定義、耐障害性、モニタリング容易性、安全なデプロイ方法実装: 適切なログ、エラーハンドリング、パフォーマンス、テスト容易性テスト: 負荷テスト、カオスエンジニアリング、自動化デプロイ:
CI/CD、ロールバック計画、段階的リリース運用: モニタリング、アラート対応、インシデント分析、改善システムに「あとで信頼性を足す」のは難しい。最初から考えよう！エンジニア新卒研修2025 - SRE 22

4. SREを支える文化技術やプロセスだけでは不十分。文化が成功の鍵。心理的安全性失敗を学びに変える文化実験と改善の文化データに基づく意思決定エンジニア新卒研修2025 - SRE
23

心理的安全性チームメンバーが安心して発言・挑戦できる状態。具体例: インシデント時に「私のミスかもしれません」と正直に言えるコードレビューで「この実装は不安です」と指摘できる新しい技術の導入を「試してみたい」と提案できる自分の知識の不足を認め、「教えてください」と言える「おかしい」と言える、「やってみよう」と言える環境が重要。

失敗を学びに変える文化失敗を非難せず、学びの機会と捉える。具体例: インシデントやバグを「誰のせい」ではなく「なぜ起きたか」に焦点を当てる「ヒューマンエラー」という言葉を使わない（システムやプロセスの問題として捉える）失敗を隠さず、共有して学び合う小さな失敗を早期に発見・共有し、大きな問題を防ぐ失敗は学びの機会。個人ではなく、システムやプロセスの問題に焦点を当てる。エンジニア新卒研修2025 -
SRE 25

実験と改善の文化小さな失敗を恐れず、継続的に改善を試みる。具体例: カナリアリリースやA/Bテストを積極的に行う改善案を小さく試し、効果を測る失敗から学び、次の改善に活かす技術選定に「完璧」を求めず、実践を通じて学ぶ定期的な振り返り（レトロスペクティブ）で改善点を見つけるエラーバジェットがあると実験を試みやすい完璧を目指すのではなく、小さな改善を積み重ねていく

データに基づく意思決定感情や直感ではなく、データに基づいて判断する。具体例: パフォーマンス問題は「遅い」という感覚ではなく、メトリクスで判断リリース判断はエラーバジェットの残量に基づく技術選定は実証実験の結果に基づく改善の効果は定量的に測定する「なんとなく」ではなく、「データで示せる」判断を心がけよう。エンジニア新卒研修2025
- SRE 27

まとめなぜSREが必要？開発速度と信頼性の両立のため。データ(SLO等)とDevOpsで実現。 SREの基本原則は？ 4つの柱モニタリング, エラーバジェット, 自動化, インシデント管理。
何を意識する？ユーザー視点で信頼性を考える。データで判断し、全員で責任を持つ。開発全段階で意識し、継続的に改善。この講義で得た知識・視点を、これからの業務に活かしてみてください！エンジニア新卒研修2025 - SRE 28

2025年新卒エンジニア研修 SRE資料/202504-sre

2025年新卒エンジニア研修 SRE資料/202504-sre

日本経済新聞社エンジニア採用事務局

More Decks by 日本経済新聞社エンジニア採用事務局

Other Decks in Technology

Featured

Transcript

Site Reliability Engineering (SRE) 日本経済新聞社エンジニア新卒研修 2025 エンジニアとして、システムの信頼性をどう考え、どう実践するか？エンジニア新卒研修2025 -

本日のゴール SREがなぜ必要とされているのかを理解する。 SREの基本的な考え方 (原則) を知る。これからの仕事で意識すべきことを知る。エンジニア新卒研修2025 - SRE 2

アジェンダ 1. SREとは？ 2. SREの基本原則 3. 開発プロセスとSRE 4. SREを支える文化 5.

SRE って聞いたことありますか？エンジニア新卒研修2025 - SRE 4

SREとは - Site Reliability Engineering ソフトウェアエンジニアリングの手法を運用に適用し、スケーラブルで信頼性の高いシステムを構築・運用するアプローチ。エンジニア新卒研修2025 - SRE

SRE が必要となった背景エンジニア新卒研修2025 - SRE 8

開発速度と信頼性ソフトウェア開発の一般的な役割分担: 開発 (Development): 新機能の設計・実装コードの変更・修正主な関心事: 早く新しい価値を届けたい！運用 (Operations):

DevOps 開発 (Dev) と運用 (Ops) が協力する文化・プラクティス目的: ビジネス価値を迅速

SRE と DevOps の関係 "Class SRE implements interface DevOps" (by

2. SREの基本原則 SREの活動を支える4つの重要な柱: 1. モニタリング (システムの声を聴く - SLO/SLI) 2. エラーバジェット

原則1: モニタリング (Monitoring) システムの状態を継続的に計測・可視化すること。なぜモニタリング？: システムの健康状態を知る (元気？不調？) 問題を早期発見する (アラート)

サービスレベル指標 / サービスレベル目標サービスレベル指標: SLI (Service Level Indicator) 計測指標: サービスにおいて重要な側面を測る定量的な指標。

原則2: エラーバジェット (Error Budget) 許容できる信頼性低下の量 = ユーザーが気にしない程度のダウンタイムやエラー。計算例: SLO 99.9%

原則3: 自動化 (Automation) 手作業 (トイル) をコードに置き換えること。トイル: 自動化可能で何度も実施する手作業、価値がスケールしない作業。例: 月次の手動バックアップ、手動デプロイ、定型的な設定変更、手動テスト

原則4: インシデント管理 (Incident Management) インシデント (サービス停止や劣化) に迅速に対応し、復旧させ、再発を防止するプロセス。前提: 複雑なシステムではインシデントは必ず起きる。手段:

4. SREを支える文化技術やプロセスだけでは不十分。文化が成功の鍵。心理的安全性失敗を学びに変える文化実験と改善の文化データに基づく意思決定エンジニア新卒研修2025 - SRE

まとめなぜSREが必要？開発速度と信頼性の両立のため。データ(SLO等)とDevOpsで実現。 SREの基本原則は？ 4つの柱モニタリング, エラーバジェット, 自動化, インシデント管理。

2025年新卒エンジニア研修 SRE資料/202504-sre

2025年新卒エンジニア研修 SRE資料/202504-sre

More Decks by 日本経済新聞社 エンジニア採用事務局

Other Decks in Technology

Featured

Transcript

More Decks by 日本経済新聞社エンジニア採用事務局