Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2025年新卒エンジニア研修 SRE資料/202504-sre
Search
日本経済新聞社 エンジニア採用事務局
June 10, 2025
Technology
0
22
2025年新卒エンジニア研修 SRE資料/202504-sre
2025年4月に実施した新卒エンジニア研修の資料です。
SRE(Site Reliability Engineering) 、日経の SRE の取り組み
日本経済新聞社 エンジニア採用事務局
June 10, 2025
Tweet
Share
More Decks by 日本経済新聞社 エンジニア採用事務局
See All by 日本経済新聞社 エンジニア採用事務局
プロジェクト内でデザイナーができること 日経電子版アプリ機能開発「For You」#nikkei_tech_talk
nikkei_engineer_recruiting
8
3.7k
日経電子版 for Android の技術的課題と取り組み(令和最新版)/android-20250423
nikkei_engineer_recruiting
3
1.2k
日経IDにおけるパスキー
nikkei_engineer_recruiting
0
89
リアルタイム行動ログを付加価値に繋げる、ファンアウトの試行錯誤/tech-street
nikkei_engineer_recruiting
0
110
HCP Terraformで実現するPlatform Engineering/nikkei-tech-talk-29
nikkei_engineer_recruiting
0
630
A/Aテストにおけるサンプルサイズ/japanr2024
nikkei_engineer_recruiting
1
990
モバイルアプリ開発未経験者が プロダクト開発に携わるまでに取り組んだこと/nikkei-tech-talk-27-3
nikkei_engineer_recruiting
1
360
Android 15 でウィジェットピッカーのプレビュー画像をGlanceで魅せたい/nikkei-tech-talk-27-1
nikkei_engineer_recruiting
0
400
100 名超が参加した日経グループ横断の競技型 AWS 学習イベント「Nikkei Group AWS GameDay」の紹介/mediajaws202411
nikkei_engineer_recruiting
1
300
Other Decks in Technology
See All in Technology
ゴリラ.vim #36 ~ Vim x SNS ~ スポンサーセッション
yasunori0418
1
430
kintone開発組織のDevOpsへの移り変わりと実践
ueokande
1
260
GitHub Copilot Use Cases at ZOZO
horie1024
1
290
医療業界に特化した音声認識モデル構築のためのアノテーションの実態
thickstem
0
160
会社紹介資料 / Sansan Company Profile
sansan33
PRO
6
370k
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
8
66k
CSSの最新トレンド Ver.2025
tonkotsuboy_com
10
3k
実践Kafka Streams 〜イベント駆動型アーキテクチャを添えて〜
joker1007
3
790
データ戦略部門 紹介資料
sansan33
PRO
1
3.1k
セキュリティSaaS企業が実践するCursor運用ルールと知見 / How a Security SaaS Company Runs Cursor: Rules & Insights
tetsuzawa
1
1.4k
NW運用の工夫と発明
recuraki
2
850
Flutterアプリを⾃然⾔語で操作する
yukisakai1225
0
200
Featured
See All Featured
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2.1k
VelocityConf: Rendering Performance Case Studies
addyosmani
329
24k
Speed Design
sergeychernyshev
30
970
Into the Great Unknown - MozCon
thekraken
39
1.8k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
15
900
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
19
1.3k
Java REST API Framework Comparison - PWX 2021
mraible
31
8.6k
Mobile First: as difficult as doing things right
swwweet
223
9.6k
Build your cross-platform service in a week with App Engine
jlugia
231
18k
Adopting Sorbet at Scale
ufuk
76
9.4k
Large-scale JavaScript Application Architecture
addyosmani
512
110k
Building an army of robots
kneath
306
45k
Transcript
Site Reliability Engineering (SRE) 日本経済新聞社 エンジニア新卒研修 2025 エンジニアとして、システムの信頼性をどう考え、どう実践するか? エンジニア新卒研修2025 -
SRE 1
本日のゴール SREがなぜ必要とされているのかを理解する。 SREの基本的な考え方 (原則) を知る。 これからの仕事で意識すべきことを知る。 エンジニア新卒研修2025 - SRE 2
アジェンダ 1. SREとは? 2. SREの基本原則 3. 開発プロセスとSRE 4. SREを支える文化 5.
まとめ エンジニア新卒研修2025 - SRE 3
SRE って聞いたことありますか? エンジニア新卒研修2025 - SRE 4
SREとは - Site Reliability Engineering ソフトウェアエンジニアリングの手法を運用に適用し、 スケーラブルで信頼性の高いシステムを構築・運用するアプローチ。 エンジニア新卒研修2025 - SRE
5
SREのコアコンセプト 「SREとは、ソフトウェアエンジニアに運用チームを設計させたらどうなるか、ということだ」 Ben Treynor Sloss (Google SRE創設者) 開発者自身がシステムの信頼性に責任を持つ文化へ。 手作業ではなく、エンジニアリング (自動化、ツール開発)
で運用課題を解決する。 エンジニア新卒研修2025 - SRE 6
「信頼性」とは? ユーザーが期待する水準を満たし続けること 単なる「稼働率 (Uptime; どれだけの時間稼働しているか)」だけではない。 レイテンシ、エラー率、スループット、可用性など、ユーザー体験に関わる様々な側面を含む。 たとえば、日経電子版で言えば、 、 、 ユーザが記事を読みたいときに読める
記事が1秒以内に表示される など エンジニア新卒研修2025 - SRE 7
SRE が必要となった背景 エンジニア新卒研修2025 - SRE 8
変化するシステムと運用の課題 システムの複雑化・大規模化: マイクロサービス、クラウド、分散システム… リリースサイクルの高速化要求: ビジネスの変化に素早く対応したい! 従来の運用アプローチの限界: 手作業によるミスや遅延 変化への追従が困難 (スケーラビリティ問題) システムの「信頼性」と「開発速度」の両立が大きな課題に。
エンジニア新卒研修2025 - SRE 9
開発速度と信頼性 ソフトウェア開発の一般的な役割分担: 開発 (Development): 新機能の設計・実装 コードの変更・修正 主な関心事: 早く新しい価値を届けたい! 運用 (Operations):
システムの安定稼働・監視 インフラの構築・管理 主な関心事: システムを止めずに安定させたい! 目標の違いから、時には対立 ("壁") が生まれることも… エンジニア新卒研修2025 - SRE 10
開発と運用チームの対立による問題 チーム間の「壁」が引き起こす具体的な課題: 開発の遅延: 運用チームの承認待ちや複雑なデプロイ手順により、機能リリースが遅れ、ビジネス機 会を損失する。 責任の押し付け合い: 問題発生時に互いに責任を押し付け合い、根本原因の特定と解決が遅れる。 知識の分断: 開発者は運用の課題を理解せず、運用は開発の意図を理解できず、技術的負債と運用コ ストが増大する。
モチベーションの低下: 互いの仕事への理解不足から尊重し合えず、チーム間のコミュニケーション と協力が減少する。 このような問題が、ビジネス価値の提供を妨げる要因に。 エンジニア新卒研修2025 - SRE 11
DevOps 開発 (Dev) と 運用 (Ops) が協力する文化・プラクティス 目的: ビジネス価値を 迅速
かつ 継続的 に、安定 して届ける。 文化: チーム間の壁を取り払い、コミュニケーションと協力を促進。 プラクティス: CI/CD パイプライン、自動テスト、Infrastructure as Code (IaC)、モニタリングなど。 エンジニア新卒研修2025 - SRE 12
SRE と DevOps の関係 "Class SRE implements interface DevOps" (by
Google) SREは、DevOpsの考え方を「信頼性」という視点で実践する具体的な方法 DevOps: 開発と運用が協力して、より良いサービスを作る 考え方 チーム間の壁をなくす 継続的に改善する SRE: DevOpsの考え方を実現する「信頼性」を中心とした 具体的な方法 信頼性を数値で計測し、全員の共通認識とする 手作業を自動化し、信頼性の高いシステム・プロセスを実現する 障害から継続的に学びを得る エンジニア新卒研修2025 - SRE 13
なぜSREを学ぶのか? 信頼性は全員が意識すべきこと SREは特定のチームだけでなく、すべてのエンジニアがユーザーに価値を届けるために必要な考 え方。最初に学ぶことで、品質を意識した開発の基礎ができる。 ユーザー視点を身につける 信頼性とはユーザーの満足度。SREは、ユーザーが本当に求めていること(速度、安定性など) をデータで捉え、改善する視点を養う。 システム全体で考える力 自分のコードがシステム全体、そしてユーザー体験にどう影響するかを理解する助けになる。 問題解決の視野も広がる。
エンジニア新卒研修2025 - SRE 14
2. SREの基本原則 SREの活動を支える4つの重要な柱: 1. モニタリング (システムの声を聴く - SLO/SLI) 2. エラーバジェット
(失敗を許容する考え方) 3. 自動化 (つまらない作業 = "トイル" をなくす) 4. インシデント管理 (失敗から学ぶ - 非難のないポストモーテム) エンジニア新卒研修2025 - SRE 15
原則1: モニタリング (Monitoring) システムの状態を継続的に計測・可視化すること。 なぜモニタリング?: システムの健康状態を知る (元気? 不調?) 問題を早期発見する (アラート)
SLO (信頼性目標) が達成できているか測る データに基づいた判断をする (リリース判断、改善) 計測できないものは改善できない。まずは計測! エンジニア新卒研修2025 - SRE 16
サービスレベル指標 / サービスレベル目標 サービスレベル指標: SLI (Service Level Indicator) 計測指標: サービスにおいて重要な側面を測る定量的な指標。
ユーザー体験で重要なものは何か。 例: リクエスト成功率、レスポンスタイム サービスレベル目標: SLO (Service Level Objective) 目標値: SLIに対する内部的な目標 ユーザーの期待する信頼性のレベル (これを満たせばユーザーは満足するはずという値) 例: リクエスト成功率 > 99.9% エンジニア新卒研修2025 - SRE 17
原則2: エラーバジェット (Error Budget) 許容できる信頼性低下の量 = ユーザーが気にしない程度のダウンタイムやエラー。 計算例: SLO 99.9%
→ エラーバジェット 0.1% (月間約43分) 目的: 100%完璧を目指すのは高コストで非現実的。 エラーバジェットは 信頼性と開発速度 (新機能リリース) のバランスを取る指標。 予算が残っていれば、新しい挑戦 (リリース等) がしやすい。 予算が少なければ、信頼性改善を優先 (新機能リリースを控える)。 エラーバジェットは「ペナルティ」ではなく「開発のためのリスク許容量」 エンジニア新卒研修2025 - SRE 18
原則3: 自動化 (Automation) 手作業 (トイル) をコードに置き換えること。 トイル: 自動化可能で何度も実施する手作業、価値がスケールしない作業。 例: 月次の手動バックアップ、手動デプロイ、定型的な設定変更、手動テスト
自動化の目的: 信頼性向上: ヒューマンエラー削減、一貫性確保。 効率化: 作業時間短縮 → 開発者はより創造的な作業へ。 迅速化: CI/CDによる素早いリリース。 面倒な繰り返し作業は、自動化できないか常に考えよう! エンジニア新卒研修2025 - SRE 19
原則4: インシデント管理 (Incident Management) インシデント (サービス停止や劣化) に迅速に対応し、復旧させ、再発を防止するプロセス。 前提: 複雑なシステムではインシデントは必ず起きる。 手段:
インシデント対応マニュアルの策定 インシデント後のふりかえり (ポストモーテム) 目的: 発生時の影響を最小限に (MTTR短縮)。 根本原因を理解し、学びを得て改善する。 エンジニア新卒研修2025 - SRE 20
ポストモーテム インシデント後に実施する振り返り分析。 目的: 学習と改善 (犯人探しではない!) 重要な文化: Blameless (非難しない) 個人ではなく、システムやプロセスの問題に焦点を当てる。 「なぜそのミスが起こり得る状況だったか?」を問う。
成果物: 具体的な再発防止策 (アクションアイテム)。 失敗は最大の学びの機会。オープンに議論できる文化が重要。 エンジニア新卒研修2025 - SRE 21
3. 開発プロセスとSRE 信頼性は、開発ライフサイクルの全フェーズで考慮されるべき品質特性。 設計: SLO定義、耐障害性、モニタリング容易性、安全なデプロイ方法 実装: 適切なログ、エラーハンドリング、パフォーマンス、テスト容易性 テスト: 負荷テスト、カオスエンジニアリング、自動化 デプロイ:
CI/CD、ロールバック計画、段階的リリース 運用: モニタリング、アラート対応、インシデント分析、改善 システムに「あとで信頼性を足す」のは難しい。最初から考えよう! エンジニア新卒研修2025 - SRE 22
4. SREを支える文化 技術やプロセスだけでは不十分。文化が成功の鍵。 心理的安全性 失敗を学びに変える文化 実験と改善の文化 データに基づく意思決定 エンジニア新卒研修2025 - SRE
23
心理的安全性 チームメンバーが安心して発言・挑戦できる状態。 具体例: インシデント時に「私のミスかもしれません」と正直に言える コードレビューで「この実装は不安です」と指摘できる 新しい技術の導入を「試してみたい」と提案できる 自分の知識の不足を認め、 「教えてください」と言える 「おかしい」と言える、 「やってみよう」と言える環境が重要。
エンジニア新卒研修2025 - SRE 24
失敗を学びに変える文化 失敗を非難せず、学びの機会と捉える。 具体例: インシデントやバグを「誰のせい」ではなく「なぜ起きたか」に焦点を当てる 「ヒューマンエラー」という言葉を使わない(システムやプロセスの問題として捉える) 失敗を隠さず、共有して学び合う 小さな失敗を早期に発見・共有し、大きな問題を防ぐ 失敗は学びの機会。個人ではなく、システムやプロセスの問題に焦点を当てる。 エンジニア新卒研修2025 -
SRE 25
実験と改善の文化 小さな失敗を恐れず、継続的に改善を試みる。 具体例: カナリアリリースやA/Bテストを積極的に行う 改善案を小さく試し、効果を測る 失敗から学び、次の改善に活かす 技術選定に「完璧」を求めず、実践を通じて学ぶ 定期的な振り返り(レトロスペクティブ)で改善点を見つける エラーバジェットがあると実験を試みやすい 完璧を目指すのではなく、小さな改善を積み重ねていく
エンジニア新卒研修2025 - SRE 26
データに基づく意思決定 感情や直感ではなく、データに基づいて判断する。 具体例: パフォーマンス問題は「遅い」という感覚ではなく、メトリクスで判断 リリース判断はエラーバジェットの残量に基づく 技術選定は実証実験の結果に基づく 改善の効果は定量的に測定する 「なんとなく」ではなく、 「データで示せる」判断を心がけよう。 エンジニア新卒研修2025
- SRE 27
まとめ なぜSREが必要? 開発速度と信頼性の両立のため。 データ(SLO等)とDevOpsで実現。 SREの基本原則は? 4つの柱 モニタリング, エラーバジェット, 自動化, インシデント管理。
何を意識する? ユーザー視点で信頼性を考える。データで判断し、全員で責任を持つ。開発全段階で意識し、 継続的に改善。 この講義で得た知識・視点を、これからの業務に活かしてみてください! エンジニア新卒研修2025 - SRE 28