60分で学ぶクラウドとSRE・サービス運用 / GeekCAMPAcademia 2026-05

60分で学ぶクラウドとSRE・サービス運用技育CAMPアカデミア masayosu | 株式会社はてな SRE

毎日、数百万人が使うサービスを支えている。リリース直後、エラーレートが急上昇—— 原因をすばやく特定できるか? “ ”

はてなid: masayosu 所属: 株式会社はてな組織基盤・開発本部プラットフォーム部サービスプラットフォームチーム SRE 担当業務: クラウドインフラ設計・運用、IaC
好きなAWSサービス: EKS 趣味: ゲーム、登山 ▹ ▹ ▹ ▹ ▹ 自己紹介

1. クラウドコンピューティング概論 2. ⾼可⽤性を実現するクラウド構成 3. Infrastructure as Code と⾃動化 4.
モニタリングとオブザーバビリティ 5. DevOps/SRE⼊⾨今日話すこと

クラウドコンピューティング概論 01 CHAPTER 1

IaaS / PaaS / SaaS の違いと責任分界点

モデル提供内容 (例) 利⽤者の管理範囲メリット / デメリット IaaS 仮想マシン、ストレージ、ネットワーク OS〜アプリまで全て⾃分で管理
⾃由度↑ / △運⽤負荷↑ PaaS ランタイム / ミドルウェア / フレームワークアプリケーションとデータのみ管理運⽤負荷↓ / △カスタマイズ性↓ SaaS 完全マネージドアプリケーションユーザーデータと利⽤設定のみ管理ほぼ⼿間要らず / ベンダー依存度 ↑ モデル定義と特徴

レイヤー IaaS PaaS SaaS アプリケーション/設定利⽤者利⽤者事業者データ(内容‧整合性) 利⽤者
利⽤者利⽤者ミドルウェア/実⾏ランタイム利⽤者事業者事業者 OS/パッチ管理利⽤者事業者事業者仮想化基盤/コンテナランタイム事業者事業者事業者ネットワーク (VPC等) 事業者事業者事業者物理ハード/データセンター事業者事業者事業者責任分界点 : 誰が何を守るのか

IaaS / PaaS / SaaS の責任分界を理解する要件(可⽤性‧性能‧規制‧コスト)に合ったモデルのサービスを選択することが重要提供モデルによってトラブル発⽣時の責任範囲が異なる → 選んだモデルによって「⾃分たちが守る範囲」が決まる。では、そのインフラをどう
⾼可⽤にするか? クラウドコンピューティング概論 (まとめ)

高可用性を実現するクラウド構成 02 CHAPTER 2

新しいWebサービスを開発したとき、最初はこういう構成から始まることが多い Webの3層構造 (プレゼンテーション層‧アプリケーション層‧データ層)を1台のサーバに集約したモノリシックアーキテクチャ ▹ ▹ 小規模なサービスのインフラ構成

課題説明単⼀障害点⼀部の障害がシステム全体を停⽌させるリスクスケーラビリティの制限システム全体のスケールアップが必要で、リソース効率が悪いデプロイの難しさ⼩さな変更でも全体の再デプロイが必要で、ダウンタイムが発⽣チーム開発の⾮効率複数チームでの同時作業が困難
保守性の低下コードが⼤規模化し、変更‧リファクタリングが困難モノリシックアーキテクチャの課題

アプローチ R(信頼性) / A(可⽤性) / S(保守性) / I(完全性) / S(セキュリティ)
分散アーキテクチャの導⼊可⽤性向上、保守性向上、（障害波及の防⽌) 冗⻑化‧⽔平スケーリングの導⼊可⽤性向上、信頼性向上、(負荷分散) CDNの導⼊可⽤性向上、セキュリティ強化モニタリングとアラート可⽤性維持、保守性向上可用性を向上させるアプローチ

分散アーキテクチャ (Distributed Architecture)の導入

要素を分割し、独⽴して稼働させることで、単⼀障害点を排除します。 Web層: リクエスト受け付け Application層: ビジネスロジック処理 DB/FS層: データ永続化 ▹ ▹
▹ モノリシックから分散アーキテクチャへ

メリット説明スケーラビリティ個別のコンポーネントを独⽴してスケールアップ/ダウン可能耐障害性⼀部の障害が全体に波及しにくい構造継続的デプロイ個別のコンポーネントを独⽴してデプロイ可能開発の効率化⼩規模なチームが並⾏して開発可能
セキュリティの強化コンポーネント間の境界でのセキュリティ制御が可能分散アーキテクチャを採用する利点

垂直スケーリング (Scale Up) 水平スケーリング (Scale Out) 概要: 1台あたりのリソース(vCPU/メモリ)を増やす。例:
t3.medium → m6i.2xlarge に変更⻑所: 実装が容易、単⼀ノード性能が必要なワークロードに有効短所: 上限がある‧⾼コスト化しやすい概要: 同⼀役割のノードを複数台並べて負荷分散。例: WebサーバをAuto ScalingやK8sのHPAで⾃動増減⻑所: 可⽤性/耐障害性が上がる‧無停⽌で段階増設短所: アプリのステートレス化など設計上の前提が必要 ▹ ▹ ▹ ▹ ▹ ▹ スケーリングの 2つの方向: 垂直 vs 水平

DB層の冗⻑化プライマリ‧レプリカ構成、⾃動フェイルオーバー → AWSではAmazon RDS‧Amazon Auroraのマネージドサービスを活⽤アプリ層の冗⻑化複数インスタンス+ロードバランサー、セッション外部管理 → ヘルスチェックで問題インスタンスを⾃動切り離し
Web層の冗⻑化複数のWebサーバ+ロードバランサー → ⾃動⽔平スケーリングで負荷に応じてサーバ数を調整 3層構造の各層を冗長化して可用性を高める

CDNはエッジサーバーでコンテンツをキャッシュし、ユーザーに近い場所から配信する仕組み代表的なCDNプロバイダー: Cloudﬂare / Amazon CloudFront / Akamai RASIS要素 CDN導⼊による効果
信頼性コンテンツ複製で冗⻑性向上、単⼀障害点の削減可⽤性分散サーバーによる⾼可⽤性、DDoS攻撃の影響軽減セキュリティ WAF提供、アクセス制御とモニタリング強化 CDNの導入

分散アーキテクチャの導⼊冗⻑化‧⽔平スケーリングの導⼊ CDNの導⼊ ▹ ▹ ▹ 高可用性を獲得したインフラの例

⾼可⽤構成は要素が増えて⼿作業では維持困難 → そこで登場するのが Infrastructure as Code モノリスの課題: 単⼀障害点 / スケール制限
/ デプロイの難しさ解決の⽅向性 ‧ 分散アーキテクチャへの移⾏ ‧ Web/App/DB各層の冗⻑化と⽔平スケーリング CDNで配信最適化と負荷分散高可用性を実現するクラウド構成 (まとめ)

Infrastructure as Code (IaC)と自動化 03 CHAPTER 3

従来 (手動) IaC (コード化) ⼿順書を⾒ながら⼿動設定ドキュメント依存、属⼈化しやすい設定ミスが気づきにくい環境間の差異が⽣まれやすいコードで実⾏、誰でも再現可能 Git管理、差分‧レビュー‧ロールバックが容易
コードのレビューでミスを未然に防ぐ宣⾔的に「あるべき状態」を定義 ▹ ▹ ▹ ▹ ▹ ▹ ▹ ▹ IaC・自動化とは何か ? 従来の手動運用との違い

望ましい状態をコードで宣⾔「こうあるべき」を記述し、ツールに実現を任せる。実際の状態とコードとの差分(ドリフト)を⾃動検知‧是正。可読性と保守性の向上コードを追うだけで「何がどう構成されるか」が明確。再利⽤性の⾼いモジュール化共通パターンをモジュール化し、複数環境で簡単に再利⽤。チーム開発との親和性 GitOps的な運⽤に組み込みやすく、チーム全体で共通理解を担保。宣言的設計のメリット

はてなでは CDK と Terraform が多く使われていますツール特徴ユースケース例 Terraform 宣⾔的HCL
/ マルチクラウド対応マルチクラウド/ハイブリッド運⽤ CloudFormation AWS専⽤YAML/JSONテンプレート純AWS環境のマネージドリソース構築 AWS CDK TypeScript/Python等で記述→CFNに変換複雑ロジックをコードで表現したい場合 Pulumi 任意⾔語(Go, Java等)でIaC 既存開発⾔語スキルを活かした導⼊代表的なIaCツール

PRベース運用自動検証 (ガードレール ) Git Push ⾃動Lint/Validate Plan差分確認 Code Review
⾃動適⽤モニタリングセキュリティスキャン: tfsec, Checkov Policy-as-Code: Open Policy Agent, Sentinel 差分プランの⾃動コメント: PRレビューを効率化 ▹ ▹ ▹ ▹ ▹ ▹ ▹ ▹ ▹ CI/CD連携とGitOps ワークフロー

インフラが動いていれば安⼼、というわけではない。 → では、動いているものをどう⾒るか? コード化で再現性と安定性を確保⼿動作業を排除し、いつでも同じ環境を構築可能にする宣⾔的設計で「望ましい状態」を⾃動維持差分検知と⾃⼰修復により運⽤負荷を削減 CI/CD連携でフィードバックループをまわす GitOpsワークフローで安全かつ迅速な運⽤を実現 Infrastructure
as Code と自動化 (まとめ)

モニタリングとオブザーバビリティ 04 CHAPTER 4

サービス運⽤で⼀番困るのは「気づかない不具合」ユーザーが「遅い」「落ちる」と感じる前に、システムの異常を早く⾒つけることが⼤切そのためにモニタリングとオブザーバビリティがあるそもそも「見える化」がなぜ大事か ?

定義: あらかじめ決めた指標(CPU、メモリ、レスポンス時間など)を監視し、異常を検知すること⽬的: システムの「今の状態」を知る例: ‧ CPU使⽤率が90%以上になったらアラート ‧ エラーログが1分間に100件以上出たら通知
モニタリングとは

項⽬モニタリングオブザーバビリティ⽬的状態を検知する原因を理解する⼿段メトリクス/ログ中⼼ MELT (Metrics
/ Events / Logs / Traces) 得意「異常に気づく」「なぜ異常が起きたか掘る」例: モニタリング → 「EC2のCPUが90%超」オブザーバビリティ → 「APIがボトルネック、特定クエリが遅延」 ▹ ▹ モニタリングとオブザーバビリティの違い

Metrics: リソース使⽤率やレスポンスタイムなど定量的指標 Events: デプロイや障害などの出来事 Logs: アプリやミドルウェアが出す詳細な履歴 Traces: リクエストの流れを追跡(どのサービスが遅いか⼀⽬でわかる) 得られる効果: 未知の異常に気づける
(例: イベントとメトリクスの相関でデプロイ由来の不具合を検知) 原因調査が速い (トレースでボトルネック特定→ログで詳細確認→メトリクスで影響範囲を把握) 複雑な環境でも俯瞰できる (マイクロサービスや外部APIの依存関係を⼀望) ▹ ▹ ▹ MELT (4つの柱) と得られる効果

「⾃分たちが作ったツールで⾃分たちのサービスを守る」 Mackerel + OpenTelemetry Metrics: OpenTelemetry形式(OTLP)でメトリクスを送信‧収集 Events: デプロイや障害をグラフアノテーションとしてメトリクスと関連づけて把握
Traces: OpenTelemetryからのトレースを受け取り、 Vaxila (APM) でリクエスト単位の遅延‧エラーを分析 ▹ ▹ ▹ はてなでのオブザーバビリティ実践

この体制を組織としてどう維持するか? それが DevOps/SRE モニタリング: 状態を「知る」仕組みオブザーバビリティ: 原因を「理解する」仕組み MELTを組み合わせることで、複雑なシステムでも素早く問題を特定できる最終的なゴールは「ユーザーに影響する前に異常を検知し、すぐに直せる体制」を作ること
モニタリングとオブザーバビリティ (まとめ)

DevOps/SRE入門 05 CHAPTER 5

DevOps: 開発と運⽤を統合し、迅速なデリバリーと改善を実現する⽂化 SRE: Google発の信頼性エンジニアリング。運⽤をソフトウェア化し、速度と可⽤性を両⽴位置づけ: SREはDevOpsを実現する⼿法の⼀つ共通点: ⾃動化と可観測性で、品質とスピードを両⽴ DevOps/SREの概要

単なる数値ではなく「リリースや改善の判断材料」になる SLI Service Level Indicator 品質を数値で測る指標 (例: リクエスト成功率、レスポンスタイム) SLO
Service Level Objective その指標に対する⽬標 (例: リクエスト成功率 99.9%) エラーバジェット許容される失敗率 → 開発速度と信頼性の調整に使う信頼性をどう数値で管理するか ?

稼働率 = (総稼動時間 - 障害時間) / 総稼動時間 × 100 可⽤性
年間ダウンタイム⽉間ダウンタイム週間ダウンタイム 99% 3.6⽇ 7.2h 1.7h 99.9% 8.7h 43m 10m 99.99% 53m 4m 1m 99.999% 5m 26s 6s 「⾼可⽤性」ほどコストや仕組みが複雑になる → 「⾃分たちのサービスにとって何%が適切か」をチームで合意することが重要可用性目標とダウンタイム

「失敗から学ぶ⽂化」がSREの根幹にある既存メトリクス/ログの活⽤と拡充カスタムメトリクス追加、JSONログ化 SLI/SLO‧エラーバジェットのダッシュボード作成、アラート設定インシデント発⽣時: オンコール → 復旧 → Postmortem
(振り返り) 定期レビューで閾値‧項⽬を更新 SREの日常: 計測→可視化→改善のサイクル

DevOps/SRE: ⾃動化と可観測性で品質と速度を両⽴ SLI/SLO/エラーバジェット: 数値を使い運⽤判断を明確化可⽤性とダウンタイム: ⽬標値の選択はビジネス要件との合意が必要計測→可視化→改善のサイクルが鍵技術だけでなく「信頼性を守る姿勢」が⼤切 DevOps/SRE入門 (まとめ)

今⽇お話した5つのテーマテーマキーメッセージクラウドコンピューティング概論モデルの選択で「⾃分たちが守る範囲」が決まる⾼可⽤性を実現するクラウド構成分散‧冗⻑化‧CDNでモノリスの限界を越える Infrastructure as Code
と⾃動化インフラをソフトウェア化し再現性‧安全性を担保するモニタリングとオブザーバビリティ気づくだけでなく、なぜ起きたかを理解する DevOps/SRE⼊⾨数値で信頼性を管理し、改善サイクルを回し続ける冒頭の問い「リリース直後のエラーレート急上昇に対応できるか?」今⽇話した技術と考え⽅が、その答えです。まとめ

実践‧実験している領域設計・実装フェーズ運用・調査フェーズアーキテクチャの壁打ち相⼿としてAIを活⽤ Coding Agent で Terraform / Kubernetes
Manifest の修正‧レビュークラウドベンダー提供のAIエージェントで、リソース異常分析‧コスト最適化ポイントの抽出 Grafana / Mackerel の MCP サーバー経由で、 AIエージェントから観測データを直接参照 ▹ ▹ ▹ ▹ Appendix: SREでのAI活用

はてなサマーインターンシップ 2026!! • はてな京都オフィスでの講義パート & オンラインの実践パート！ •
8月17日(月)~9月4日(金) ◦ 前半1週間: 京都オフィス ◦ 後半2週間: オンライン • 応募フォームにたどり着くためにはクイズに回答する必要があります。腕試しにぜひチャレンジしてください！ 43

X アカウント @hatenatech • 本日の講義資料、インターンや就活情報、はてなの技術情報などを発信するアカウントです • 是非フォローしてくださ
い！ 44

60分で学ぶクラウドとSRE・サービス運用 / GeekCAMPAcademia 2026-05

60分で学ぶクラウドとSRE・サービス運用 / GeekCAMPAcademia 2026-05

Hatena

More Decks by Hatena

Other Decks in Technology

Featured

Transcript

60分で学ぶクラウドとSRE・サービス運用技育CAMPアカデミア masayosu | 株式会社はてな SRE

毎日、数百万人が使うサービスを支えている。リリース直後、エラーレートが急上昇—— 原因をすばやく特定できるか? “ ”

はてなid: masayosu 所属: 株式会社はてな組織基盤・開発本部プラットフォーム部サービスプラットフォームチーム SRE 担当業務: クラウドインフラ設計・運用、IaC

1. クラウドコンピューティング概論 2. ⾼可⽤性を実現するクラウド構成 3. Infrastructure as Code と⾃動化 4.

クラウドコンピューティング概論 01 CHAPTER 1

IaaS / PaaS / SaaS の違いと責任分界点

モデル提供内容 (例) 利⽤者の管理範囲メリット / デメリット IaaS 仮想マシン、ストレージ、ネットワーク OS〜アプリまで全て⾃分で管理

レイヤー IaaS PaaS SaaS アプリケーション/設定利⽤者利⽤者事業者データ(内容‧整合性) 利⽤者

高可用性を実現するクラウド構成 02 CHAPTER 2

アプローチ R(信頼性) / A(可⽤性) / S(保守性) / I(完全性) / S(セキュリティ)

分散アーキテクチャ (Distributed Architecture)の導入

要素を分割し、独⽴して稼働させることで、単⼀障害点を排除します。 Web層: リクエスト受け付け Application層: ビジネスロジック処理 DB/FS層: データ永続化 ▹ ▹

垂直スケーリング (Scale Up) 水平スケーリング (Scale Out) 概要: 1台あたりのリソース(vCPU/メモリ)を増やす。例:

CDNはエッジサーバーでコンテンツをキャッシュし、ユーザーに近い場所から配信する仕組み代表的なCDNプロバイダー: Cloudﬂare / Amazon CloudFront / Akamai RASIS要素 CDN導⼊による効果

分散アーキテクチャの導⼊冗⻑化‧⽔平スケーリングの導⼊ CDNの導⼊ ▹ ▹ ▹ 高可用性を獲得したインフラの例

⾼可⽤構成は要素が増えて⼿作業では維持困難 → そこで登場するのが Infrastructure as Code モノリスの課題: 単⼀障害点 / スケール制限

Infrastructure as Code (IaC)と自動化 03 CHAPTER 3

従来 (手動) IaC (コード化) ⼿順書を⾒ながら⼿動設定ドキュメント依存、属⼈化しやすい設定ミスが気づきにくい環境間の差異が⽣まれやすいコードで実⾏、誰でも再現可能 Git管理、差分‧レビュー‧ロールバックが容易

はてなでは CDK と Terraform が多く使われていますツール特徴ユースケース例 Terraform 宣⾔的HCL

PRベース運用自動検証 (ガードレール ) Git Push ⾃動Lint/Validate Plan差分確認 Code Review

モニタリングとオブザーバビリティ 04 CHAPTER 4

定義: あらかじめ決めた指標(CPU、メモリ、レスポンス時間など)を監視し、異常を検知すること⽬的: システムの「今の状態」を知る例: ‧ CPU使⽤率が90%以上になったらアラート ‧ エラーログが1分間に100件以上出たら通知

項⽬モニタリングオブザーバビリティ⽬的状態を検知する原因を理解する⼿段メトリクス/ログ中⼼ MELT (Metrics

「⾃分たちが作ったツールで⾃分たちのサービスを守る」 Mackerel + OpenTelemetry Metrics: OpenTelemetry形式(OTLP)でメトリクスを送信‧収集 Events: デプロイや障害をグラフアノテーションとしてメトリクスと関連づけて把握

DevOps/SRE入門 05 CHAPTER 5

単なる数値ではなく「リリースや改善の判断材料」になる SLI Service Level Indicator 品質を数値で測る指標 (例: リクエスト成功率、レスポンスタイム) SLO

稼働率 = (総稼動時間 - 障害時間) / 総稼動時間 × 100 可⽤性

実践‧実験している領域設計・実装フェーズ運用・調査フェーズアーキテクチャの壁打ち相⼿としてAIを活⽤ Coding Agent で Terraform / Kubernetes

はてなサマーインターンシップ 2026!! • はてな京都オフィスでの講義パート & オンラインの実践パート！ •

X アカウント @hatenatech • 本日の講義資料、インターンや就活情報、はてなの技術情報などを発信するアカウントです • 是非フォローしてくださ