Upgrade to Pro — share decks privately, control downloads, hide ads and more …

60分で学ぶクラウドとSRE・サービス運用 / GeekCAMPAcademia 2026-05

60分で学ぶクラウドとSRE・サービス運用 / GeekCAMPAcademia 2026-05

Avatar for Hatena

Hatena

May 22, 2026

More Decks by Hatena

Other Decks in Technology

Transcript

  1. モデル 提供内容 (例) 利⽤者の管理範囲 メリット / デメリット IaaS 仮想マシン、ストレージ、ネットワーク OS〜アプリまで全て⾃分で管理

    ⾃由度↑ / △運⽤負荷↑ PaaS ランタイム / ミドルウェア / フレーム ワーク アプリケーションとデータのみ管 理 運⽤負荷↓ / △カスタマイズ性↓ SaaS 完全マネージドアプリケーション ユーザーデータと利⽤設定のみ管 理 ほぼ⼿間要らず / ベンダー依存度 ↑ モデル定義と特徴
  2. レイヤー IaaS PaaS SaaS アプリケーション/設定 利⽤者 利⽤者 事業者 データ(内容‧整合性) 利⽤者

    利⽤者 利⽤者 ミドルウェア/実⾏ランタイム 利⽤者 事業者 事業者 OS/パッチ管理 利⽤者 事業者 事業者 仮想化基盤/コンテナランタイム 事業者 事業者 事業者 ネットワーク (VPC等) 事業者 事業者 事業者 物理ハード/データセンター 事業者 事業者 事業者 責任分界点 : 誰が何を守るのか
  3. アプローチ R(信頼性) / A(可⽤性) / S(保守性) / I(完全性) / S(セキュリティ)

    分散アーキテクチャの導⼊ 可⽤性向上、保守性向上、(障害波及の防⽌) 冗⻑化‧⽔平スケーリングの導⼊ 可⽤性向上、信頼性向上、(負荷分散) CDNの導⼊ 可⽤性向上、セキュリティ強化 モニタリングとアラート 可⽤性維持、保守性向上 可用性を向上させるアプローチ
  4. 垂直スケーリング (Scale Up) 水平スケーリング (Scale Out) 概要: 1台あたりのリソース(vCPU/メモリ)を増 やす。 例:

    t3.medium → m6i.2xlarge に変更 ⻑所: 実装が容易、単⼀ノード性能が必要な ワークロードに有効 短所: 上限がある‧⾼コスト化しやすい 概要: 同⼀役割のノードを複数台並べて負荷分 散。 例: WebサーバをAuto ScalingやK8sのHPAで⾃ 動増減 ⻑所: 可⽤性/耐障害性が上がる‧無停⽌で段階 増設 短所: アプリのステートレス化など設計上の前 提が必要 ▹ ▹ ▹ ▹ ▹ ▹ スケーリングの 2つの方向: 垂直 vs 水平
  5. CDNはエッジサーバーでコンテンツをキャッシュし、ユーザーに近い場所から配信する仕組み 代表的なCDNプロバイダー: Cloudflare / Amazon CloudFront / Akamai RASIS要素 CDN導⼊による効果

    信頼性 コンテンツ複製で冗⻑性向上、単⼀障害点の削減 可⽤性 分散サーバーによる⾼可⽤性、DDoS攻撃の影響軽減 セキュリティ WAF提供、アクセス制御とモニタリング強化 CDNの導入
  6. ⾼可⽤構成は要素が増えて⼿作業では維持困難 → そこで登場するのが Infrastructure as Code モノリスの課題: 単⼀障害点 / スケール制限

    / デプロイの難しさ 解決の⽅向性 ‧ 分散アーキテクチャへの移⾏ ‧ Web/App/DB各層の冗⻑化と⽔平スケーリング CDNで配信最適化と負荷分散 高可用性を実現するクラウド構成 (まとめ)
  7. はてなでは CDK と Terraform が多く使われています ツール 特徴 ユースケース例 Terraform 宣⾔的HCL

    / マルチクラウド対応 マルチクラウド/ハイブリッド運⽤ CloudFormation AWS専⽤YAML/JSONテンプレート 純AWS環境のマネージドリソース構築 AWS CDK TypeScript/Python等で記述→CFNに変換 複雑ロジックをコードで表現したい場合 Pulumi 任意⾔語(Go, Java等)でIaC 既存開発⾔語スキルを活かした導⼊ 代表的なIaCツール
  8. PRベース運用 自動検証 (ガードレール ) Git Push ⾃動Lint/Validate Plan差分確認 Code Review

    ⾃動適⽤ モニタリング セキュリティスキャン: tfsec, Checkov Policy-as-Code: Open Policy Agent, Sentinel 差分プランの⾃動コメント: PRレビューを効率化 ▹ ▹ ▹ ▹ ▹ ▹ ▹ ▹ ▹ CI/CD連携とGitOps ワークフロー
  9. 項⽬ モニタリング オブザーバビリティ ⽬的 状態を検知する 原因を理解する ⼿段 メトリクス/ログ中⼼ MELT (Metrics

    / Events / Logs / Traces) 得意 「異常に気づく」 「なぜ異常が起きたか掘る」 例: モニタリング → 「EC2のCPUが90%超」 オブザーバビリティ → 「APIがボトルネック、特定クエリが遅延」 ▹ ▹ モニタリングとオブザーバビリティの違い
  10. Metrics: リソース使⽤率やレスポンスタイムなど定量的指標 Events: デプロイや障害などの出来事 Logs: アプリやミドルウェアが出す詳細な履歴 Traces: リクエストの流れを追跡(どのサービスが遅いか⼀⽬でわかる) 得られる効果: 未知の異常に気づける

    (例: イベントとメトリクスの相関でデプロイ由来の不具合を検知) 原因調査が速い (トレースでボトルネック特定→ログで詳細確認→メトリクスで影響範囲 を把握) 複雑な環境でも俯瞰できる (マイクロサービスや外部APIの依存関係を⼀望) ▹ ▹ ▹ MELT (4つの柱) と得られる効果
  11. 「⾃分たちが作ったツールで⾃分たちのサービスを守る」 Mackerel + OpenTelemetry Metrics: OpenTelemetry形式(OTLP)でメトリクスを送 信‧収集 Events: デプロイや障害をグラフアノテーションとして メトリクスと関連づけて把握

    Traces: OpenTelemetryからのトレースを受け取り、 Vaxila (APM) でリクエスト単位の遅延‧エラー を分析 ▹ ▹ ▹ はてなでのオブザーバビリティ実践
  12. 単なる数値ではなく「リリースや改善の判断材料」になる SLI Service Level Indicator 品質を数値で測る指標 (例: リクエスト成功率、レスポンス タイム) SLO

    Service Level Objective その指標に対する⽬標 (例: リクエスト成功率 99.9%) エラーバジェット 許容される失敗率 → 開発速度と信頼 性の調整に使う 信頼性をどう数値で管理するか ?
  13. 稼働率 = (総稼動時間 - 障害時間) / 総稼動時間 × 100 可⽤性

    年間ダウンタイム ⽉間ダウンタイム 週間ダウンタイム 99% 3.6⽇ 7.2h 1.7h 99.9% 8.7h 43m 10m 99.99% 53m 4m 1m 99.999% 5m 26s 6s 「⾼可⽤性」ほどコストや仕組みが複雑になる → 「⾃分たちのサービスにとって何%が適切か」をチームで合意することが重要 可用性目標とダウンタイム
  14. 今⽇お話した5つのテーマ テーマ キーメッセージ クラウドコンピューティング概論 モデルの選択で「⾃分たちが守る範囲」が決まる ⾼可⽤性を実現するクラウド構成 分散‧冗⻑化‧CDNでモノリスの限界を越える Infrastructure as Code

    と⾃動化 インフラをソフトウェア化し再現性‧安全性を担保する モニタリングとオブザーバビリティ 気づくだけでなく、なぜ起きたかを理解する DevOps/SRE⼊⾨ 数値で信頼性を管理し、改善サイクルを回し続ける 冒頭の問い「リリース直後のエラーレート急上昇に対応できるか?」 今⽇話した技術と考え⽅が、その答えです。 まとめ
  15. 実践‧実験している領域 設計・実装フェーズ 運用・調査フェーズ アーキテクチャの壁打ち相⼿としてAIを活⽤ Coding Agent で Terraform / Kubernetes

    Manifest の修正‧レビュー クラウドベンダー提供のAIエージェントで、リ ソース異常分析‧コスト最適化ポイントの抽出 Grafana / Mackerel の MCP サーバー経由で、 AIエージェントから観測データを直接参照 ▹ ▹ ▹ ▹ Appendix: SREでのAI活用
  16. はてな サマーインターンシッ プ 2026!! • はてな京都オフィスでの講義パー ト & オンラインの実践パート! •

    8月17日(月)~9月4日(金) ◦ 前半1週間: 京都オフィス ◦ 後半2週間: オンライン • 応募フォームにたどり着くために はクイズに回答する必要がありま す。腕試しにぜひチャレンジして ください! 43