Azure の裏側を支える SRE の世界

Azure の裏側を支える SRE の世界〜パブリッククラウドの信頼性を実現する組織と技術〜 CloudNative Days Summer 2025 May
23rd, 2025 1:20pm-2:00pm Tsubasa Nomura

乃村翼 Site Reliability Engineer Microsoft corporation : tsubasaxZZZ https://gihyo.jp/book/2025/978-4-297-14903-1

今日話すこと SRE の必要性 Azure における SRE の組織・位置づけ AIOps の活用 Azure
の SRE のしごと

SRE の必要性 IT システムの現実ハードウェアは壊れる人はミスをするソフトウェアにはバグがある

SRE の必要性サイトリライアビリティエンジニアリングは、組織がシステム、サービス、製品において適切なレベルの信頼性を持続的に達成できるよう支援することを目的とした工学分野である David N. Blank-Edelman. SRE
をはじめよう

SRE の必要性信頼性可観測性障害管理テスト戦略デプロイ戦略 etc... 適切なレベル SLI/SLO
エラーバジェットリスク評価 etc... 持続的自動化オンコールトレーニング/スキル開発 etc... プロダクト管理開発テスト/QA プロダクションへのプッシュプロダクションでの運用 SREはプロダクションでの運用に集中最終結果を改善するためにパイプラインを改善 Software Delivery Life Cycle パイプライン David N. Blank-Edelman. SRE の探求

Azure のスケールリージョン数 60+ データセンター数 300+ ネットワーク 442 km+ PoPの数
190+ サーバー数百万台

Azure における SRE の組織ミッションすべての開発・運用担当のエンジニアが信頼でき、安全でセキュアなクラウドサービスを構築および運用することを容易にする

Azure における SRE の組織 Azure 部門(開発部門) に所属 CXP(Customer Experience)部門の一部隣のチームに
CRE チームなど SREチーム - Change SRE - Services SRE - Apps SRE - etc... Satya Nadella (CEO) Commercial (Sales/Support/etc..) Azure CXP (Customer Experience) SRE CRE etc... Security etc...

SRE のしごとサービスのオンボーディング変更レビュー障害分析オンコールリスク分析標準化 etc...

SRE のしごとサービスのオンボーディング変更レビュー障害分析オンコールリスク分析標準化 etc... 今回主に説明するパート

SRE のしごとサービスのオンボーディング変更レビュー障害分析オンコールリスク分析標準化 etc... サービスの信頼性やオペレーショナルエクセレ
ンスを向上させるためにフレームワークを Playbookとして開発・共有当事者意識と共同責任 SREと開発チームは相互に関係し責任を持つことを前提とする確立された手法の尊重実証済みの効果的なアプローチを定義するデータに基づく判断運用と信頼性のKPIを活用した方向性を決定する集中と成果各フェーズの時間制限と集中的な取り組みを定義する再利用可能なプラクティス運用経験から抽出された汎用的なパターンを定義する Azure と整合性のある継続的な進化他の取り組みや Azure の進化と連携し継続的に更新する <Playbook の原則>

Playbook に基づいたワークフロー 1. Service Fundamentals 2. Service Health and Safe
Deployment Practice(SDP) 3. Operational Efficiency 4. Release and Change Management Automation 5. Reliability Risk Reduction 6. Scalability and Capacity Planning それぞれのフェーズに期間 / 成果 / KPI / タスク（それぞれのタスク単位の成果)を決めて実行する例) Service Fundamentals - 特定のスコアカードのスコア値 Service Health and SDP - BRAIN の検出精度 / SLO のカバレッジ Operational Efficiency - インシデント数 / アラートノイズ率 / TSG のカバレッジ Reliability Risk Reduction - Outage の調査 TSG = トラブルシューティングガイド

Safe Deployment Practice(SDP)

Azure におけるデプロイのスケール感変更のデプロイ数: 数百 / day <変更の主な種類> 新機能のリリースアーキテクチャ変更一部のコード修正
コンフィグ変更各リージョンへのデプロイは完全に自動化されている →変更すると直ちに障害が発生する可能性がある

安全なデプロイを実現するためにカナリアの活用 • カナリーリージョンへのリリース • ベイクタイムを設定し潜在的な障害パターンを検出段階的なリリース • リージョンペアとゾーンの段階的な
リリースヘルスシグナルの実装 • ヘルスモニタリングによる正常性メトリックの監視 • AIOｐｓによる異常検知ロールバックの実装 • 問題検出時の自動復旧

SLO / SLI

適切な SLI/SLO の設定 1. クリティカルユーザージャーニー(CUJO)の収集・検証天気予報を提供するサービスの場合: 例)ユーザーが翌日の天気予報データをアプリで表示する= CUJO 2. SLI
の特定 SLIは成功した操作の実際の割合を測定する: 例) 天気予報API呼び出しの成功率 3. SLO の定義顧客に公開される公式のサービスレベルアグリーメント (SLA) に関連付ける 4. サービスをインストルメント化 5. ダッシュボード化 6. 継続的な検証測定可能性、感度、関連性、SLI の標準の準拠

BRAIN(AIOps)

そのまえに... インシデント管理のはなし SREの仕事としてオンコールや障害分析を担当することがあるサービス停止のフェーズ: Detection / Triage / Investigation /
Mitigation 各フェーズに対する KPI: Time To Detect(TTD) Time To Engage(TTE) Time To Mitigate(TTM) Incident と Outage: Incident = 特定のコンポーネントやサービスの問題 Outage = サービス停止を伴う障害出典：Chen et al., ESEC/FSE 2020, DOI: 10.1145/3368089.3417055

そのまえに... インシデント管理用CRM: IcM 大規模障害の場合、このようなインシデントが大量に作成される... 出典：Chen et al., ESEC/FSE 2020,
DOI: 10.1145/3368089.3417055

インシデントの検出・トリアージ・相関関係の生成 BRAIN[1] Microsoft の AIOｐｓの取り組みのひとつ機械学習ベースサービスや IcM に組み込まれている
インシデント検出時系列データとイベントシーケンスから異常を検出インシデント自動トリアージインシデントに関するオンコールエンジニアのやりとりをもとに担当チームを特定インシデント相関関係冗長なエンジニアリング作業を軽減し、障害の影響範囲推定を支援出典：Chen et al., ESEC/FSE 2020, DOI: 10.1145/3368089.3417055

トリアージの精度向上 Triangle[2] LLM+エージェントを活用したトリアージの精度向上意味的蒸留メカニズム 3種類のキーフレーズ（障害の場所、症状、必要な能力）を抽出マルチロールエージェントフレームワーク 3つの専門化されたエージェント（Analyser、Triage Decider、Team
Manager）による協調作業エージェント間交渉最適なチーム選択（人間エンジニアの意思決定プロセスの模倣）チーム情報強化自動的にモニタリングデータベースから関連情報を収集し、エンドツーエンドの自動化を実現出典：Yu et al., "Triangle: Empowering Incident Triage with Multi-LLM-Agents", 2025. BRAIN を置き換えるものではない

AIOps の進化機能 BRAIN (2020) Triangle (2025) 主な目的インシデントの自動検出・トリアージ・相関関係の生成
トリアージ技術基盤従来の機械学習モデル (LSTM, GRU, ランダムフォレスト) 大規模言語モデル (LLM) + マルチエージェントシステムインシデント理解統計的特徴抽出とパターン認識意味的蒸留による深い言語理解トリアージ方法機械学習による自動分類 LLMエージェント間の交渉による合意形成外部情報活用過去インシデントと信号相関の活用自動的なチーム情報強化メカニズム人的介入エンジニアの作業を補助完全なエンドツーエンド自動化効果 TTD, TTE, TTM, TTB, TTFの短縮 20%以上の精度向上、TTEの大幅短縮 Azure の運用を支える AIOps #1【イントロ編】 https://zenn.dev/openjny/articles/78f91604a8c30f おすすめ！

SRE のしごとサービスのオンボーディング変更レビュー障害分析オンコールリスク分析標準化 etc... 今回主に説明するパート

変更レビューサービス停止の最も大きな原因 = 変更変更に関するOutageを無くすことをゴールに変更レビューの取り組み変更レビューの流れ 1. サービスのオンボーディング Dev→SRE: サービスの概要、リリースツールの理解、リリース頻度の理解
SRE→Dev: 変更レビューの理解 2. 変更レビューの実施リリース情報の登録、Pre-deployment call の実施 3. 変更の承認リスクレベルの判定と承認(もしくは保留・リジェクト)

変更レビュー Pre-deployment call の参加者リクエスター Dev 担当者ファシリテーター SRE 品質レビュアー
リクエスターのVP / Director / SRE 観点 • リクエスターは変更点やリスクを理解しているか • SDP に沿ったデプロイになっているか • テストは実施しているか • ロールバックは実装されているか • ヘルスシグナルは設定されているか • フィーチャーフラグは利用されているか • ペイロードは適切なサイズか • カナリア環境で十分なベイクタイムを経ているか総合的に判断しリスクレベルを評価参考: 安全なデプロイプラクティス https://learn.microsoft.com/ja- jp/devops/operate/safe-deployment-practices

つくってみたツール 1. レビューツールいい感じにしてくれる君ブラウザの拡張機能として開発デプロイ日時が過去日付の場合マーキングロールバック時間が未設定の場合にマーキング指定したリージョンの背景色変更見やすいCSSの適用結果: レビュー対象の漏れを防げるように
メンバーからも良い評価 2. 仮想的にレビューしてくれる君リリースの内容を取り込み変更点や問題点、確認が必要な点、リスクを評価 LangChainを使いエージェントとして実装リクエスター、QR、VPの役割の作成→レビュー結果を生成ブラウザ拡張によって、各レビューの画面から生成ページへジャンプ結果: 肌感覚で事前準備にかかる時間を20%くらい削減できた詳細はこちら https://zenn.dev/microsoft/articles/sr e-time-saving-tool-development

参考資料 [1] Chen, Z., Kang, Y., Li, L., Zhang, X.,
Zhang, H., Xu, H., Zhou, Y., Yang, L., Sun, J., Xu, Z., Dang, Y., Gao, F., Zhao, P., Qiao, B., Lin, Q., Zhang, D., & Lyu, M. R. (2020). Towards intelligent incident management: why we need it and how we make it. Proceedings of the 28th ACM Joint Meeting on European Software Engineering Conference and Symposium on the Foundations of Software Engineering (ESEC/FSE 2020), 1487-1497. https://doi.org/10.1145/3368089.3417055 [2] Yu, Z., Ma, M., Feng, X., Ding, R., Zhang, C., Li, Z., Chintalapati, M., Zhang, X., Wang, R., Bansal, C., Rajmohan, S., & Lin, Q. (2025). Triangle: Empowering Incident Triage with Multi-LLM-Agents. Unpublished manuscript, Microsoft Research. https://www.microsoft.com/en-us/research/publication/triangle- empowering-incident-triage-with-multi-llm-agents/

まとめ • パブリッククラウドにおいてもSLI/SLOの設定やインシデント管理、変更管理など地道なタスクに取り組んでいる • AIOｐｓはどんどん進化している • Azure の
SRE たちは日々 Passion をもって進化と改善に熱中してます！

Azure の裏側を支える SRE の世界

Azure の裏側を支える SRE の世界

tsubasa

More Decks by tsubasa

Other Decks in Technology

Featured

Transcript