Upgrade to Pro — share decks privately, control downloads, hide ads and more …

運用の優秀性 5つのステージと可観測性

Seigo Watanabe
June 28, 2024
500

運用の優秀性 5つのステージと可観測性

運用の優秀性 5つのステージと可観測性
〜 システム監視の「これまで」と「これから」 〜

https://classmethod.connpass.com/event/317870/

Seigo Watanabe

June 28, 2024
Tweet

More Decks by Seigo Watanabe

Transcript

  1. #devio2024 「運⽤」とは • 組織のリソースを活⽤し、 • 対価や評価を得ることを ⽬的に、 • 外部に対して、 •

    何らかのサービスを 継続的に 提供し続けること そのために必要な⾏動を 「運⽤」と定義する https://thinkit.co.jp/story/2010/12/16/1934?page=0%2C2 “(運用とは) サービスを継続的にデリバリ すること” ———— 波田野 裕一 / 運用設計ラボ合同会社 5
  2. #devio2024 SREの原則(Principle) #3 Well engineered software 巧妙な設計のソフトウェア ➡ 99.9% Well

    engineered operation 巧妙な設計の運⽤ ➡ 99.99% 良いサービスを作るだけでは 可⽤性に限界があるが、 良い運⽤は限界値を引き上げる https://www.usenix.org/conference/srecon17americas/program/presentation/rensin https://www.usenix.org/sites/default/files/conference/protected-files/srecon17_americas_slides_rensin.pdf “It takes well engineered operations -- including shared monitoring and fast rollbacks -- to get to 4 9” ———— David K. Rensin, Sr. Director of Engineering at Google 7
  3. #devio2024 • 初出:1995年 “The Discipline of Market Leaders” ◦ 邦題「ナンバーワン企業の法則」

    ◦ 3つある Value Disciplines の うちのひとつ ◦ ビジネス全体について ⾔及した⽤語 • 「運⽤の質」についての指標 オペレーショナル‧エクセレンス https://en.wikipedia.org/wiki/The_Discipline_of_Market_Leaders https://www.process-mining.jp/2020/03/03/value-of-pm-from-strategy/ 9
  4. #devio2024 AWS Well-Architected 6 つの柱 • Operational excellence (運⽤上の優秀性) •

    Security (セキュリティ) • Reliability (信頼性) • Performance efficiency (パフォーマンス効率) • Cost optimization (コスト最適化) • Sustainability (サステナビリティ) https://aws.amazon.com/jp/architecture/well-architected/ 10
  5. #devio2024 ほかにも • Google Cloud アーキテクチャ フレームワーク • Microsoft Azure

    Well-Architected Framework • Oracle (OCI)、Alibaba ... クラウドプラットフォームの 共通認識的な⽤語といえる (でも定義はまちまち) https://cloud.google.com/architecture/framework/operational-excellence?hl=ja https://learn.microsoft.com/ja-jp/azure/well-architected/operational-excellence/principles 11
  6. #devio2024 運⽤上の優秀性 - AWS Well-Architected 「運⽤上の優秀性」を  向上させる ➡ 運⽤の質が向上する ➡

    サービスの価値が向上する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/operational-excellence.html “優れたカスタマーエクスペリエンスを 着実に提供しながら、 ソフトウェアを正しく構築するために 取り組むこと” (a commitment to build software correctly while consistently delivering a great customer experience.) ———— 運用上の優秀性 / AWS Well-Architected Framework 12
  7. #devio2024 登壇者紹介 15 2021 APN AWS Top Engineer / ALL

    AWS Certifications Engineer 2022 APN ALL AWS Certifications Engineer 2023,2024 Japan AWS All Certifications Engineer 2019 Mackerel Ambassador 2023 New Relic Partner Trailblazer https://dev.classmethod.jp/author/watanabe-seigo/ https://www.credly.com/users/seigo-watanabe.29d196c2 ▸ クラスメソッド株式会社 アライアンス事業部 ▸ 指向 : 運⽤‧モニタリング‧SRE ▸ 好きな AWS サービス : Certificate Manager (ACM) Route 53 CloudWatch metric streams ▸ 好きな Google Cloud サービス : Compute Engine Live Migration Cloud Operations suite ▸ ネタを挟まないと死んじゃう病 渡辺聖剛 (Seigo Watanabe)
  8. #devio2024 本⽇のアジェンダ 1. イントロダクション 2. The Journey to Operational Excellence

    3. 運⽤上の優秀性と可観測性 4. デモ 5. これからの話 6. まとめ 16
  9. #devio2024 今⽇お話ししたいこと : より具体的には... The Journey to Operational Excellence (Ledet’s

    model of Operational Improvement) これをベースに お話しします https://www.assetivity.com.au/articles/reliability-improvement/reliability-in-operations/ 19
  10. #devio2024 運⽤上の優秀性 5つのステージ(Domain) Don’t fix it 《塩漬け》 Reactive 《故障対応》 Planned

    《計画的対応》 Proactive 《定常的な開発》 Strategic 《戦略的事業展開》 Fix it after it breaks Fix it before it breaks Don't just fix it, improve it Asset management ( No claim, No fix ) 問題が⾒つかれば 対応する 計画どおりに 対応する 多くはこのどちらか‧両⽅ monitoring 監視 が必要 表⾯化するまで 何も対応しない monitoring 監視 ある意味 不要... 20
  11. #devio2024 監視 = 問題 (異常) を⾒つけるための⼿段 運⽤ (サービスのデリバリ) に⽀障を来すような 問題‧異常の発⽣を

    検知する • 機器や処理の停⽌/遅延 • エラー • 利⽤期限 (証明書など) “監視とは 情報収集を行った結果に応じて 適切な宛先に発報すること” ———— IPA 非機能要求グレード 2018 04_項目一覧 C.1.3.1「運用監視」 計測 Measurement 検知 Detect 対処 Respond Resolve 21
  12. #devio2024 運⽤上の優秀性 5つのステージ(Domain) Don’t fix it 《塩漬け》 Reactive 《故障対応》 Planned

    《計画的対応》 Proactive 《定常的な開発》 Strategic 《戦略的事業展開》 Fix it after it breaks Fix it before it breaks Don't just fix it, improve it Asset management ( No claim, No fix ) 問題が⾒つかれば 対応する 計画どおりに 対応する monitoring 監視 が必要...? ? monitoring 監視 が必要 22
  13. #devio2024 監視だけでは「計画」に対応できない (本来の意味での) 監視 ➡ 発⽣した異常を検知し通知 • 特定の「ポイント」を監視 • その範囲でしか予測不能

    ➡ 複雑な未来予測や 現状分析を⾏うには 「監視」だけでは 不⼗分 https://commons.wikimedia.org/wiki/File:AxisCCTV.jpg 23
  14. “Monitoring means that you already know what is important. (監視は、何が重要かが

    既に判明している場合に 意味を持つ)” ⸺ Dr. Werner Vogels     CTO, Amazon https://dev.classmethod.jp/articles/202012-report-reinvent-keynote-observability/
  15. #devio2024 天気予報での「監視」と「可観測性」 https://www.flickr.com/photos/hiroooooki/821009 6693 監視(を行う) 可観測性(を高める) • 気温や湿度、降⽔量、⾵速 などを定点観測 •

    注意報‧警報 • ⾬が降ったら傘をさす ➡ 災害に備える‧回避する • 観測網の構築‧⾼度化 ◦ 観測点、センサー ◦ 各種レーダーや⼈⼯衛星 • 気象予測⽤のHPC導⼊ • 分かりやすい報道‧アプリ ➡ 予報精度の向上‧⻑期予報 27
  16. #devio2024 運⽤上の優秀性 5つのステージ(Domain) Don’t fix it 《塩漬け》 Reactive 《故障対応》 Planned

    《計画的対応》 Proactive 《定常的な開発》 Strategic 《戦略的事業展開》 Fix it after it breaks Fix it before it breaks Don't just fix it, improve it Asset management ( No claim, No fix ) 問題が⾒つかれば 対応する 計画どおりに 対応する o11y 可観 測性 monitoring 監視 計画的に動くには、 より⾼い 「可観測性」が必要 28
  17. #devio2024 モダン監視 : これからの監視 監視: 個々の動きを観察、個別に判断 モダン監視: 監視を多層的に組み合わせたもの https://newrelic.com/jp/blog/best-practices/what-is-observability-difference-from-monitoring https://www.oreilly.co.jp/books/9784873118642/

    “モダンな監視デザインの 最初のパターンは、 組み合わせ可能な監視です” ———— Mike Julian, “入門 監視” O’Reilly “モダン監視はオブザーバ ビリティに含まれる要素の ひとつであり、通過点” ———— 清水 毅, 上席エヴァンジェリスト, New Relic 30
  18. #devio2024 監視のモダナイゼーション 前提 : クラウドプラットフォーム (AWS等) を使うだけで インフラストラクチャの可観測性は⾼まる ‧デフォルトで⼤量のメトリクス収集 ‧ログや観測データの分析/保存機能も内蔵

    モダン監視 : これまで計測できていなかった領域‧⼿法による監視 ‧アプリケーション性能監視 (APM) ‧アプリケーション内部の観測 (profile)、リアルユーザ挙動監視 (RUM) ‧外インフラからのシンセティクス(合成)監視 ⾼度な統合と分析‧可視化 しきい値に加え「ふるまい」による異常 (anomaly) 検知 Reactive 《故障対応》 Planned 《計画的対応》 31
  19. #devio2024 AWS (CloudWatch) だけだと...? Gartner MQ的には チャレンジャーポジション 機能 (パーツ) は揃っているが

    統合性に⽋ける印象 ➡ 「監視」には⼗分以上 「モダン監視」というには 少し弱い (頑張りが必要) ➡ 運⽤にとって重要なのは不変! https://dev.classmethod.jp/articles/202310-cloudwatch-and-beyond/ 34
  20. #devio2024 デモ構成 AWS Cloud EC2 instance contents Apache MariaDB New

    Relic Agent ALB Session Manager EIP テレメトリデータ Linux OS WordPress PHP メトリックデータ (MetricStream) CloudWatch 35
  21. #devio2024 ➡ ステージが進むにつれ 可観測性 (o11y) の 重要度は増加していく 運⽤上の優秀性 5つのステージ(Domain) Don’t

    fix it 《塩漬け》 Reactive 《故障対応》 Planned 《計画的対応》 Proactive 《定常的な開発》 Strategic 《戦略的事業展開》 Fix it after it breaks Fix it before it breaks Don't just fix it, improve it Asset management ( No claim, No fix ) 問題が⾒つかれば 対応する 計画どおりに 対応する monitoring 監視 o11y 可観 測性 常に開発を継続し 問題点を未然に つぶす 全てのコストを 戦略的に コントロールする 38
  22. #devio2024 組織運営に 関わるひと (統制担当) Governance CCoE Platform Control 定常的な開発 =

    SDLC (Software Development Life Cycle) Code Review Build Deploy Operate Measure Improve Repeat 開発段階に 関わるひと (開発担当) ビジネスに 関わるひと (ビズ担当) 運⽤段階に 関わるひと (運⽤担当) 39
  23. #devio2024 組織運営に 関わるひと (統制担当) Governance CCoE Platform Control SDLC と

    DevOps Code Review Build Deploy Operate Measure Improve Repeat サービス展開に 関わるひとびと (サービス担当) 40
  24. #devio2024 SREの原則(Principle) #3 の続き Well engineered software 巧妙な設計のソフトウェア ➡ 99.9%

    Well engineered operation 巧妙な設計の運⽤ ➡ 99.99% Well engineered Business 巧妙な設計のビジネス ➡ 99.999% https://www.usenix.org/conference/srecon17americas/program/presentation/rensin https://www.usenix.org/sites/default/files/conference/protected-files/srecon17_americas_slides_rensin.pdf “It takes well engineered operations -- including shared monitoring and fast rollbacks -- to get to 4 9” ———— David K. Rensin, Sr. Director of Engineering at Google 41 “... and a well engineered business to get 5 9’s. Usually around making hard choices about SLOs and SLAs” ———— David K. Rensin, Sr. Director of Engineering at Google
  25. #devio2024 運⽤上の優秀性 5つのステージ(Domain) Don’t fix it 《塩漬け》 Reactive 《故障対応》 Planned

    《計画的対応》 Proactive 《定常的な開発》 Strategic 《戦略的事業展開》 Fix it after it breaks Fix it before it breaks Don't just fix it, improve it Asset management ( No claim, No fix ) 問題が⾒つかれば 対応する 計画どおりに 対応する 常に開発を継続し 問題点を未然に つぶす 全てのコストを 戦略的に コントロールする 表⾯化するまで 何も対応しない • 運⽤のステージに応じて必要な可観測性のレベルは異なる • より「上」の運⽤ステージに⾄るには、運⽤だけでは⾜りない • むしろサービス展開の全てが開発であり運⽤でありビジネス 42
  26. #devio2024 運⽤上の優秀性と監視‧可観測性 • Reactive な運⽤だけではサービス価値は上がらない • ステージを Planned ➡ Proactive

    へと上げていこう • そのためには 可観測性 (オブザーバビリティ) の向上とともに、 開発‧運⽤‧ビジネスが⼀体となっていく必要あり • その⼀歩⽬として 監視のモダナイゼーション、 つまり「モダン監視」の導⼊を! 44
  27. #devio2024 成功させるには “短距離⾛ではなく、マラソンである” “Remember: it's a marathon, not a sprint”

    45 https://cloud.google.com/blog/ja/products/gcp/sre-success-starts-with-getting-leadership-on-board