Upgrade to Pro — share decks privately, control downloads, hide ads and more …

「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用

「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用

JAWS-UG SRE支部#6でお話させていただいた資料です

Mitsuaki Tsugo

May 30, 2023
Tweet

Other Decks in Technology

Transcript

  1. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    Mitsuaki Tsugo
    Solution Architects
    Amazon Web Service Japan G.K.
    「エンジニアリングで運用を改善する」ための
    Amazon CloudWatch活用
    J A W S - U G S R E 支 部 # 6 2 0 2 3 / 5 / 2 9

    View Slide

  2. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    自己紹介
    津郷 光明 (Mitsuaki Tsugo)
    エンタープライズ技術本部
    ソリューションアーキテクト
    運用&DevOps系サービスの推進
    Observability / IaC

    View Slide

  3. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    Site Reliability Engineering
    「(ソフトウェア)エンジニアリングで運用を改善する」

    View Slide

  4. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    Site Reliability Engineering
    サービスの可用性、レイテンシ、パフォーマンス、効率性、変更管理、
    モニタリング、緊急対応、キャパシティプランニング…

    View Slide

  5. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark. 5
    サービスの信頼性・品質に責任を持つ

    View Slide

  6. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    なぜモニタリング・オブザーバビリティが必要か
    • 状態を把握することができ、共通理解を得られる・判断につながる
    • サービスの利用状況は?ユーザビリティ(障害、レイテンシー、機能充足)は?
    • 障害の検知、対応の効率化につながる
    • 障害点の把握、原因の特定、傾向の分析と対処
    • 特定の状態をパターン化することができ、自動化につながる
    • 可用性の低下、高いレイテンシー、キューの滞留
    • チームのリソースをより高度なタスクに活用し、サービスをより早く改善

    View Slide

  7. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    サービス状態や実際の利用状況をモニタリングする
    障害の把握や性能改善、機能改善につながる洞察を得る
    HW
    OS
    MW
    Application
    Client/Front
    Internet
    NW
    モニタリング対象

    View Slide

  8. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    サービス状態や実際の利用状況をモニタリングする
    障害の把握や性能改善、機能改善につながる洞察を得る
    インフラに限定せずアプリケーションまで含めて
    サービスを“総合的に”評価する必要がある
    HW
    OS
    MW
    Application
    Client/Front
    HW
    OS
    MW
    Application
    Client/Front
    Internet Internet
    NW NW
    モニタリング対象

    View Slide

  9. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    Amazon CloudWatchでサービスを総合的にモニタリング
    Infrastructure Application Monitoring
    Insights
    コンソールからのメニューで19機能︕
    AWSサービス名 概要
    CloudWatch Metrics メトリクス
    CloudWatch Log ログ
    CloudWatch Alarm アラーム
    CloudWatch Dashboard ダッシュボード
    CloudWatch Metrics Explorer メトリックス検索
    CloudWatch Metrics Stream メトリックスのリアルタイム連携
    CloudWatch Events
    ※Event Bridgeに統合
    イベント
    CloudWatch Resource Health EC2の健全性・パフォーマンス可視化
    AWSサービス名 概要
    CloudWatch Synthetics 外形監視
    CloudWatch RUM リアルユーザーモニタリング
    CloudWatch Evidently フィーチャーフラグA/Bテスト
    CloudWatch Internet Monitor インターネット監視
    CloudWatch ServiceLens トレース
    AWSサービス名 概要
    CloudWatch Contributor Insights ログの時系列分析
    CloudWatch Container Insights コンテナ分析
    CloudWatch Lambda Insights Lambda分析
    CloudWatch Application Insights アプリケーション分析
    CloudWatch Logs Insights LOG分析
    CloudWatch Metrics Insights メトリクス分析

    View Slide

  10. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    モニタリング・オブザーバビリティの機能を網羅的に提供
    [アラーム]
    CW Alarms
    [イベント]
    [メトリクス]
    CW Metrics
    [ログ]
    CW Logs
    [ログ分析]
    CW Logs Insights
    [統合]
    CW Dashboards
    メトリクスを送信
    ログを送信
    メトリクスに応じた
    アクション
    ログの可視化
    イベントに応じた
    ターゲットによる処理
    [タグベースの視覚化]
    CW Metrics Explorer
    Amazon Kinesis
    Data Firehose
    [メトリクスストリーム]
    CW Metrics Stream
    Amazon EventBridge/
    Amazon EventBridge
    Scheduler ※CW = CloudWatch
    AWSサービス
    オンプレミス/EC2
    CW Agent
    CW Metrics Insight
    Insights
    Application Monitoring
    [構造化ログによるメトリクス]
    CW Container Insights / Contributor Insights
    [Lambda拡張機能によるメトリクス]
    Lambda Insights
    [アプリケーションコンポーネントのメトリクス]
    Application Insights
    [外形監視]
    CW Synthetics
    [リアルユーザーモニタリング]
    CW RUM
    [フィーチャーフラグA/Bテスト]
    CW Evidently
    [インターネット監視]
    CW Internet Monitor
    [トレース]
    CW ServiceLens
    [ダッシュボードに統合]
    CW Dashboard
    メトリクスの
    可視化
    パートナー
    サービス、
    S3/Redshift
    Infrastructure

    View Slide

  11. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    サービスの品質・信頼性にむけてモニタリングすべき対象
    絶対の解はない
    11
    ビジネス要件やシステムによって千差万別
    本日はあくまで一例をご紹介

    View Slide

  12. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    モニタリングの例)サービスの品質・信頼性の積み上げ
    12
    ユーザー/
    クライアント
    サービス
    プロバイダ
    通信経路
    提供サービスの正常性確認
    • サービス提供のエラー、パフォーマンス
    • マイクロサービスにおける各サービスの状態
    ユーザビリティの確認
    • ユーザー視点でのレイテンシー、エラー
    • ユーザー影響の詳細な分析
    通信経路がユーザーに与える影響
    • インターネットが与える影響
    スコープを切ってモニタリングし、品質・信頼性を積み上げる
    スコープ モニタリング観点

    View Slide

  13. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    モニタリングの例)サービスの品質・信頼性の積み上げ
    13
    ユーザー/
    クライアント
    サービス
    プロバイダ
    通信経路
    提供サービスの正常性確認
    • サービス提供のエラー、パフォーマンス
    • マイクロサービスにおける各サービスの状態
    ユーザビリティの確認
    • ユーザー視点でのレイテンシー、エラー
    • ユーザー影響の詳細な分析
    通信経路がユーザーに与える影響
    • インターネットが与える影響
    スコープを切ってモニタリングし、品質・信頼性を積み上げる
    スコープ モニタリング観点

    View Slide

  14. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    サービスを提供する側から見た正常性確認
    14
    サービス状態を提供側の環境から継続的にテストし、
    提供するサービスの品質・信頼性をモニタリングする
    Internet
    モニタリング範囲
    ユーザー/クライアント サービスプロバイダ

    View Slide

  15. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    CloudWatch Synthetics
    Canary を使用し、24時間365日、ユーザー体験を模擬した継続的な監視
    ウェブサイトおよび API
    のエンドポイント監視
    クライアントサイドか
    らサーバーサイドへ
    継続的なモニタリング
    CloudWatch
    Synthetics CloudWatch Metrics
    Amazon EventBridge
    AWS X-Ray traces
    カスタム
    アクション
    Lambda
    (Provisioned
    canary)
    S3
    (HAR、スクリーンショット)
    CloudWatch
    Logs

    View Slide

  16. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    Canary Blueprint
    16
    6 種類の Blueprint が用意されており、基本的な用途であればコーディング不要
    No. Blueprint 特徴
    1 ハートビートのモニタリング 指定した URL にアクセスして、ページのスクリーン
    ショットと HTTP アーカイブファイル (HAR ファイル) を保存
    2 API Canary REST API に対してリクエストを送信して、応答をテスト
    3 リンク切れチェッカー テスト対象のURL内のすべてのリンクを収集し、
    リンク切れがないかテスト
    4 Canary レコーダー
    Google Chrome の拡張機能である CloudWatch Synthetics Recorder を
    利用して、ユーザ操作を記録し、テスト
    5 GUI ワークフロービルダー
    Web サイト上のユーザ操作ができるかを GUI ベースで
    作成してテスト
    6 ビジュアルモニタリング
    Web サイトの表示が変化していないかをベースラインと
    比較し、テスト
    Canary 設計図の使用
    https://docs.aws.amazon.com/ja_jp/AmazonCloudWatch/latest/monitoring/
    CloudWatch_Synthetics_Canaries_Blueprints.html

    View Slide

  17. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    モニタリングの例)サービスの品質・信頼性の積み上げ
    17
    ユーザー/
    クライアント
    サービス
    プロバイダ
    通信経路
    提供サービスの正常性確認
    • サービス提供のエラー、パフォーマンス
    • マイクロサービスにおける各サービスの状態
    ユーザビリティの確認
    • ユーザー視点でのレイテンシー、エラー
    • ユーザー影響の詳細な分析
    通信経路がユーザーに与える影響
    • インターネットが与える影響
    スコープを切ってモニタリングし、品質・信頼性を積み上げる
    スコープ モニタリング観点

    View Slide

  18. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    サービスにおける障害点・ボトルネックの特定
    18
    障害原因の特定やパフォーマンスボトルネック特定は難しい一方で、
    サービス全体の性能・品質に影響を与える可能性がある
    Service
    A
    Service
    D
    Service
    B
    Service
    F
    Service
    C
    Service
    E
    Service
    G

    View Slide

  19. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    CloudWatch ServiceLens
    AWS X-Rayと連動することでサービス間の依存関係や
    レイテンシ、レスポンス状態について視覚的に把握することが可能
    参考:AWS X-Ray BlackBelt
    https://www.youtube.com/watch?v=biYBazxFwxk&list=PLz
    WGOASvSx6FIwIC2X1nObr1KcMCBBlqY&index=28
    Service mapでノードとメトリクスを関連付けて確認 Service mapでトレースの詳細を見る
    Service mapでレスポンスタイムをチェック

    View Slide

  20. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    モニタリングの例)サービスの品質・信頼性の積み上げ
    20
    ユーザー/
    クライアント
    サービス
    プロバイダ
    通信経路
    提供サービスの正常性確認
    • サービス提供のエラー、パフォーマンス
    • マイクロサービスにおける各サービスの状態
    ユーザビリティの確認
    • ユーザー視点でのレイテンシー、エラー
    • ユーザー影響の詳細な分析
    通信経路がユーザーに与える影響
    • インターネットが与える影響
    スコープを切ってモニタリングし、品質・信頼性を積み上げる
    スコープ モニタリング観点

    View Slide

  21. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    インターネットが与える影響を確認する
    21
    モニタリング範囲
    Internet
    ユーザー/クライアント サービスプロバイダ
    インターネットの影響をモニタリングし、
    ユーザーのエクスペリエンスを向上する活動に役立てる

    View Slide

  22. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    CloudWatch Internet Monitor
    • AWS 上のアプリケーションに対してインターネットからアク
    セスした際の可用性とパフォーマンスメトリクスを
    CloudWatch で可視化可能に
    • ユーザから見た場合の可用性と性能をチェックできる
    • AWS のグローバルネットワークから取得した接続データに基づき
    モニタリング。問題がある場合はその影響や場所、プロバイダー
    などを可視化し、改善アクションを起こしやすくする
    • 例えば「概ね正常だがラスベガスからアクセスしているユーザは
    パフォーマンスが落ちている」といった状況が検出できる
    • VPC フローログや CloudFront ログの有効化は不要
    • 2023/02/28に一般提供開始
    顧客が利用するアプリケーションをホスト
    する、VPC /CloudFront ディストリビュー
    ション/WorkSpacesディレクトリを選択
    インターネットの問題がパフォーマンスや可用性にどのように影響しているかを可視化

    View Slide

  23. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    モニタリングの例)サービスの品質・信頼性の積み上げ
    23
    ユーザー/
    クライアント
    サービス
    プロバイダ
    通信経路
    提供サービスの正常性確認
    • サービス提供のエラー、パフォーマンス
    • マイクロサービスにおける各サービスの状態
    ユーザビリティの確認
    • ユーザー視点でのレイテンシー、エラー
    • ユーザー影響の詳細な分析
    通信経路がユーザーに与える影響
    • インターネットが与える影響
    スコープを切ってモニタリングし、品質・信頼性を積み上げる
    スコープ モニタリング観点

    View Slide

  24. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    ユーザー視点でのレイテンシー、エラー
    24
    実際のユーザーの利用状況およびデータをモニタリングすることで
    環境差異による影響や想定していない問題の早期発見、改善検討につながる
    モニタリング範囲
    Internet
    ユーザー/クライアント サービスプロバイダ

    View Slide

  25. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    CloudWatch RUM(リアルタイムユーザーモニタリング)
    アプリのパフォーマンスに関するクライアントサイドのデータをリアルタイムで取得
    • ダッシュボードでページの読み込み順序や
    JavaScript / HTTP レスポンスのエラーなど、
    パフォーマンス問題に関する情報を可視化
    • 同じ問題の影響下にあるユーザセッション数
    を提⽰するため、改修の優先順位を付けるこ
    とが容易
    • html ヘッダーにコードスニペットを挿入す
    ることで、クライアントサイドのパフォーマ
    ンスメトリクスをCloudWatch RUMに送信
    • Amazon CloudWatch ServiceLens、AWS
    X-Ray と組み合わせることも可能

    View Slide

  26. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    CloudWatch RUM
    カテゴリ 主な情報
    Performance
    (パフォーマンス)
    ページのロード回数 ページロード時間(「⽇付・24時間
    別」グラフあり)
    エラー数 Webバイタル
    リソースリクエスト 経時的なページロードのステップ
    アクセス元の地域/国
    Errors (エラー) エラー数と時間 エラーが発⽣したセッション数
    Sessions (セッション) 平均セッション⻑さ セッションあたりのエラー数
    Events (イベント) イベント数とイベント詳細
    Browser & Devices
    (ブラウザとデバイス)
    アクセスブラウザ種別内訳 ブラウザ別平均ページロード時間
    ブラウザ別のスループット
    (ページロード数/分)
    User Journey
    (ユーザージャーニー)
    ユーザーパス遷移とドロップ
    オフ数
    Apdex(参考)
    (ユーザー満⾜度指標)
    Web バイタルデータをはじめ、Webブラウザ統計 や ユーザー挙動の可視化・分析のための
    ダッシュボードを提供
    https://docs.aws.amazon.com/ja_jp/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM-apdex.html

    View Slide

  27. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    モニタリングの例)サービスの品質・信頼性の積み上げ
    27
    ユーザー/
    クライアント
    サービス
    プロバイダ
    通信経路
    提供サービスの正常性確認
    • サービス提供のエラー、パフォーマンス
    • マイクロサービスにおける各サービスの状態
    ユーザビリティの確認
    • ユーザー視点でのレイテンシー、エラー
    • ユーザー影響の詳細な分析
    通信経路がユーザーに与える影響
    • インターネットが与える影響
    スコープを切ってモニタリングし、品質・信頼性を積み上げる
    スコープ モニタリング観点

    View Slide

  28. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    一歩踏み込んだ品質・信頼性の確認、分析
    28
    正常に見えてもユーザー視点で本当に問題がないか、様々な観点で分析を行う必要がある
    外形監視やリアルタイムユーザーモニタリングでは把握できない粒度で
    詳細なユーザー影響の分析が重要
    99.9%問題ない状況でも…
    ex.1) 特定のユーザーにエラーが偏る ex.2) 正常なレスポンスはレイテンシーが大きい
    リクエスト数
    レイテンシー
    3xx 4xx
    2xx
    5xx

    View Slide

  29. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    一歩踏み込んだ品質・信頼性の確認、分析
    29
    正常に見えてもユーザー視点で本当に問題がないか、様々な観点で分析を行う必要がある
    外形監視やリアルタイムユーザーモニタリングでは把握できない粒度で
    詳細なユーザー影響の分析が重要
    99.9%問題ない状況でも…
    ex.1) 特定のユーザーにエラーが偏る ex.2) 正常なレスポンスはレイテンシーが大きい
    リクエスト数
    レイテンシー
    3xx 4xx
    2xx
    5xx

    View Slide

  30. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    CloudWatch Contributor Insights
    • CloudWatch Logs の構造化されたログデータを解析
    • コントリビューターデータを表示する時系列グラフを作成
    • 異常値の抽出、最も重いトラフィックパターンの発見、上
    位のシステム処理に関するランク付けなどを行う
    • 例1)エラーを最も多く生成する Product Id
    • 例2)レスポンスタイムが大きいユーザー
    高カーディナリティなログを解析し、誰あるいは何が、
    システムやアプリケーションのパフォーマンスに影響を及ぼしているか発見

    View Slide

  31. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    Metric Math
    • METRICS関数、基本的な算術関数をはじめとした関数をサポート
    • メトリクスに[Id]フィールドを設定し、関数で利用
    コマンド 説明 例
    AVG データポイントの平均を表すスカラー メトリクスの平均値:AVG(METRICS())
    SUM データポイントの合計値を表すスカラー メトリクスm1,m2の合計値:SUM([m1,m2])
    METRICS CloudWatch メトリクスを表す メトリクスreqall:METRICS(“reqall”)
    ユースケース
    全リクエストのうち4XX,5XX
    レスポンスの割合を表示
    SUM([METRICS("res4xx"),METRICS("res5xx")])
    /SUM(METRICS("reqall"))
    etc
    CloudWatch メトリクスに数式を使用して、新しいメトリクスを作成

    View Slide

  32. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    Contributor Insights × Metric Math
    何%の顧客に影響があるのかを一目で判断できる
    リクエストエラーとなったクライアントの割合を算出する
    INSIGHT_RULE_METRIC(ruleName, metricName) の 関数 (Metric Math) を活用
    𝐼𝑁𝑆𝐼𝐺𝐻𝑇_𝑅𝑈𝐿𝐸_𝑀𝐸𝑇𝑅𝐼𝐶(𝐸𝑟𝑟𝑜𝑟𝑠𝑃𝑒𝑟Client, 𝑈𝑛𝑖𝑞𝑢𝑒𝐶𝑜𝑛𝑡𝑟𝑖𝑏𝑢𝑡𝑜𝑟𝑠)
    𝐼𝑁𝑆𝐼𝐺𝐻𝑇_𝑅𝑈𝐿𝐸_𝑀𝐸𝑇𝑅𝐼𝐶(𝑅𝑒𝑞𝑢𝑒𝑠𝑡𝑠𝑃𝑒𝑟Client, 𝑈𝑛𝑖𝑞𝑢𝑒𝐶𝑜𝑛𝑡𝑟𝑖𝑏𝑢𝑡𝑜𝑟𝑠)
    • ruleName: Contributor Insights ルールの名前
    例)ユーザーごとのエラー数、ユーザーごとのリクエスト数
    • metricName: データタイプが決まる
    例)UniqueContributors – 一意のデータ数
    エラーとなったクライアント数
    クライアント総数

    View Slide

  33. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    一歩踏み込んだ品質・信頼性の確認、分析
    33
    正常に見えてもユーザー視点で本当に問題がないか、様々な観点で分析を行う必要がある
    外形監視やリアルタイムユーザーモニタリングでは把握できない粒度で
    詳細なユーザー影響の分析が重要
    99.9%問題ない状況でも…
    ex.1) 特定のユーザーにエラーが偏る ex.2) 正常なレスポンスはレイテンシーが大きい
    リクエスト数
    レイテンシー
    3xx 4xx
    2xx
    5xx

    View Slide

  34. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    CloudWatch Logs メトリクスフィルタ
    • ログデータから特定の文字列のフィルタリングが可能
    • フィルターとパターンの構文で指定できる範囲内で文字列をフィルターが可能
    • 特定文字列のエントリ頻度等によりアラーム作成、SNS連携が可能
    • メトリクスにパブリッシュさ
    れる値を設定(ERRORが含ま
    れた単純なパターン数を求め
    る時はメトリクス値1を指定)
    • 一致したログをカウントした値
    をメトリクスにできる
    • 定義したパターンに一致した時に
    CloudWatch Logsのログをフィルタしてメトリクスにパブリッシュ

    View Slide

  35. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    メトリクスフィルタ × Metric Math
    正常なレスポンスのうちレイテンシの大きかった割合を把握できる
    メトリクスフィルタによるWebサーバのアクセスログのメトリクス化
    count ( status_code:200 and 高レイテンシ)
    count ( status_code:200)
    メトリクスフィルタ Metric Math
    Webサーバ
    access_log

    View Slide

  36. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    まとめ
    • SREはサービスの信頼性、品質に責任を持つ
    • 品質をモニタリングし定量的にサービスの状態を表すことがSREにおいて重要
    • CloudWatchはシステムを総合的にモニタリングする機能を網羅的に有する
    • 非機能・機能に跨いでサービスを総合的に把握・分析することが重要であり、
    CloudWatchの機能を組み合わせることでそれらを実現することができる
    36

    View Slide

  37. 「エンジニアリングで運用を改善する」ためのAmazon CloudWatch活用
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark.
    Thank you!

    View Slide