Upgrade to Pro — share decks privately, control downloads, hide ads and more …

多様なメトリックとシステムの健全性維持

masaaki_K
December 18, 2024

 多様なメトリックとシステムの健全性維持

日本IBM CSM TEAMのnoteにアップロードする資料です。

クリエイターページのURLは下記となります。
https://note.com/ibmj_csm/

メトリック、ゴールデンシグナルについて、資料では取り上げています。
AI、機械学習によって迅速に課題を見つけるAPMの動きについて、説明をしています。

masaaki_K

December 18, 2024
Tweet

More Decks by masaaki_K

Other Decks in Technology

Transcript

  1. Copyright ©2024 IBM Corporation. ・メトリック システムやアプリケーションの「状態」のことです。 人間でいう血圧や心拍数、血中濃度などの「指標」をメトリック( Metric )と呼びます。 多くのメトリックが存在しています。

    メトリックは、常にデータポイントと一体となっています。 データポイントは指標の「値」のことであり、測定時の「数値」です。 メトリックのデータポイント=指標の数値といえます。 ・予兆検知 システム障害やパフォーマンスの問題を、兆候から把握することです。 事前に検知することで、問題を顕在化させないようにします。 放置すれば起こっていたであろう問題を、未然に防ぐことが目的です。 メトリックと予兆検知の意味とは?
  2. Copyright ©2024 IBM Corporation. メトリック 名前のついたカテゴリ メトリック=状態=指標 名前のついたカテゴリであるといえます。 心拍数 60

    体重 60Kg 基礎代謝 1500 CPU使用率 XX% 呼び出し XX件 リクエスト XX件 人間 システム データポイント メトリックの数値 メトリックを人間に例えて考える
  3. Copyright ©2024 IBM Corporation. ・一般的なメトリック CPU使用率 :コンピュータのCPUの稼働率を表します。 メモリ使用率 :コンピュータのメモリ使用率を表します。 リクエスト数

    :ユーザーからのリクエスト(要求)を表します。 レイテンシ(遅延) :リクエストに対して、応答する時間を表します。 エラー率 :失敗したリクエストの割合を表します。 ディスクI/O :ディスクのデータの読み書きの量を表します。 ・その他のメトリック APIの応答時間 :APIの応答を測定し、時間で表します。 データベースクエリ応答時間 :クエリにかかる応答を測定し、時間で表します。 ネットワーク遅延 :ネットワーク上で送受信する際にかかる時間を表します。 セッション数 :同時接続ユーザーやクライアントのセッションの数を表します。 UX数値 :ユーザー体験の数値化、読み込みなどUXに関わる時間を表します。 スレッド数 :システムやアプリケーションが処理している作業単位を表します。 など、多様にあります。 →従来から多く監視されてきた指標。 →見ることはできたが、APMで容易に見られるようになった指標。 メトリックの種類を理解する
  4. Copyright ©2024 IBM Corporation. メトリックの中でも重要な指針をゴールデンシグナルと呼ぶ 参考: https://cloud.google.com/blog/ja/products/management-tools/the-right-metrics-to-monitor-cloud-data-pipelines レイテンシ トラフィック エラー

    飽和度 ゴールデンシグナルとは、システムの健全性を把握するための重要な指標です。 メトリックの一部であり、上記の4つに注目することで潜在的な問題を早期に発見できます。 飽和度(サチュレーション):システムの使用率、リソースがフルになるまでどれだけ近いかを表します。 ゴールデンシグナルとメトリックについて
  5. Copyright ©2024 IBM Corporation. レイテンシ トラフィック エラー 飽和度 レイテンシを監視することで、 パフォーマンスの悪いサービスの

    特定が早くなります。 ユーザーからのトランザクション が与える負荷を監視することで、 負荷の変化によるシステムの変化 を把握することができます。 エラーを監視することは、重大か どうかの判断に役立ちます。 頻度の高いエラーは素早く解決し、 重要度で対応も変化できます。 システムは100%になる前に パフォーマンスが低下し始めます。 そのためどの程度リソースを利用 して良いのかの指針となります。 健全なシステムとはシステム利用者にとって「いつでも利用可能な状態であること」です。 4つのメトリックを監視することが、健全なシステム運用に繋がります。 ゴールデンシグナルの活用でなにが変わる?
  6. Copyright ©2024 IBM Corporation. ところで、APMと従来の監視は何が違うのか 監視 Monitoring APM Application Performance

    Management 可観測性 Observability – データの収集 – 閾値設定とアラート – 基盤的観点が注視 • プロセス監視 • ログ・メッセージ監視 • メトリック監視 – インシデントへの対応 – 事後的 Passive – アプリケーション層まで 含めたデータの収集 – サービスレベルの把握 • スループット • エラー発生率 • 応答性能 – ビジュアル・ダッシュボード – システムの複数の層にわたる データの収集と リアルタイムの分析 – 複雑化したシステムを 「積極的に」理解し 問題状況の把握を行う 動的なプラクティス インフラのリソースの監視
  7. Copyright ©2024 IBM Corporation. AI/ML(機械学習)によるインテリジェントなアクション 10 ✓ 固定的なしきい値監視だけ では拾えない ✓

    大量のイベント通知 ✓ メトリック値だけでは なにが起きているか わからない ! 従来型モニタリングの課題 APMは問題の要因を理解して、迅速に解決に導きます 要求数、エラー数、応答性能などのゴールデン・シグナルに対して 機械学習が適応され、通常と違う振る舞いを検知します。
  8. Copyright ©2024 IBM Corporation. ・監視対象 従来の監視ツールはインフラのリソースに焦点を当てているのが特徴です。 APMはアプリケーションの動作やトランザクションのレベルで追跡しています。 APM利用による3つの変わった点 ・多様なメトリックによる、細かなアラート 従来はCPU使用率やメモリ使用率などが閾値を超えた時に、アラートを通知しています。

    APMではAPIの応答時間やエラー発生をトリガーにすることができます。 ・AI/MLの活用による迅速かつ的確な検知 AI/MLによって、異変を検知し的確なアラートを通知します。 また、APMでは細かなポイントを可視化しており、影響範囲を含めて検知します。
  9. Copyright ©2024 IBM Corporation. 多様な メトリック アラートの 通知を行う 予兆検知 リアルタイム監視によって、

    メトリックから警告を検出 各状況から潜在的な課題を 洗い出し、アラートとして通知する 予兆検知によって、問題が解決する データは蓄積され、繰り返される 可用性を高めるために、障害が起きる前に対応できれば理想的な運用になります。 従来の監視では、障害が起きてからの通知となります。 多様なメトリックを監視できるAPMでは、予兆的な検知を行なえます。 ・予兆検知サイクルの略図 インテリジェントなアクションで予兆検知も可能になる AI/MLの活用
  10. Copyright ©2024 IBM Corporation. リアルタイム検知 優先度の決定 早期対応 常に健全な システム ゴールデンシグナルを含むメトリックの監視により障害を検知。

    リアルタイムで検知/通知が可能となります。 エラーや飽和度のアラートによって、 影響が大きい問題の優先度が決まります。 トラフィックやレイテンシによって、 重大な障害につながる前に対応ができます。 多くのメトリックを監視するAPMによって、 システムを健全に維持できます。 APMによる検知とアラートまでの流れ
  11. Copyright ©2024 IBM Corporation. ・データによる意思決定 メトリックによって、アーキテクチャの見直しや容量に対する 事前計画をデータドリブンで行うことができます。 ・顧客満足度の向上 レスポンスが改善すること、システムが長期間安定稼動することによって、 顧客のサービス体験は向上が期待できます。

    ・パターン蓄積による運用簡易化 飽和のシグナルによって、リソース不足になるパターンの蓄積が行われます。 予測的なリソース管理が可能となります。 ゴールデンシグナル以外のメトリックの監視も重要です。 各メトリックが見れることで、得られる可能性が広がります。 メトリックは多様な可能性を持っている