Upgrade to Pro — share decks privately, control downloads, hide ads and more …

運用者が見るべき、ダッシュボードと問題の把握

masaaki_K
December 05, 2024

 運用者が見るべき、ダッシュボードと問題の把握

日本IBM CSM TEAMのnoteにアップロードする資料です。

クリエイターページのURLは下記となります。
https://note.com/ibmj_csm/

APM製品である、IBM Instana Observabilityのダッシュボードで見るべき要点をまとめています。
はじめて運用する人でも、APMがどのような効果をもたらすのかを説明した資料です。

masaaki_K

December 05, 2024
Tweet

More Decks by masaaki_K

Other Decks in Technology

Transcript

  1. Copyright ©2024 IBM Corporation. 運用する人は、APMのどこを押さえるべきか どこを見るのか? ダッシュボードを開けば、多くの情報を 見ることができます。 しかしどこを見ていくのでしょうか? 何のために見るのか?

    障害対応のために見るのでしょうか? それとも日々の様子を見るためですか? 意図を持った情報収集が必要です。 運用側にとって見える項目が増えるのは効果的なトラブルシュートに役立てることができます。 しかし、見なければならない項目が増えるのは、苦痛となってしまいます。 まず見れば良い情報や見る意味によって参照する場所を理解して、 能動的なシステム監視に役立てていくことを目標にしましょう!
  2. Copyright ©2024 IBM Corporation. Instanaで見る、基本のダッシュボード ・アプリケーション 監視対象のアプリケーションが一覧で表示されます。 呼び出し、待ち時間、エラーのある呼び出し率、正常性 といった上記の項目が一目でわかります。 ・インフラストラクチャー

    物理、仮想、クラウド、ハイブリッド、コンテナといった、 各種インフラをモニターすることが可能です。 ・イベント レベル別のインシデントの一覧が表示されており、 障害が起きた時は、詳細の把握ができます。 サイドバーの基本で使う項目
  3. Copyright ©2024 IBM Corporation. CPUとメモリ使用率を把握する(1/2) ・マッピングによって視覚的 に把握します インフラの情報を選択して、 ダッシュボードで詳細を把握が できます。

    フィルターによって、インフラ のホストやノードを絞り込むこ とも可能です。 多くのインフラが表示されてい ても特定が容易になります。 インフラストラクチャーを選択する
  4. Copyright ©2024 IBM Corporation. 障害発見時のフロー – APM未導入の流れ - インシデント 発生

    情報 収集 障害 場所 障害 内容 対処 方法 障害の レベル 原因 解析 障害 対処 復旧 IBM Instana Observabilityが カバーしているエリア。 原因 特定
  5. Copyright ©2024 IBM Corporation. 障害発見時のフロー – Instana導入後の場合 - インシデント 発生

    情報 収集 障害 対処 復旧 原因 特定 一覧画面から 問題の把握 問題の詳 細を閲覧 エラーまでの イベント確認 ツリーから 原因解析 数クリックで特定できることで、従来の障害発見より解決が速くなります。 今回は問題発見から特定までの流れを見ていきましょう。 Instanaで確認 →数クリックで特定 従来よりも 早く解決する
  6. Copyright ©2024 IBM Corporation. 障害原因特定までのシナリオ 一覧画面から 問題の把握 問題の詳 細を閲覧 エラーまでの

    イベント確認 ツリーから 原因解析 ・一覧画面から問題の把握 今回はリクエストの急激な現象という問題を見ていきます。 ・問題の詳細を閲覧 問題の箇所は自動でツリー表示されるので、状況を把握していきます。 ・エラーまでのイベント確認 エラーが起こってからのイベントが表示されるので、関連する情報を精査します。 ・ツリーから原因解析 把握した情報の分析をさらに行い、原因を解析します。
  7. Copyright ©2024 IBM Corporation. 運用者が見るべきポイントをもう一度 どこを見るのか? ダッシュボードを開けば、多くの情報を 見ることができます。 しかしどこを見ていくのでしょうか? 何のために見るのか?

    障害対応のために見るのでしょうか? それとも日々の様子を見るためですか? 意図を持った情報収集が必要です。 問題特定が早いこと、そして監視のポイントを確認します。 Instanaは既存の製品とは違った視点から問題にアプローチしています。 インフラストラクチャーやCPU使用率、ディスクI/Oなどを取得することです。 従来の監視は全体的なログ収集から問題を見つけるものです。 Instanaはトランザクションからリクエストなど、細かい監視を行っています。 今まで技術者が調べていた詳細なシグナルを拾い、問題特定までを早くしています。 AIと機械学習による自動的な分析を実現したツールです。