Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI×オブザーバビリティを活用した今どきのトラブルシューティング #AWS

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

AI×オブザーバビリティを活用した今どきのトラブルシューティング #AWS

2026年1月16日のAWSイベントで登壇した際の資料です。

Avatar for Satoshi Matsuzawa (Matt)

Satoshi Matsuzawa (Matt)

January 16, 2026

More Decks by Satoshi Matsuzawa (Matt)

Other Decks in Technology

Transcript

  1. ©Hitachi, Ltd. 2025. All rights reserved ― 実運用を支えるAWS最新AI機能の活用 AI×オブザーバビリティを活用した今どきのトラブルシューティング 株式会社

    日立製作所、シニアクラウドアーキテクト Hitachi Application Reliability Centers(HARC) Japan 兼 Hitachi OSPO 松沢 敏志 Date January 16, 2026
  2. ©Hitachi, Ltd. 2025. All rights reserved 1 Hitachi | AI×オブザーバビリティを活用した今どきのトラブルシューティング

    ― 実運用を支えるAWS最新AI機能の活用 自己紹介 松沢 敏志 (まつざわ さとし) シニアクラウドアーキテクト、株式会社日立製作所/HARC Japan*1兼Hitachi OSPO所属 @chacco38 Top5: #AWS #Azure #GoogleCloud #SRE #FinOps *1: Hitachi Application Reliability Centers - クラウドサービスやクラウドネイティブ技術を活用したソリューション開発/改善支援など、 エンジニアリング/SRE/FinOpsチームへの技術的なアドバイスや指導に従事 - ‘21-23, 25 Japan AWS Top Engineers、Google Cloud Partner Top Engineer ’26 などの受賞歴、著書に『合格対策Microsoft認定資格AZ-204』(リックテレコム) - FinOps Foundation Japan Chapter運営およびFinOpsメンターなどの活動を通じて 国内への普及促進に貢献、翻訳書に『クラウドFinOps 第2版』(オライリー・ジャパン) - New Relic Trailblazerなどを通じてオブザーバビリティ分野の普及促進にも貢献 - 元々はソフトウェアエンジニア、L3サポートエンジニア (Linux、Kubernetes・・・) など in/satoshi-matsuzawa \3/21発売予定/
  3. ©Hitachi, Ltd. 2025. All rights reserved 2 Hitachi | AI×オブザーバビリティを活用した今どきのトラブルシューティング

    ― 実運用を支えるAWS最新AI機能の活用 突然ですが、ここで質問です! AWS上のWebサービスでトラブル発生! その時、あなたならどう動きますか?
  4. ©Hitachi, Ltd. 2025. All rights reserved 3 Hitachi | AI×オブザーバビリティを活用した今どきのトラブルシューティング

    ― 実運用を支えるAWS最新AI機能の活用 AWS上のWebサービスでトラブル発生!その時、あなたならどう動きますか? よくあるパターンA、伝統的な”ログ探索”の旅へ出る 例: CloudWatch Logsなどを開いて、 トラブルが発生した時間帯のログを検索 「フロントエンドではエラーがでていないので、 バックエンドのログを見てみよう」 「DBの応答が遅そうだ、スロークエリログを見てみよう」 「フロントエンドまで届いてない、 ロードバランサやWAFのアクセスログを見てみよう」 クラウドでは二桁サービスの組み合わせが当たり前、 登場人物が増えるとパズルを解くようにログをつなぎ 合わせる「職人技」と「時間」が必要で、いきなりログ から見に行くのは正直しんどい、、、
  5. ©Hitachi, Ltd. 2025. All rights reserved 4 Hitachi | AI×オブザーバビリティを活用した今どきのトラブルシューティング

    ― 実運用を支えるAWS最新AI機能の活用 AWS上のWebサービスでトラブル発生!その時、あなたならどう動きますか? よくあるパターンB、モダンな”オブザーバビリティ”による分析 例: Application Signalsのサービスマップを開いて、 赤くなっている(エラー率が高い)箇所や影響範囲を把握、 そこから関連トレースへとドリルダウンして原因を特定 これが理想なのかもしれないけど、トレースの埋め込み が大変そうだし、なんだかツールの学習コストも高そう。 ウチのプロジェクトで使いこなせる気がしない、、、
  6. ©Hitachi, Ltd. 2025. All rights reserved 5 Hitachi | AI×オブザーバビリティを活用した今どきのトラブルシューティング

    ― 実運用を支えるAWS最新AI機能の活用 よくあるパターンB、モダンな”オブザーバビリティ”による分析 補足、Amazon CloudWatch Application Signalsとは 参考: Application Signals - Amazon CloudWatch 従来の監視では見えにくい、AWS上で動作するアプリケー ションの内部状態や挙動を把握できるようにする機能 • テレメトリの自動収集: OpenTelemetry技術をベースに、コード 改修なしでデータ収集(もちろんコード改修して業務固有のカ スタムテレメトリの収集なども可能) • トポロジーの自動可視化: サービス/コンポーネント間の依存関 係を自動的にマッピング • 統合ダッシュボード: アプリケーションの内部状態の可視化 • サービス品質の監視: ユーザー視点でのSLOモニタリング、外形 監視(CloudWatch Synthetics)やリアルユーザー監視 (CloudWatch RUM)との連携 SLO: サービスレベル目標 (Service Level Objective)
  7. ©Hitachi, Ltd. 2025. All rights reserved 6 Hitachi | AI×オブザーバビリティを活用した今どきのトラブルシューティング

    ― 実運用を支えるAWS最新AI機能の活用 AWS上のWebサービスでトラブル発生!その時、あなたならどう動きますか? 今日紹介したいパターンC、”AI”がデータとツールを横断的につなげるスタイル 例: VS Code上でKilo CLI Chatを起動して 「アプリで5xxエラーが発生した原因を分析して」と入力 あらかじめ設定した各種MCPサーバーを介して • CloudWatch、Application Signalsの各種データにアクセス • 現象に紐づくトレースをたどって、エラーの発生源を特定 • 公式ドキュメントや各種ナレッジデータベースから情報を収集 • エディタで開いているコードに対する修正案を提示、など もちろんすべてを鵜呑みにするのは危険、裏どり必須! とはいえ、さまざまなデータを相関分析し、被疑部に当 たりを付けるまでを数秒~数分という圧倒的なスピード でできるので一次調査としては十分使えるレベルです。 くらいなら簡単に自動でできちゃう時代です。 、、、すると、AI≒データ分析が得意な若手エンジニア(部下) が
  8. ©Hitachi, Ltd. 2025. All rights reserved 7 Hitachi | AI×オブザーバビリティを活用した今どきのトラブルシューティング

    ― 実運用を支えるAWS最新AI機能の活用 今日紹介したいパターンC、”AI”がデータとツールを横断的につなげるスタイル AI×オブザーバビリティを機能させるための”4つの準備” ① IDE(統合開発環境) ② AIアシスタント ③ MCPサーバー ④ テレメトリデータ VS Code、IntelliJ IDEA、 Eclipseなど Amazon Q Developer、 GitHub Copilotなど Knowledge、CloudWatch、 Application Signalsなど アプリケーションやリソースの メトリクス、ログ、トレースなど 最近は一体となったAI IDEも登場! P.S. Kiroについては過去に技術ブログも書いたので参考にしてみてください。 話題のAI IDE「Kiro」、ノリ(Vibe)を超えた”仕様駆動開発”の衝撃 #AWS - Qiita 今日はこの2つについて 以降のスライドでもう少しだけ 説明してきます。 =UI層 (エージェント・MCPクライアント機能を含む)
  9. ©Hitachi, Ltd. 2025. All rights reserved 8 Hitachi | AI×オブザーバビリティを活用した今どきのトラブルシューティング

    ― 実運用を支えるAWS最新AI機能の活用 AI×オブザーバビリティを機能させるための「4つの準備」 AWS公式が続々公開!調査を加速させる”MCPサーバー” 参考: https://awslabs.github.io/mcp/ MCPサーバーとは、AIと外部のツールや データと接続するためのコネクタ AWS公式として100種以上が公開されています とりあえず全部つなげとけばいいんでしょ?は間違い! AIエージェントはとても有用ですが、一度に扱える情報 量には限界があり、つなげすぎは逆に精度を落とすこと になります。(将来的には改善される可能性あり) ちなみに、個人的によく使うMCPサーバー: • AWS Knowledge MCP Server ★ • AWS API MCP Server • AWS Pricing MCP Server • AWS Billing and Cost Management MCP Server • AWS CFM Tips MCP Server • AWS CloudWatch MCP Serer ★ • AWS CloudWatch Application Signals MCP Server ★ • AWS Terraform MCP Server
  10. ©Hitachi, Ltd. 2025. All rights reserved 9 Hitachi | AI×オブザーバビリティを活用した今どきのトラブルシューティング

    ― 実運用を支えるAWS最新AI機能の活用 AI×オブザーバビリティを機能させるための「4つの準備」 調査を強化するための”テレメトリデータ”取得のベストプラクティス 参考: https://docs.aws.amazon.com/ja_jp/AmazonCloudWatch/latest/monitoring/Investigations-RecommendedServices.html テレメトリデータとは、ログ、メトリクス、トレースなどの 異常検知やトラブルシューティングに不可欠なデータ 有用なデータを取得するためにやっておくべきこと: 1. EC2を利用している場合は、CloudWatchエージェントを最新化 しておきましょう。 2. AWS上のリソース設定の操作履歴をCloudWatch Logsへ送信 するようにCloudTrailを有効化しましょう。 3. アプリケーション間の依存関係やトレース情報を収集できるように CloudWatch Application Signalsを有効化しましょう。 4. ECSやEKSを利用している場合は、コンテナ内の詳細情報を収集 できるようにContainer Insightsを有効化しましょう。 5. RDSを利用している場合は、データベースの詳細情報を収集でき るようにDatabase Insights Advancedを有効化しましょう。 公式サイトにはX-rayの有効化についても記載されてま すが、X-Ray SDKおよびX-Rayデーモンは2027年2月に サポート終了が決まっています。これからトレースを始める なら、Application Signalsを使うようにしましょう!
  11. ©Hitachi, Ltd. 2025. All rights reserved 10 Hitachi | AI×オブザーバビリティを活用した今どきのトラブルシューティング

    ― 実運用を支えるAWS最新AI機能の活用 調査を強化するためのテレメトリデータ取得のベストプラクティス アプリケーション間の依存関係やトレース情報の収集ってなんか大変そう、、、 ①サービス検出を有効化して ②Lambdaの場合は有効にしたい関数を 選んでEnableボタンを押すだけ 参考: https://docs.aws.amazon.com/ja_jp/AmazonCloudWatch/latest/monitoring/CloudWatch-Application-Monitoring-Sections.html
  12. ©Hitachi, Ltd. 2025. All rights reserved 11 Hitachi | AI×オブザーバビリティを活用した今どきのトラブルシューティング

    ― 実運用を支えるAWS最新AI機能の活用 今日紹介したいパターンC、”AI”がデータとツールを横断的につなげるスタイル まとめ、明日から始める「AI×オブザーバビリティ」を活用した運用 トラブルシューティングは、AIと共に解決するステージへ 1. AIエージェントを使える環境を整えてみてください • IDEにAIアシスタントを入れる • 利用するMCPサーバーを設定する 2. 調査に有用なデータを収集できるようにする • CloudWatchエージェントを最新化する • CloudTrailを有効化する • Application Signalsを有効化する • Container Insightsを有効化する • Database Insights Advancedを有効化する
  13. ©Hitachi, Ltd. 2025. All rights reserved 12 Hitachi | AI×オブザーバビリティを活用した今どきのトラブルシューティング

    ― 実運用を支えるAWS最新AI機能の活用 ちなみに、今回の例ではHuman-in-the-loopなAIエージェントでしたが、、、 おまけ、AWS DevOps Agent(プレビュー)ではアラートをトリガーに障害解析を自動で動かせる! Datadog、New Relic、Dynatrace、Splunk、GitHub、 Gitlab、ServiceNow、Slackなどの3rd Partyにも接続可能 参考: https://aws.amazon.com/jp/devops-agent/ GA後の料金体系は不明ですが、 今はプレビューなので無料で使えます!
  14. ©Hitachi, Ltd. 2025. All rights reserved 13 Hitachi | AI×オブザーバビリティを活用した今どきのトラブルシューティング

    ― 実運用を支えるAWS最新AI機能の活用 AIエージェントだけじゃない、他にもトラブルシューティングに有用な機能 おまけ、マネコンで使えるCloudWatch AIオペレーションの”調査”もとっても便利! 参考: https://docs.aws.amazon.com/ja_jp/AmazonCloudWatch/latest/monitoring/Investigations.html
  15. ©Hitachi, Ltd. 2025. All rights reserved 14 Hitachi | AI×オブザーバビリティを活用した今どきのトラブルシューティング

    ― 実運用を支えるAWS最新AI機能の活用 自力で改善をやり切れるか不安を感じる場合はぜひ気軽にご相談ください 継続的な改善を通じたクラウド運用の成熟度向上を伴走型で支援 Hitachi Application Reliability Centers(HARC)では、エベレスト登山を伴走型で支援 するシェルパのように日立のエキスパート人財がお客さまに寄り添って、クラウド運用に関する さまざまな課題を一緒に乗り越えながら、クラウド活用によるスピード、品質、価値を最大 限に引き出せる組織への変革をサポートします。 HARCの詳細はこちら >>> https://www.hitachi.co.jp/harc/
  16. ©Hitachi, Ltd. 2025. All rights reserved 16 Hitachi | AI×オブザーバビリティを活用した今どきのトラブルシューティング

    ― 実運用を支えるAWS最新AI機能の活用 表記に関する注意事項 他社商品名、商標などの引用に関する表示 • Amazon Web Services、AWS、Powered by AWS ロゴは、Amazon.com, Inc. またはその関連会社の商標です。 • Microsoft、Azureは、マイクロソフト 企業グループの商標です。 • Google、Google Cloud は,Google LLC の商標または登録商標です。 • その他記載の会社名、製品名は、それぞれの会社の商標または登録商標です。