アラートと運用知見から始める、自律的なインシデント調査への第一歩

ja.mackerel.io 2025.09.25 アラートと運用知見から始める、自律的なインシデント調査への第一歩 1 Mackerel チーム SRE テックリード井口景子

井口景子（id:heleeen / @he1eeen） • 2019年9月にはてなに SRE
として入社 • 現在は Mackerel の SRE テックリード • SRE, Serverless が好き • とてもめんどくさがり自己紹介 2

3 アラート調査って大変ですよね

4 アラート調査の大変なところ • 時を選んではくれない • アラートの原因の調べ方を知らないと, まず何を確認するのかから調べることになる • 監視設定の背景を把握していないと,
何のために設定された監視かの調査が始まる • その割には慣れてしまえばいつも同じ調査をしている...

5 監視設定で改善できることもあるが... • 原因の調査や監視設定の意図は監視設定の改善でも対処できる • Mackerel は監視ルールのメモで伝えられる

6 アラート調査の初動は、実はだいたい同じ • まずはとりあえず状況を把握する ◦ メトリックをより詳細に確認 ◦ ログやトレースを確認 ◦ Runbook
に類似の現象についての情報がないか確認 ◦ 他に様子の変わったメトリックがないか確認 ◦ ... • その後に障害に対処する

7 インシデント調査の自律化の最初の取り組み • この状況把握で AI に頼ることができないか？ • アラートや障害調査で AI を使ってみた
◦ Mackerel の機能提供目的としてではなく, まず自分たちが AI を使っている状態にしたい

8 障害調査 with AI • AI を利用できる環境の用意 ◦ プロンプトを投げられる状態になっている •
ログ, Runbook を利用した調査結果がほしい ◦ アラートが上がったときだいたいログを見ることが多い ◦ Runbook も知見として利用したい • 結果の精度は最初は低くてもよい ◦ まずは動いている状態を作りたい • アラートを指定して指示するのはめんどうなので, アラートは勝手に調べておいてほしい

Mastra を利用 • TypeScript で作られた AI agent framework ◦ TypeScript
で AI agent を利用する workﬂow が書ける 9

10 Mastra のコンソールでのプロンプト実行プロンプト入力 Workﬂow の実行状況

11 Mastra Workﬂow の出力

12 こうなっていたいアラートの自動連携プロンプトによる指示 AI agent で CloudWatch Logs と
Runbook を置いた S3 を利用して調査 Slack 調査結果を投稿

構成図 13 アラートを AI に連携プロンプトで指示 AI agent で CloudWatch
Logs と Runbook を置いた S3 を利用して調査

プロンプトの実行 14 Slack bot でプロンプトを投げる / 実行結果は Slack へ投稿される Mastra
で AI agent 実行タイムアウト対策として SQS でキュー管理

Mastra Workﬂow • Slack bot へ入力された質問を調査する 15

Slack bot 経由での Mastra Workﬂow 実行 • Mastra が返した結果は Slack
へ投稿される 16

アラートの連携 17 EventBridge でアラート連携実行結果は Slack へ投稿される Mastra で AI
agent 実行 SQS に入れれば AI に投げれる拡張性

アラートの調査結果は自動で Slack へ投稿される • Mackerel のアラートが自動で連携されて結果も自動で投稿される 18

19 工夫 • ぱっと把握できるように, 3行のサマリーを投稿し, スレッドには詳細を投稿

20 工夫 • ぱっと把握できるように, 3行のサマリーを投稿しスレッドには詳細を投稿

21 工夫 • Workﬂow の動作状況もスレッドに投稿している • 調査が進んでいそうな安心感

22 工夫 • 必要なツールのみ実行させる ◦ もともとは常にログも Runbook も調査していた ◦ Agent
はツールの調査結果を正しいと重要と判断しがちなので, 必要と思われる調査のツールのみ実行するように ◦ 関係ない結果を返しにくくなった

23 工夫 • わからないことはわからないと言わせる ◦ 妥当性が低すぎると見られなくなってしまう.... • プロンプトの実例抜粋 ↓ >
調査結果をまとめています。ユーザー入力にある、解決すべき問題について分析してください > **分析における厳格なルール:** > ...... > 解決対象の問題を特定できなかった場合は、「提供された情報だけでは、解決すべき問題の特定ができません。」という旨と特定できなかった理由を回答し、終了する。

24 AI に障害調査を任せると... AI のやること人間のやること • アラート発生時に即座にログと Runbook で初動調査を実行
• 調査結果の要点のサマリーと詳細を返却 • わからないときは不明と返す初動を高速化定型調査を肩代わり • 何かを中断してアラート調査 • AI が返した結果を確認 • 必要に応じて追加調査と実際の対応を実施 • Runbook の補強などで, 今後の精度を高める最終判断と責任は人間が担う判断と改善に集中

25 日々のアラート調査の負荷が減った • アラート発生時に自分で調べなくても, 調査結果が得られている ◦ AI がなければ, アラートが来るたびに何かを中断して調査していたが, 調査結果をとりあえず待つ暮らしに変わった
◦ 調査結果とアラートを見て人間の初動を決められるようになった • めんどうなところを AI が肩代わりしてくれている ◦ ログを調査した結果が自動で出ていて便利 ◦ 関連する Runbook があるか自分で見なくてよい • 自分が詳しくないコンポーネントでも調査のヒントが得られる • 依存したコンポーネントも調査できるようにしたい

26 副次的効果 • 日々の意識にも影響する ◦ ログをきれいにしたい気持ちにかられる ◦ Runbook ももっと残して（生成して）いこうという気持ちになる •
Mastra の実行環境を用意する = システムと連携した AI の利用基盤が整う ◦ どんどん AI に任せていくことができる

27 最後に • 幸い本物の障害対応ではまだ活用していない.... • これは自律的インシデント調査の第一歩 ◦ インシデント調査の精度もまだ改善の余地がある ◦ もっと
AI に定型作業を任せていきたい ▪ アラートの集計とか

アラートと運用知見から始める、自律的なインシデント調査への第一歩

アラートと運用知見から始める、自律的なインシデント調査への第一歩

heleeen

More Decks by heleeen

Featured

Transcript

ja.mackerel.io 2025.09.25 アラートと運用知見から始める、自律的なインシデント調査への第一歩 1 Mackerel チーム SRE テックリード井口景子

井口景子（id:heleeen / @he1eeen） • 2019年9月にはてなに SRE

3 アラート調査って大変ですよね

4 アラート調査の大変なところ • 時を選んではくれない • アラートの原因の調べ方を知らないと, まず何を確認するのかから調べることになる • 監視設定の背景を把握していないと,

5 監視設定で改善できることもあるが... • 原因の調査や監視設定の意図は監視設定の改善でも対処できる • Mackerel は監視ルールのメモで伝えられる

6 アラート調査の初動は、実はだいたい同じ • まずはとりあえず状況を把握する ◦ メトリックをより詳細に確認 ◦ ログやトレースを確認 ◦ Runbook

7 インシデント調査の自律化の最初の取り組み • この状況把握で AI に頼ることができないか？ • アラートや障害調査で AI を使ってみた

8 障害調査 with AI • AI を利用できる環境の用意 ◦ プロンプトを投げられる状態になっている •

Mastra を利用 • TypeScript で作られた AI agent framework ◦ TypeScript

10 Mastra のコンソールでのプロンプト実行プロンプト入力 Workﬂow の実行状況

11 Mastra Workﬂow の出力

12 こうなっていたいアラートの自動連携プロンプトによる指示 AI agent で CloudWatch Logs と

構成図 13 アラートを AI に連携プロンプトで指示 AI agent で CloudWatch

プロンプトの実行 14 Slack bot でプロンプトを投げる / 実行結果は Slack へ投稿される Mastra

Mastra Workﬂow • Slack bot へ入力された質問を調査する 15

Slack bot 経由での Mastra Workﬂow 実行 • Mastra が返した結果は Slack

アラートの連携 17 EventBridge でアラート連携実行結果は Slack へ投稿される Mastra で AI

アラートの調査結果は自動で Slack へ投稿される • Mackerel のアラートが自動で連携されて結果も自動で投稿される 18

19 工夫 • ぱっと把握できるように, 3行のサマリーを投稿し, スレッドには詳細を投稿

20 工夫 • ぱっと把握できるように, 3行のサマリーを投稿しスレッドには詳細を投稿

21 工夫 • Workﬂow の動作状況もスレッドに投稿している • 調査が進んでいそうな安心感

22 工夫 • 必要なツールのみ実行させる ◦ もともとは常にログも Runbook も調査していた ◦ Agent

23 工夫 • わからないことはわからないと言わせる ◦ 妥当性が低すぎると見られなくなってしまう.... • プロンプトの実例抜粋 ↓ >

24 AI に障害調査を任せると... AI のやること人間のやること • アラート発生時に即座にログと Runbook で初動調査を実行

26 副次的効果 • 日々の意識にも影響する ◦ ログをきれいにしたい気持ちにかられる ◦ Runbook ももっと残して（生成して）いこうという気持ちになる •

27 最後に • 幸い本物の障害対応ではまだ活用していない.... • これは自律的インシデント調査の第一歩 ◦ インシデント調査の精度もまだ改善の余地がある ◦ もっと