Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アラートと運用知見から始める、自律的なインシデント調査への第一歩
Search
heleeen
September 25, 2025
0
83
アラートと運用知見から始める、自律的なインシデント調査への第一歩
突撃!となりのSRE - 現場で試したAI活用事例
https://findy.connpass.com/event/368449/
heleeen
September 25, 2025
Tweet
Share
More Decks by heleeen
See All by heleeen
障害対応をちょっとずつよくしていくための 演習の作りかた
heleeen
1
3.1k
SRE のはじめ方 / DevOps と SLI/SLO #mackerelio
heleeen
0
2.5k
クリティカルユーザージャーニーを利用した SLI/SLO の改善 / #mackerelio
heleeen
11
10k
CloudNative 移行で実現した Mackerel における SaaS 開発 / Saas on AWS 2023
heleeen
0
140
Mackerel におけるTerraform 運用 / Our (Best?) Practice
heleeen
0
460
Featured
See All Featured
Why You Should Never Use an ORM
jnunemaker
PRO
59
9.6k
GitHub's CSS Performance
jonrohan
1032
470k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
The Illustrated Children's Guide to Kubernetes
chrisshort
49
51k
Side Projects
sachag
455
43k
Product Roadmaps are Hard
iamctodd
PRO
55
11k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
BBQ
matthewcrist
89
9.9k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
14k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
Into the Great Unknown - MozCon
thekraken
40
2.1k
Transcript
ja.mackerel.io 2025.09.25 アラートと運用知見から始める、 自律的なインシデント調査への第一歩 1 Mackerel チーム SRE テックリード 井口景子
井口 景子 (id:heleeen / @he1eeen) • 2019年9月に はてな に SRE
として入社 • 現在は Mackerel の SRE テックリード • SRE, Serverless が好き • とてもめんどくさがり 自己紹介 2
3 アラート調査って大変ですよね
4 アラート調査の大変なところ • 時を選んではくれない • アラートの原因の調べ方を知らないと, まず何を確認するのかから調 べることになる • 監視設定の背景を把握していないと,
何のために設定された監視かの 調査が始まる • その割には慣れてしまえばいつも同じ調査をしている...
5 監視設定で改善できることもあるが... • 原因の調査や監視設定の意図は監視設定の改善でも対処できる • Mackerel は監視ルールのメモで伝えられる
6 アラート調査の初動は、実はだいたい同じ • まずはとりあえず状況を把握する ◦ メトリックをより詳細に確認 ◦ ログやトレースを確認 ◦ Runbook
に類似の現象についての情報がないか確認 ◦ 他に様子の変わったメトリックがないか確認 ◦ ... • その後に障害に対処する
7 インシデント調査の自律化の最初の取り組み • この状況把握で AI に頼ることができないか? • アラートや障害調査で AI を使ってみた
◦ Mackerel の機能提供目的としてではなく, まず自分たちが AI を使っている状態にしたい
8 障害調査 with AI • AI を利用できる環境の用意 ◦ プロンプトを投げられる状態になっている •
ログ, Runbook を利用した調査結果がほしい ◦ アラートが上がったときだいたいログを見ることが多い ◦ Runbook も知見として利用したい • 結果の精度は最初は低くてもよい ◦ まずは動いている状態を作りたい • アラートを指定して指示するのはめんどうなので, アラートは 勝手に調べておいてほしい
Mastra を利用 • TypeScript で作られた AI agent framework ◦ TypeScript
で AI agent を利用する workflow が書ける 9
10 Mastra のコンソールでのプロンプト実行 プロンプト入力 Workflow の実行状況
11 Mastra Workflow の出力
12 こうなっていたい アラートの自動連携 プロンプトによる指示 AI agent で CloudWatch Logs と
Runbook を置いた S3 を利用して調査 Slack 調査結果を投稿
構成図 13 アラートを AI に連携 プロンプトで指示 AI agent で CloudWatch
Logs と Runbook を置いた S3 を利用して調査
プロンプトの実行 14 Slack bot でプロンプトを投げる / 実行結果は Slack へ投稿される Mastra
で AI agent 実行 タイムアウト対策として SQS でキュー管理
Mastra Workflow • Slack bot へ入力された質問を調査する 15
Slack bot 経由での Mastra Workflow 実行 • Mastra が返した結果は Slack
へ投稿される 16
アラートの連携 17 EventBridge でアラート連携 実行結果は Slack へ投稿される Mastra で AI
agent 実行 SQS に入れれば AI に投げれる拡張性
アラートの調査結果は自動で Slack へ投稿される • Mackerel のアラートが自動で連携されて結果も自動で投稿される 18
19 工夫 • ぱっと把握できるように, 3行のサマリーを投稿し, スレッドには 詳細を投稿
20 工夫 • ぱっと把握できるように, 3行のサマリーを投稿し スレッドには詳細を投稿
21 工夫 • Workflow の動作状況も スレッドに投稿している • 調査が進んでいそうな安心感
22 工夫 • 必要なツールのみ実行させる ◦ もともとは常にログも Runbook も調査していた ◦ Agent
はツールの調査結果を正しいと重要と判断しがちなので, 必要と思われる調査のツールのみ実行するように ◦ 関係ない結果を返しにくくなった
23 工夫 • わからないことはわからないと言わせる ◦ 妥当性が低すぎると見られなくなってしまう.... • プロンプトの実例抜粋 ↓ >
調査結果をまとめています。ユーザー入力にある、解決すべき問題に ついて分析してください > **分析における厳格なルール:** > ...... > 解決対象の問題を特定できなかった場合は、「提供された情報だけで は、解決すべき問題の特定ができません。」という旨と特定できなかっ た理由を回答し、終了する。
24 AI に障害調査を任せると... AI のやること 人間のやること • アラート発生時に即座にログと Runbook で初動調査を実行
• 調査結果の要点のサマリーと詳細を 返却 • わからないときは不明と返す 初動を高速化 定型調査を肩代わり • 何かを中断してアラート調査 • AI が返した結果を確認 • 必要に応じて追加調査と実際の対応 を実施 • Runbook の補強などで, 今後の精度 を高める 最終判断と責任は人間が担う 判断と改善に集中
25 日々のアラート調査の負荷が減った • アラート発生時に自分で調べなくても, 調査結果が得られている ◦ AI がなければ, アラートが来るたびに何かを中断して調査していたが, 調査結果をとりあえず待つ暮らしに変わった
◦ 調査結果とアラートを見て人間の初動を決められるようになった • めんどうなところを AI が肩代わりしてくれている ◦ ログを調査した結果が自動で出ていて便利 ◦ 関連する Runbook があるか自分で見なくてよい • 自分が詳しくないコンポーネントでも調査のヒントが得られる • 依存したコンポーネントも調査できるようにしたい
26 副次的効果 • 日々の意識にも影響する ◦ ログをきれいにしたい気持ちにかられる ◦ Runbook ももっと残して(生成して)いこうという気持ちになる •
Mastra の実行環境を用意する = システムと連携した AI の利用基盤が整う ◦ どんどん AI に任せていくことができる
27 最後に • 幸い本物の障害対応ではまだ活用していない.... • これは自律的インシデント調査の第一歩 ◦ インシデント調査の精度もまだ改善の余地がある ◦ もっと
AI に定型作業を任せていきたい ▪ アラートの集計とか