Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アラート調査向けAIエージェントの本番導入とその後/AI Agents for Alert I...
Search
SadayoshiTada
July 01, 2026
Technology
110
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
アラート調査向けAIエージェントの本番導入とその後/AI Agents for Alert Investigation: Production Deployment and After
2026年06月30日開催の「The SRE Backlog: 蔵出し事例共有会」での発表資料です
SadayoshiTada
July 01, 2026
More Decks by SadayoshiTada
See All by SadayoshiTada
バクラクのSREにおけるAgentic AIへの挑戦/Our Journey with Agentic AI
taddy_919
2
1.7k
システムのアラート調査をサポートするAI Agentの紹介/Introduction to an AI Agent for System Alert Investigation
taddy_919
2
4.5k
バクラクでのSystem Risk Records導入による変化と改善の取り組み/Changes and Improvement Initiatives Resulting from the Implementation of System Risk Records
taddy_919
0
800
プロダクトチームへのSystem Risk Records導入・運用事例の紹介/Introduction and Case Studies on Implementing and Operating System Risk Records for Product Teams
taddy_919
1
1.2k
開発者が安心して実行可能なSQL実行基盤の取り組み/Initiatives for a Secure SQL Execution Platform for Developers
taddy_919
2
9.6k
バックアップのリストア検証が可能な AWS Backup Restore testing を使ってみた/AWS Backup Restore testing, which enables backup restore verification
taddy_919
0
790
今日から実践!継続的に自分の軌跡を残す方法/Start practicing today! How to Continuously Keep Track of Yourself
taddy_919
0
4k
スタートアップ企業での散乱した システムリリースフローをととのえる話/Maintain the system release flow
taddy_919
1
4.5k
スタートアップ企業でのデータ活用に向けての取り組み/Working with Startups to Leverage Data
taddy_919
0
3.6k
Other Decks in Technology
See All in Technology
OTel × Datadog で 「AI活用」を計測し、改善に繋げる
shihochan
2
630
元銀行員がAIだけでアプリを量産!「バイブコーディング実演セミナー 」
tatsuya1970
0
110
AIチャット検索改善の3週間
kworkdev
PRO
2
170
2026 AI Memory Architecture
nagatsu
0
100
クレデンシャル流出 ― 攻撃 3 時間 vs 復旧 10 時間。この非対称性にどう備えるか
kazzpapa3
3
560
スタートアップにAmazon EKSは早すぎる? マルチプロダクト戦略を加速する Platform Engineeringの実践 / Is Amazon EKS Too Soon for Startups? Practical Platform Engineering to Accelerate a Multi-Product Strategy
elmodev09
1
1.8k
When Platform Engineering Meets GenAI
sucitw
0
170
Agile and AI Redmine Japan 2026
hiranabe
4
470
レガシーな広告配信システムでのAI駆動開発/運用の挑戦
i16fujimoto
0
120
不要なレビューをAIにまかせて AIコーディングの環境改善を加速した
shoota
1
260
「ビジネスがわかるエンジニア」とは何か?
ryooob
0
290
AI-DLCを “そのまま導入しなかった”話 ~組織に合わせてアジャストした 私たちの実践共有~
hiroramos4
PRO
1
420
Featured
See All Featured
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
950
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.8k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.7k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
2
1.6k
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
780
RailsConf 2023
tenderlove
30
1.5k
Bash Introduction
62gerente
615
220k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
3.5k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Why Our Code Smells
bkeepers
PRO
340
58k
Into the Great Unknown - MozCon
thekraken
41
2.6k
Paper Plane (Part 1)
katiecoart
PRO
0
9.2k
Transcript
アラート調査向けAIエージェントの本番導入とその後 2026/06/30 The SRE Backlog: 蔵出し事例共有会 多田 貞剛/@taddy_919
多田 貞剛 @taddy_919 自己紹介 2022/03 入社 バクラク事業部 Platform Engineering部 SREグループ
最近ベンチプレスで100kgを挙げられ るようになりました © LayerX Inc. 2
バクラクの紹介
© LayerX Inc. 4
© LayerX Inc. 5
目次 © LayerX Inc. 目次 開発しているエージェントの紹介 本番導入で取り組んだこと 運用後に発生した課題 課題に対する解決策 今後の展望
まとめ 6
開発しているエージェントの紹介
エージェント開発を検討したきっかけ © LayerX Inc. 開発しているエージェントについて バクラクにはプロダクト間で連携している機能があり、プロダクトをまたぐアラート調 査が複雑になる アラート調査では関連システムのバックエンド/フロントエンドそれぞれの挙動を確認する 調査に当たってはそれぞれのサービス依存関係を把握しつつ調べる アラートに関連するシステムの処理フローを横断的に追う
プロダクトチームの新入社員が上記の調査に対応できるようになるまでの学習コストが 高い SREを介さなくてもプロダクトチームで調査や修正対応が継続するよう支援したい 8
内製化 © LayerX Inc. 開発しているエージェントについて アラート調査は一定程度、定型化できている 特定時間帯における関連システムのメトリクス、トレース、ログを確認 これらの対応手順をアラートごとにNotionにまとめて運用している アラート調査には自動化の余地があると感じ、そのための改善を行うことにした 他のソリューション(AWS
DevOps Agent / Datadog Bits Investigation)と比較し、内製することにした 比較軸1 / 比較軸2 9
システム調査エージェントとは アラートに関連するメトリクス・ログ・トレース情報を自動で調査・分析するAIエージェント © LayerX Inc. 開発しているエージェントについて Slackからアラート情報を渡すことで自動調査 専門のMCPを使って複数データソース(AWS、Datadog)に渡って調査した結果をレポー トする 調査結果から優先度付けて改善の提案を行う
10
使用している技術(1) © LayerX Inc. 開発しているエージェントについて Python uv: Pythonのパッケージ・プロジェクト管理ツール Strands Agents:
AIエージェントSDK Claude Sonnet 4.6: Anthropic社の大規模言語モデル Slack Bolt: Slackアプリ開発用のフレームワーク 11
使用している技術(2) © LayerX Inc. 開発しているエージェントについて Datadog MCP Server: Datadogの監視データにアクセスするためのMCPサーバー CloudWatch
MCP Server: AWS CloudWatchのメトリクス確認やログ分析などを行うた めのMCPサーバー AWS Documentation MCP Server: AWS公式ドキュメントにアクセスするためのMCPサ ーバー 12
実行環境 © LayerX Inc. 開発しているエージェントについて AWS上に構築 ALB + ECS Fargate
+ Bedrock(日本リージョン) バクラクでは大半のコンピューティングリソースがECS Fargateで構成されており、CI/CDやインフラの自動 生成等既存のプラットフォームに載ることで高速に検証を回せるため採用した Amazon Bedrockのモデルでは学習のオプトアウトが適用済みのため採用した AWS公式ドキュメント 13
システム調査エージェントの構成図 開発しているエージェントについて © LayerX Inc. 14
システム調査エージェントの振る舞い 大まかに以下のような振る舞いをします © LayerX Inc. 開発しているエージェントについて 15
本番導入で取り組んだこと
SREチームのアラートに設定した © LayerX Inc. 本番導入 SREチームにメンションされるアラートを対象に設定 Slackのアラート通知を受け取ったエージェントが自動で調査・レポートを投稿 SREの調査の手間を減らし、レポートを最終確認するだけの状態を目指した 17
本番導入:SREチームのアラートに設定した © LayerX Inc. 18
他システムとの統合 © LayerX Inc. 本番導入 内製のインシデント管理ツールからAPIで初期調査を行えるようにした 上記ツールにメンションすることで初期調査を行い、その結果をSlackに投稿する 19
本番導入:他システムとの統合 © LayerX Inc. 20
運用後に発生した課題
課題は大きく2つあった 課題 起きていたこと 1. 調査が非効率 システム特有のコンテキストを持たず、広く探索していた 2. 間違った情報を調査・レポートする 誤った調査をレポートすることがあった ©
LayerX Inc. 運用後に発生した課題 22
課題1: 調査が非効率 © LayerX Inc. 運用後に発生した課題 アラートから自動調査するにあたってはどういった観点で調査を行うべきかを持ってい ないと、非効率な調査になる この状態で調査をしようとすると広く探索し、調査時間が長期化したりレポート内容も期待通りではなかった 23
課題2: 間違った情報を調査・レポートしていた © LayerX Inc. 運用後に発生した課題 例えばレイテンシーアラートの調査では、必要な情報を含むレポートが出る時と、誤っ た情報を含むレポートが出る時があり安定しなかった 遅いRPC名を見ただけで根本原因を断定してレポートしていた 実際にはtraceを掘ってspan詳細を確認しないと主因は特定できない
エージェントは「調査レポートを出す」ことを責務として進めてくれたが、 「必要な情 報が揃っているか」を判断するための機構がなかった 24
解決策の検討
課題1への対応: Strands AgentsのSkillsを使う © LayerX Inc. Skillsによるコンテキスト投入 Strands AgentsのAgent Skillsを使い、専門的な指示を必要なときだけAgentに読み込ま
せる エージェントが必要だと判断したタイミングで、該当するSkillの詳細指示をロードする Strands Agents Skills 26
Skillsの設定例抜粋 © LayerX Inc. Skillsによるコンテキスト投入 27
課題2への対応: 調査レポート投稿前にチェック機構を追加 © LayerX Inc. 精度向上への取り組み 調査後の投稿前にレポートチェック機構を追加 必要な情報(ex. 根本原因・数値等)が含まれているか確認 チェック機構を通過しないレポートはSlackに投稿しないように制御
28
レイテンシーアラートのチェック機構例 © LayerX Inc. 精度向上への取り組み 29
解決策実装後の所感 © LayerX Inc. 精度向上への取り組み バクラク固有の調査観点を渡すことで、見るべきデータソースを絞りやすくなった 調査結果のチェック機構を入れることで、精度の低いレポートが減少している 30
今後の展望
インシデント管理ツールとの統合強化 © LayerX Inc. 今後の展望 インシデント管理ツールとの統合は、現状は初期調査の結果をインシデント管理ツール に返すだけになっており、より連携を強化したい アラートの調査ログや次のアクションを記録する データをインシデント管理ツール側に貯めておくことでシステム調査エージェントが過去対応を参照して調 査の効率化を目指していきたい
32
まとめ
まとめ © LayerX Inc. まとめ システム調査エージェントを本番環境に導入した 本番稼働させたところ課題が2つあり、それぞれ対応を行った 今後は、単一システムの強化ではなく他システムとの連携を強化して、円滑な調査対応 を目指していく 34
We're hiring 採用全力強化中です!ご興味ありましたらご連絡をお願いします! バクラク事業部・エンジニア組織紹介資料 バクラクSRE JD © LayerX Inc. まとめ
35
ご清聴ありがとうございました!