Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
「さらばアラートノイズ!」 AIエージェントでインシデント対応を自動化する
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Cloud Ace
September 09, 2025
Technology
0
86
「さらばアラートノイズ!」 AIエージェントでインシデント対応を自動化する
Cloud Ace
September 09, 2025
Tweet
Share
More Decks by Cloud Ace
See All by Cloud Ace
文系からSRE分野に挑戦 ( 新卒 2年目、私がGCP/AWSを学んで 得た気づき)
cloudace
0
17
Gemini を Raspberry Pi で走ら せた経験
cloudace
0
65
ADK / BigQueryで実現する分析エージェントのガバナンス設計
cloudace
0
17
【ガードレール】組織ポリシーで脆弱な設定を防ごう
cloudace
0
89
Cloud RunならDBも含めた ゼロスケールが可能? WordPressをゼロスケールさせた話
cloudace
0
8
Gemini を活用した OSS アプリ開発の経験
cloudace
0
12
Generative AI Leader 認定試験範囲の解説
cloudace
0
95
GKE Secret Manager連携の進化 K8s Secret と Secret Manager が同期可能に!(Preview)
cloudace
0
11
Gemini Code Assist を使用して GitHub コードをレビューしてみた
cloudace
0
6
Other Decks in Technology
See All in Technology
AIと新時代を切り拓く。これからのSREとメルカリIBISの挑戦
0gm
0
880
What happened to RubyGems and what can we learn?
mikemcquaid
0
280
GitLab Duo Agent Platform × AGENTS.md で実現するSpec-Driven Development / GitLab Duo Agent Platform × AGENTS.md
n11sh1
0
130
AI駆動開発を事業のコアに置く
tasukuonizawa
1
130
顧客の言葉を、そのまま信じない勇気
yamatai1212
1
350
顧客との商談議事録をみんなで読んで顧客解像度を上げよう
shibayu36
0
210
StrandsとNeptuneを使ってナレッジグラフを構築する
yakumo
1
100
SREのプラクティスを用いた3領域同時 マネジメントへの挑戦 〜SRE・情シス・セキュリティを統合した チーム運営術〜
coconala_engineer
2
630
20260204_Midosuji_Tech
takuyay0ne
1
140
仕様書駆動AI開発の実践: Issue→Skill→PRテンプレで 再現性を作る
knishioka
2
620
【Oracle Cloud ウェビナー】[Oracle AI Database + AWS] Oracle Database@AWSで広がるクラウドの新たな選択肢とAI時代のデータ戦略
oracle4engineer
PRO
1
120
Kiro IDEのドキュメントを全部読んだので地味だけどちょっと嬉しい機能を紹介する
khmoryz
0
180
Featured
See All Featured
Darren the Foodie - Storyboard
khoart
PRO
2
2.4k
So, you think you're a good person
axbom
PRO
2
1.9k
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
0
170
Unsuck your backbone
ammeep
671
58k
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
57
50k
Designing Powerful Visuals for Engaging Learning
tmiket
0
230
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1k
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
140
Measuring & Analyzing Core Web Vitals
bluesmoon
9
750
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.3k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Transcript
「さらばアラートノイズ!」 AIエージェントでインシデント対応を自動化する
話すこと • なぜAIエージェントが必要だったのか • ADKを使ったインシデント対応エージェントの開発 • AIエージェントのオブザーバビリティ
スピーカー 1 髙橋 和真 (Takahashi Kazuma) クラウドエース株式会社 DevSecOps事業部 Engineer Work
Google Cloudを中心としたシステムの開発、運用を担当 Tech SRE O11y Serverless Award Google Cloud Partner Top Engineer 2025 SNS X:@kazzuvi Github:@kazuvi
なぜAIエージェントが必要だったのか
アラートノイズとの戦い • アラートノイズ システムに影響がなく優先度の低い、対応不要 なアラートにより対応の時 間だけが奪われていく現象。 弊社の運用保守チームでは、特に高頻度で Cloud IDSによる攻撃検知アラートが 鳴ることに悩まされていた。
このアラートを確認し調査することはセキュリティ上重要だが、 そのほとんどはシステムに実害のない 攻撃の"試み"だった。 実態として対応が不要であっても、攻撃の調査時間は必要になり、 その分睡眠や開発にさける時間が減ってしまっていた。
アラートをミュートすれば良いのでは? 実際に攻撃されている以上無視はできない。閾値を上げすぎて、 本当に危険なアラート を見逃すことだけは避けないといけない。 結果として、「復旧作業は不要だが、ログを確認して影響の有無を判断す る」という人間による調査作業が残ってしまった。
問題の焦点をシフトさせる ノイズを減らすべく閾値を調整するのは、本当に対処すべきアラートを考慮 すると非常に難しい。 ノイズが多いことを問題とするのではなく、睡眠や開発にさける時間が減っ ているという部分に焦点を当て、 人間が対処する必要のない作業をさせられている 、ことに原因があるとし た。 AIエージェントに インシデント対応させて、
空いた時間で開発とかしよう
一次対応エージェントの構築 AIエージェントをここでは 目標達成のため、繰り返し推論し、ツールを使って行動する ソフトウェアと定義する。 インシデントの一次対応として AIエージェントが入り、 システムに影響がある、もしくは調査が必要なインシデントだけを人間に通知する。 結果的に人間がアラートノイズに対処することない 運用保守が可能に!
負担の改善 Primary, Secondaryの2人のエンジニアで対応していた運用保守チームに、 AIエージェント が加わることで、実質的に 3人体制に。 人間にエスカレーションされる =システムに問題がある、なので電話が鳴る 恐怖は倍増...?
ADKを使った インシデント対応エージェントの開発
エージェント構築のために AIエージェントは大きく分けて、ワークフロー型と自律型に分けられる。 • ワークフロー型 事前に定義されたフロー、ツールの指定にしたがってタスクを実行する • 自律型 目標だけを与え、ワークフローやツールの選定は全てエージェントに任せ る それぞれの中間をとったハイブリッド型もある。
エージェント構築のために AIエージェントを構築のためのフレームワークがたくさん出てきた 何を使うかによって、実装方式や思想も異なってくる。 • LangGraph(ハイブリッド) • LangManus(自律) • Mastra(ハイブリッド) •
ADK(ハイブリッド) など
ADKとは Agent Development Kit(ADK) Google Cloudから提供されているAIエージェント を構築するためのフレームワーク 外部ツールを使ったり、複数のエージェント を使ったシステムを構築できる。 自律ベースでありながら、挙動を制御する
ための仕組みも提供してくれている。
スピーカー 2 三原 知樹 (Mihara Tomoki) クラウドエース株式会社 DevSecOps事業部 Engineer Work
Google Cloudを中心としたシステムの開発、運用を担当 SNS Github:@TomokiMihara
エージェントのライフサイクル 責務ごとにエージェントを分離するマルチエージェントアーキテクチャ SequentialAgentでワークフローのように 順番にエージェントを実行
エージェントとツール エージェントごとにツールを定義
エージェントのライフサイクル エスカレーションが必要なしと判断された場合 エスカレーションが必要ありと判断された場合
・ツールが適切に利用されない →ツールの関数名やdoc stringが実際にツールの 呼び出しの性能に関わってくる →クリーンコードがメンテナビリティのみならず、性能 に影響を及ぼす →ツールの呼び出しが確実に実行される保証は無 いため、ツールの呼び出しが無かったらリトライ処理 なども別途必要 ハマった事
AIエージェントのオブザーバビリティ
エージェントの抱える課題 AIエージェントの挙動はそのままではブラックボックス化 して しまう。動作に問題が起きても、なぜそうなったか分からない。 プロンプトのチューニング、モデルの更新、実行時間やお金など、様々 な考慮すべきことがあるため、 AIエージェントのオブザーバビリティ が重要となってくる。
Langfuseの導入 Langfuse LLMアプリケーション向けに設計 された観測・分析プラットフォーム できること • トレースの可視化 • プロンプトの評価と管理 •
フィードバック収集 などなど
一次対応 AIエージェン トもLangfuseにトレー スを送り、チューニング の参考にしていたりし ます。各エージェントの レイテンシも計測できる ので、マルチエージェン トアーキテクチャはオブ ザーバビリティ
観点で も重要だと言えます。
作って・自動化させて終わりではない エージェント自身の運用管理 が増えてしまう 挙動を見て、分析し、改善するというサイクルは AIエージェント にも必要。銀の弾丸ではない。 Langfuseをはじめとした LLMオブザーバビリティ ツールを活用しましょう。