Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Amazon DevOps Guru のベースラインを整備して1ヶ月ほど運用してみた #jaw...
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
MasahiroKawahara
June 09, 2025
Technology
820
3
Share
Amazon DevOps Guru のベースラインを整備して1ヶ月ほど運用してみた #jawsug_asa / Amazon DevOps Guru trial
JAWS-UG朝会 #70 (
https://jawsug-asa.connpass.com/event/348650/
) の発表資料です
MasahiroKawahara
June 09, 2025
More Decks by MasahiroKawahara
See All by MasahiroKawahara
Claude Code で使える DuckDB Skills を試してみた / DuckDB Skills and Claude Code
masahirokawahara
2
2.4k
Claude Code を安全に使おう勉強会 / Claude Code Security Basics
masahirokawahara
18
45k
Claude Code Skills 勉強会 (DevelersIO向けに調整済み) / claude code skills for devio
masahirokawahara
1
32k
新 Security HubがついにGA!仕組みや料金を深堀り #AWSreInvent #regrowth / AWS Security Hub Advanced GA
masahirokawahara
1
3.8k
AWS環境のリソース調査を Claude Code で効率化 / aws investigate with cc devio2025
masahirokawahara
2
2.1k
ここ一年のCCoEとしてのAWSコスト最適化を振り返る / CCoE AWS Cost Optimization devio2025
masahirokawahara
1
2.5k
生まれ変わった AWS Security Hub (Preview) を紹介 #reInforce_osaka / reInforce New Security Hub
masahirokawahara
0
1.6k
DuckDB MCPサーバーを使ってAWSコストを分析させてみた / AWS cost analysis with DuckDB MCP server
masahirokawahara
0
2.8k
セキュリティ系アップデート全体像と AWS Organizations 新ポリシー「宣言型ポリシー」を紹介 / reGrowth 2024 Security
masahirokawahara
0
1.3k
Other Decks in Technology
See All in Technology
AI時代から振り返るTerraform drift運用の歴史 / AI Age Reflections on the History of Terraform Drift Operations
aeonpeople
0
610
なぜハノーバーメッセに行くべきなのか 〜初参加だから語れること〜
tanakaseiya
0
190
オンコールの負荷軽減のためのBits Assistant 活用方法 / How to Use Bits Assistant to Reduce the Workload on On-Call Staff
sms_tech
1
350
Anthropic AIネイティブ・スタートアップ構築のプレイブック を理解する
nagatsu
0
230
Fabric-cicd によるAzure DevOps デプロイ
ryomaru0825
0
160
Javaで学ぶSOLID原則
negima
1
240
管理アカウント単一運用からAWS Organizationsに移行するの大変で滅
hiramax
0
340
権限管理設計を完全に理解した
rsugi
2
240
Kiro CLI v2.0.0がやってきた!
kentapapa
0
230
Spring AI × MCP 入門〜AIエージェントへのツール公開、境界設計から始める最小構成 〜
yuyamiyamoto
0
190
もりもり新機能を一挙紹介! AgentCoreに入門して、AWS上にAIエージェントを構築しよう
minorun365
PRO
5
340
AIガバナンス実践 - 生成AIコネクタのデータ漏洩リスクと実務対策
knishioka
0
140
Featured
See All Featured
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
290
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
830
A designer walks into a library…
pauljervisheath
211
24k
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.5k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
820
Test your architecture with Archunit
thirion
1
2.3k
Why Our Code Smells
bkeepers
PRO
340
58k
Designing for Performance
lara
611
70k
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.4k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
62k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.8k
Transcript
Amazon DevOps Guru のベー スラインを整備して1 ヶ月ほ ど運用してみた 川原 征大 2025-06-10
1
Table of Contents イントロ DevOps Guru について DevOps Guru を導入してみた
DevOps Guru を少し運用してみて ( 時間あれば) 通知の仕組み おわりに 2
イントロ 3
自己紹介 Classmethod クラウド事業本部 コンサルティング部 https://dev.classmethod.jp/author/kawahara-masahiro/ 4
最近仕事でやっていること AWS マルチアカウント環境のセキュリティ可視化 コスト最適化いろいろ 好きなこと ツーリング、ゲーム、Emacs 、愛猫と戯れる 5
( 本題の前に) AWS 環境について 6
組織環境 AWS Organizations 環境 AWS アカウント数: 40 以上 複数の利用部門/ システムが存在
7
私の役割 CCoE の技術メンバー として活動 全AWS アカウントの統制( ベースライン) 各利用部門とのコミュニケーション 8
DevOps Guru について 9
DevOps Guru とは? AWS アプリケーションの運用問題を自動検出・予測するマネージド監視サ ービス 機械学習を使ってリソースのメトリクス/ ログを分析 異常なパフォーマンスや障害の兆候を インサイト
として自動生成 10
小ネタ: 昔の公式ドキュメント 機械翻訳 「DevOps アマゾンの達人」 画像引用: ※ Guru = 指導者
AWS 上のアプリの障害監視をAI に任せる(DevOps Guru + Chatbot のカスタム通知) - Zenn 11
インサイトの種類 事後的インサイト(reactive): 既に発生した問題を検出 予測的インサイト(proactive): 将来発生する可能性のある問題を予測 12
ほか補足 エージェント不要でワークロードに影響なし 分析した分の従量課金。気軽に始められる 多くのリソースタイプに対応(25 以上) 13
料金グループA: 約$2/month 14
料金グループB: 約$3/month 15
DevOps Guru を導入してみた 16
導入の目的 1. 信頼性向上 2. パフォーマンス効率向上 3. コスト最適化 RDS が総コストの相当な割合を占有 ボトルネックとなるクエリやDB
固有の問題を特定して、 パフォー マンス効率を改善できれば… → 結果的にコスト最適化に繋がるはず! 17
目標 各利用部門のAWS アカウントにて リソースに特定タグを付与するだけで、 DevOps Guru 分析をすぐに開始できる状態。 18
実装方法 CloudFormation StackSet として全アカウントに展開 AWSTemplateFormatVersion: "2010-09-09" Description: Enable DevOps Guru
baseline Resources: ### リソース収集の設定 CollectionByTagKey: Type: AWS::DevOpsGuru::ResourceCollection Properties: ResourceCollectionFilter: Tags: - AppBoundaryKey: devops-guru-monitoring TagValues: - default # 複数値指定可 ### ログ異常検知機能を有効化(追加コスト無し) EnableLogAnomalyDetection: Type: AWS::DevOpsGuru::LogAnomalyDetectionIntegration DependsOn: CollectionByTagKey 19
補足: 分析対象の登録方法 アカウント全体 サポートされる全てのAWS リソースを分析( コストに注意) CloudFormation スタック単位 特定のスタックに含まれるリソースを分析 タグベース(
★今回の方式) 特定タグベースで分析 20
やらかしポイント: ワイルドカードの罠 少し寄り道します。 21
最初のテンプレート(間違い) Q. このときの挙動はどうなる? .oO( 特定タグが付いているリソース " のみ" が分析される… ?) #
抜粋 CollectionByTagKey: Type: AWS::DevOpsGuru::ResourceCollection Properties: ResourceCollectionFilter: Tags: - AppBoundaryKey: devops-guru-monitoring TagValues: - "*" # ← ワイルドカード! 22
起きたこと A. 全リソーススキャン が発生! その日に気づいてロールバック。 全リソーススキャンが走った日の DevOps Guru 使用タイプ別コスト 23
教訓: タグ値は指定しよう ワイルドカードを設定すると… 1. アカウント内の全リソースをスキャン する ( ここ大事) 2. 指定タグがあれば、その値がアプリケーション境界としてグループ化
される な挙動になる。 24
DevOps Guru を少し運用してみて 25
トライアル 以下2 件、1~2 ヶ月 分析させてみた。 利用部門の Aurora MySQL CCoE 管理の
NAT ゲートウェイ 26
Aurora MySQL での検証 事前に Performance Insights を有効化 ※ タグを付与してもらって分析開始 ※
の前提条件。より高精度/ 詳細なインサイトを生成で きる DevOps Guru for RDS 27
→ 結果: インサイトは特に出なかった😢 ( いい解釈をすると、特に問題は無かった) 28
CCoE 管理 NAT ゲートウェイでの検証 前提: 各AWS アカウントのアウトバウンド通信を、CCoE 管理 NAT ゲートウ
ェイに集約している CCoE 管理NAT ゲートウェイを分析 29
→ 結果: 数件のインサイトが発生 30
NAT ゲートウェイのインサイトを深堀り 31
出てきたインサイト The number of idle connections to NAT Gateway nat-example
increased 32
DevOps Guru のマネコン画面 インサイトの概要 33
グラフ化された異常 34
集約されたメトリクス 35
関連イベントリスト、ほか 36
レコメンデーション 37
追加で確認したこと 「どこからどこへの通信」が局所的に発生したか、 DevOps Guru インサイ トだけでは分からなかった。 38
追加調査1: VPC Flow Logs の分析 Source/Destination のIP を特定する 39
追加調査2: DNS クエリログ の分析 Destination ドメインを特定する 40
最終的なアクション 事象をまとめて利用部門に連携 アプリログなどを見てもらうよう依頼 41
( 時間あれば) 通知の仕組み 42
モチベーション 所感: マネージドCloudWatch アラーム みたいで良い感じ → 高重要度のインサイトはやっぱり通知させたい 43
通知の仕組み構築のハマりポイント 前提: Organizations 連携でメンバーアカウントを委任管理者にできる 委任管理者内でインサイトを集約して確認可能 44
ただし委任管理者内の [ 設定 >SNS トピック] や EventBridge イベントには集 約されない 。
45
最終的に実装した通知アーキテクチャ EventBridge → Lambda → SNS → Q → Slack
46
通知サンプル ( 展望: Bedrock あたりを呼び出して、インサイトを要約させて通知したい) 47
思ったこと インサイトの通知テストがめっちゃ面倒! 機械学習による異常検知のため意図的な発生が難しい GuardDuty のようなサンプル生成 API が欲しい… ! 48
おわりに 49
まとめ DevOps Guru はAWS アプリケーションの運用問題を自動検出・予測するマネ ージド監視サービス 事後的インサイト、予測的インサイトがある 従量課金で気軽に始められる 全リソーススキャンには注意 使ってみた感想
関連するメトリクスやイベントを良い感じに並べてくれる 推奨事項も出してくれる → マネージドCloudWatch アラームみたいな感じで良さそう 50
参考情報 What is Amazon DevOps Guru? - Amazon DevOps Guru
Amazon DevOps Guru | Pricing AWS 上のアプリの障害監視をAI に任せる(DevOps Guru + Chatbot のカス タム通知) - Zenn CloudFormation を使って DevOps Guru ( タグで分析対象を指定) を有効 化する | DevelopersIO 51
聞いていただき、ありがとうございます! 52