Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Grafana MCP serverでなんかし隊 / Try Grafana MCP server
Search
kohbis
June 13, 2025
Technology
0
200
Grafana MCP serverでなんかし隊 / Try Grafana MCP server
ゆるSRE勉強会 #11 〜AI × SREの知見が聞きたい!〜
https://yuru-sre.connpass.com/event/353153/
kohbis
June 13, 2025
Tweet
Share
More Decks by kohbis
See All by kohbis
Custom Prometheus Exporterによる オブザーバビリティ拡張 / Extending observability with Custom Prometheus Exporter
kohbis
1
110
データベースで見る『家族アルバム みてね』の変遷 / The Evolution of Family Album Through the Lens of Databases
kohbis
5
1.2k
SREコミュニティイベントとわたし / Me and SRE community events
kohbis
1
180
サクッと試すNew Relic Kubernetes APM auto-attach / New Relic Kubernetes APM auto-attach
kohbis
0
360
悩ましきインシデント管理 みてねのケース / Incident management is a tough
kohbis
2
760
サービス成長と共に肥大化するモノレポ、長くなるCI時間 / As services grow, monorepos get bigger and CI time gets longer
kohbis
5
3.2k
そこまで大規模じゃない EKS環境を(あまり)頑張らずに 最新化し続けたい / FamilyAlbum EKS Continuous Improvement
kohbis
2
1.8k
1,800万人が利用する『家族アルバム みてね』におけるK8s基盤のアップグレード戦略と継続的改善 / FamilyAlbum's upgrade strategy and continuous improvement for K8s infrastructure
kohbis
5
4.1k
『家族アルバム みてね』の安定リリースを支えるEKS運用 / FamilyAlbum release-flow on EKS
kohbis
2
1.6k
Other Decks in Technology
See All in Technology
上長や社内ステークホルダーに対する解像度を上げて、より良い補完関係を築く方法 / How-to-increase-resolution-and-build-better-complementary-relationships-with-your-bosses-and-internal-stakeholders
madoxten
1
210
Oracle Cloud Infrastructure IaaS 新機能アップデート 2025/03 - 2025/05
oracle4engineer
PRO
1
130
為什麼我們需要 Observability?
marcustung
0
480
Generational ZGCのメモリ運用改善 - その物理メモリ使用量、本当に正しい?
tabatad
0
280
入門 ESlint Typegen #TSKaigi #TSKaigi2025_kataritai
bengo4com
0
2k
CloudBruteによる外部からのS3バケットの探索・公開の発見について / 20250605 Kumiko Henmi
shift_evolve
3
360
Amazon DevOps Guru のベースラインを整備して1ヶ月ほど運用してみた #jawsug_asa / Amazon DevOps Guru trial
masahirokawahara
3
210
ai bot got sick (abc 2025s version)
kojira
0
140
Oracle Cloud Infrastructureデータベース・クラウド:各バージョンのサポート期間
oracle4engineer
PRO
48
33k
Agent Development Kit によるエージェント開発入門
enakai00
18
2.5k
Autonomous Database サービス・アップデート (FY25)
oracle4engineer
PRO
1
730
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
6.7k
Featured
See All Featured
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
137
34k
Unsuck your backbone
ammeep
671
58k
Build The Right Thing And Hit Your Dates
maggiecrowley
35
2.7k
Designing for humans not robots
tammielis
253
25k
VelocityConf: Rendering Performance Case Studies
addyosmani
329
24k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
657
60k
Documentation Writing (for coders)
carmenintech
71
4.8k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
180
53k
Thoughts on Productivity
jonyablonski
69
4.7k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
252
21k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
161
15k
Transcript
Grafana MCP serverで なんかし隊 @kohbis ゆるSRE勉強会 #11 2025/06/13
お話しすること • オブザーバビリティ with AI • オブザーバビリティ with MCP server
• Grafana MCP server
オブザーバビリティ with AI(1/2) 異常検出( Anomaly Detection) • 機械学習と統計により「通常と異なる推移」のメトリクスを検出 • 機械学習とパターン分析により「通常と異なる形式や値」のログを検出
自然言語クエリ生成( Natural Language Query Generation) • サービスごとに(やたらクセがある)クエリを自動生成 自然言語要約( Natural Language Summarization) • ログやメトリクスまたはそれらのダッシュボードを自動要約 etc.
オブザーバビリティ with AI(2/2) AI 周り「そのもの」のオブザーバビリティ • リソース使用率 / モデルの出力評価 リクエスト数
/ レイテンシー / セキュリティ etc. • 各サービスやツールの対応 ◦ Monitoring the performance of Amazon Bedrock ◦ Cloud Monitoring metrics for Vertex AI ◦ Datadog LLM Observability ◦ OpenTelemetry for Generative AI
オブザーバビリティ with MCP Server うれしいこと • サービスや担当者の習熟度に依存せず、誰でも再現性のある調査が可能に • エージェントとの連携により、収集したデータを開発のワークフローに統合 •
(サービス、ツール連携、認証認可、出力整形をMCP Serverが一括して担える) 各サービスの対応 • AWS MCP Servers • Datadog MCP Server • Sentry MCP Server
Grafana MCP Server Grafana • “The open-source platform for monitoring
and observability” • 複数のデータソースをクエリ、可視化、アラート設定、検索できる MCP Serverでできること(一部) • Dashboardの取得、作成、更新、パネルデータの取得 • Datasourceへのクエリ ◦ Prometheus(Metrics)、Loki(Log)をサポート ◦ Tempo(Trace)やPyroscope(Profile)は未対応 • Alertingの取得(更新は未対応) ※ ほかできることはREADME参照。PR#156 まで記載されていたものはIssueが起票されているのでそのうち対応されそう
なんかしたい 🤔 ゆるSREのLTに応募したものの • ただGrafanaダッシュボードを一覧するだけは楽しくない • PromQL(Prometheus)やLogQL(Loki)を書いてくれるのはうれしいがなんかパッ としない • なんかトラシューっぽいことができたらよさそう?
「おうちK8sクラスタがあるけど、そんないい感じの変化はないよな〜」
いい感じだった
調査開始 Copilot Chat (Claud Sonnet 4) on VSCode + Grafana
MCP server
ダッシュボード一覧 最初に利用するダッシュボードを選 択する 今回は準備しておいたHome Clusterというダッシュボードを使う
ダッシュボード詳細
なげぇ😇
ダッシュボード詳細
直近7日間の傾向
メモリ/CPU増加の原因を調査させる 👈 めっちゃ頑張ったCopilotくん • ノードごとのPod数変化に着目し、特 定の時間から該当ノードで Pod数 が増えている ことに気づく •
この挙動から「システム全体のロー リングアップデート」 が行われた可 能性を提示
正解👏
リソース使用率が増えた時間帯にやっていたこと K8sクラスタのアップグレード • リソース使用率が減少したノード ◦ アップグレードするため 稼働しているPodを退避した • リソース使用率が増加したノード ◦
👆の退避された Podが 稼働するように なった Grafana MCP serverを活用した 自然言語のみでトラブルシューティング に成功 🎉
ところで
ずっと異なる発生時刻を表示し続けていた • 発生時刻は2025年6月6日1時頃 ◦ Grafana MCP serverで取得した メトリクスも該当時間のUNIX time ◦
調査でクエリするときも 👆のUNIX timeを使用している • Copilot Chatの回答だけ 2025年6月7日15時頃と表示される 何らかの理由で誤ったコンテキストを 保持し続けてしまった? なにもわからないので詳しい方教えてください🙇
さいごに
いろいろできそう • エディタ(VSCode)でMCP serverを利用して コード修正まで Agentにお任せ ◦ 例)今回特定した問題の修正 ▪ リスケジューリング設定
▪ リソース調整 • ダッシュボード要約によるモニタリング業務の効率化 • アラート閾値に達しない範囲、中長期での傾向変化
ありがとうございました