Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
當 Grafana 遇見 LLM:AI 時代的可觀測性
Search
Blueswen
November 19, 2025
Programming
0
48
當 Grafana 遇見 LLM:AI 時代的可觀測性
當 Grafana 遇見 LLM:AI 時代的可觀測性
Lab:
https://github.com/blueswen/observability-with-llm
Blueswen
November 19, 2025
Tweet
Share
More Decks by Blueswen
See All by Blueswen
從零到一:搭建你的第一個 Observability 平台
blueswen
1
1.2k
快速入門可觀測性
blueswen
1
760
全方位強化 Python 服務可觀測性:以 FastAPI 和 Grafana Stack 為例
blueswen
1
1.5k
Observability 101:從零開始了解可觀測性
blueswen
0
330
從零開始打造可觀測性平台
blueswen
3
2.3k
國泰人壽的可觀測性實踐
blueswen
0
250
Other Decks in Programming
See All in Programming
Atomics APIを知る / Understanding Atomics API
ssssota
1
150
TVerのWeb内製化 - 開発スピードと品質を両立させるまでの道のり
techtver
PRO
3
1.1k
2025 컴포즈 마법사
jisungbin
0
130
Module Harmony
petamoriken
2
450
「10分以内に機能を消せる状態」 の実現のためにやっていること
togishima
1
510
乱雑なコードの整理から学ぶ設計の初歩
masuda220
PRO
32
13k
Herb to ReActionView: A New Foundation for the View Layer @ San Francisco Ruby Conference 2025
marcoroth
0
110
Feature Flags Suck! - KubeCon Atlanta 2025
phodgson
0
140
All(?) About Point Sets
hole
0
170
CloudflareのSandbox SDKを試してみた
syumai
0
160
AIを駆使して新しい技術を効率的に理解する方法
nogu66
1
630
Web エンジニアが JavaScript で AI Agent を作る / JSConf JP 2025 sponsor session
izumin5210
4
1.8k
Featured
See All Featured
Why You Should Never Use an ORM
jnunemaker
PRO
60
9.6k
Into the Great Unknown - MozCon
thekraken
40
2.2k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Agile that works and the tools we love
rasmusluckow
331
21k
We Have a Design System, Now What?
morganepeng
54
7.9k
Designing for Performance
lara
610
69k
Writing Fast Ruby
sferik
630
62k
Speed Design
sergeychernyshev
32
1.2k
Site-Speed That Sticks
csswizardry
13
970
Typedesign – Prime Four
hannesfritz
42
2.9k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.2k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
Transcript
劉義瑋 Blueswen 當 Grafana 遇 見 LLM:AI 時代的可觀測性
自 介 • 劉義瑋 Blueswen • blueswen @ GitHub
• Grafana Champion • 領域 • DevOps • Observability • Developer Experience
Outline • 可觀測性基礎概念介紹 • 可觀測性資訊 • 可觀測性如何幫助 LLM •
LLM 如何幫助可觀測性 圖 片 來源:Grafana
Status Page OpenAI Status Page Claude Status Page
None
當你的服務倒了,你能找到是哪塊積 木 出問題了嗎?
可觀測性讓你清楚知道系統哪裡發 生 問題
可觀測性基礎概念介紹
Observability Intro 圖 片 來源:Multi-Cloud Monitoring: A Cloud Security
Essential Observability 系統可被觀測或測量的 一 種特性
Observability Intro 有 足 夠的資訊嗎? 透過各種資訊,清楚了解系統狀態 Log 工 具
指標儀表板 APM 工 具 是否散落各處,形成資料孤島?
Observability Intro - Signals 有 足 夠的資訊嗎? 透過各種資訊,清楚了解系統狀態 Log
工 具 指標儀表板 APM 工 具 是否散落各處,形成資料孤島?
Observability Signals - 可觀測性資訊 指標 不同時間採樣的系統量化指標 如:CPU 使 用
率、API 回應時間 日 誌 紀錄系統中發 生 的事情 如:Debug 訊息、Exception 分散式追蹤 紀錄 行 為在不同服務中的歷程 如:SSO 行 為橫跨多個服務 系統主動揭露讓我們能夠更理解它的資訊
Observability Signals - 可觀測性資訊 徵狀:有問題發 生 脈絡:怎麼發 生 的
發 生 什麼事 哪裡發 生 的 狀況如何 系統主動揭露讓我們能夠更理解它的資訊
Observability Signals - 應 用 於問題排除 圖 片 來源:Loki:
Prometheus-inspired, open source logging for cloud natives 徵狀 脈絡
Observability Intro - Platform 有 足 夠的資訊嗎? 是否散落各處,形成資料孤島? 透過各種資訊,清楚了解系統狀態
Log 工 具 指標儀表板 APM 工 具
Observability Platform - Grafana Metrics 儀表板範例 OpenTelemetry Application Performance
Management Grafana Labs 開源的資料視覺化與儀表板 工 具,並提供告警功能
Observability Platform - Grafana Grafana 檢視 Log
Observability Platform - Grafana Grafana 檢視 Trace
Observability Platform - Grafana 圖 片 來源:Grafana 支 援各種不同的資料來源(Data
Source) Prometheus、ElasticSearch、PostgreSQL、Jaeger、Google Sheet
Observability Intro Observability Signals Grafana 連接資料孤島 透過各種資訊,清楚了解系統狀態 Log
工 具 指標儀表板 APM 工 具
可觀測性資訊
Observability Signals - Data Flow
Observability Signals - Data Flow 生 成 收集 儲存
使 用 資訊處理四步驟
Observability Signals - Data Flow 生 成 收集 儲存
使 用 了解 工 具在 Data Flow 中的定位
Metrics - Prometheus • Prometheus • 監控(Monitoring)與告警(Alerting) 工 具
• 2012 年由 SoundCloud 開發並開源 • 2024 年 11 月 進 入 3.0 版本 • 收集不同時間點的量化指標,儲存後能以 PromQL 語法查詢 Prometheus Metrics 爬取 使 用 PromQL查詢 生 成 收集 儲存 使 用
Observability Signals Data Flow - Metrics Prometheus Metrics Exporter
Prometheus Client Library 生 成 收集 儲存 使 用
Observability Signals Data Flow - Logs Logging Library 生
成 收集 儲存 使 用
Traces(Distributed Tracing) • 監控跨服務請求,利 用 統 一 的 Trace
ID 關聯 一 個 行 為在不同服務之間的歷程 與資訊,例如:執 行 時間、請求來源 IP、SQL 語法、錯誤訊息等
Traces - OpenTelemetry • OpenTelemetry • CNCF Project, 目
前主流的 Trace 規範,已經有超過 90 個組織 支 援 • 2019 年由 OpenTracing 與 OpenCensus 合併 而 成 • 處理 Telemetry Data(Metrics、Logs、Traces)的 API、SDK、Tool 組合包 API SDK Tool 資料格式(OTLP) 傳輸 方 式(HTTP、gRPC) 開發 工 具 Instrumentation Telemetry Data Collector
Observability Signals Data Flow - Traces 生 成 收集
儲存 使 用
Observability Signals Data Flow - Basic 基礎的 Observability Signals
Data Flow
Observability Signals - 資訊交互應 用 圖 片 來源:CNCF Observability
Whitepaper Observability Signals 彼此具有關聯,例如時間區段、Trace ID 透過交互應 用 產 生 綜效
Observability Signals - 資訊交互應 用 Exemplar 時間區段同步 Trace ID
連結
資訊交互應 用 - Metrics vs Logs 利 用 同步時間功能同時查詢
Metrics 與 Logs
資訊交互應 用 - Traces vs Logs 利 用 Trace
ID 查詢對應 Log
Observability Signals - 資訊交互應 用 PyCon Taiwan 2 0
2 4 - 全 方 位強化 Python 服務可觀測性:以 FastAPI 和 Grafana Stack 為例 範例 Demo 影 片
可觀測性如何幫助 LLM Application
LLM Observability Tools • 基於 OpenTelemetry 的各種 Observability 工
具 • 提供 Tracing、Metrics、成本與評估功能等 • Langfuse:SDK、客製化平台 • OpenLLMetry:SDK、客製化平台 • OpenLIT:SDK、客製化平台 • OpenTelemetry OpenAI Instrumentation:SDK
• OpenLIT • 採集 Input、Output、Token 用 量等資訊 • 根據價格表 自
動計算費 用 • 客製化 Dashboards LLM Observability - OpenLIT OpenLIT 資料流 圖 片 來源:OpenLIT Doc OpenLIT Dashboard 圖 片 來源:OpenLIT Doc
LLM Observability - OpenLIT SDK • OpenLIT SDK 產
生 資訊可以轉存 至 其他相容服務,如 Promtheus、Tempo OpenLIT Grafana Dashboard 圖 片 來源:OpenLIT Doc OpenLIT 資料流調整為 Grafana Stack
LLM Observability - OpenTelemetry OpenAI Instrumentation • OpenTelemetry OpenAI
Instrumentation • 採集 Input、Output、Token 用 量等資訊 Trace 內容
應 用 案例 - AutoGen Multi-Agent Observability • 範例:Autogen
Observability Multi-Agent Trace Data
應 用 案例 - AutoGen Multi-Agent Observability OpenLIT Grafana
Dashboard OpenLIT Trace Data
LLM 如何幫助可觀測性
LLM 如何幫助可觀測性 - 常 見 問題排除流程 圖 片 來源:Loki:
Prometheus-inspired, open source logging for cloud natives 分析 處理 分析結果 資訊 知識
常 見 問題排除流程 - LLM 可以協助的地 方 • 善於閱讀
大 量資料 • Metrics、Logs、Traces、程式碼、 文 件 • 提供意 見 & 執 行 修正 • 2 4 / 7 Agentic • 即時分析與處理 分析 處理 分析結果 資訊 知識 {
常 見 問題排除流程 - LLM 怎麼取得資料 • 資訊 • Grafana
MCP Server • 查詢 Prometheus Metrics、Loki Logs、Alerts • Tempo MCP Server • Tempo v 2 . 9 . 0 內建 MCP Server,查詢 Traces 資料 • 知識 • 系統架構、資料查詢技巧、Postmortem • 透過 Prompt、Skills(Claude)、RAG 強化 分析 處理 分析結果 資訊 知識
常 見 問題排除流程 - LLM 怎麼取得資料 • 資訊 • Grafana
MCP Server • 查詢 Prometheus Metrics、Loki Logs、Alerts • Tempo MCP Server • Tempo v 2 . 9 . 0 內建 MCP Server,查詢 Traces 資料 • 知識 • 系統架構、資料查詢技巧、Postmortem • 透過 Prompt、Skills(Claude)、RAG 強化 分析 處理 分析結果 資訊 知識
LLM 如何幫助可觀測性案例 - Pro fi les 解析 • Pro
fi les 用 於分析程式 片 段的 CPU 與 記憶體使 用 狀況 • Grafana 旗下的 Pyroscope 用 於收集 Pro fi les 資料,搭配 LLM Plugin 後可 以解釋 火 焰圖結果,並提供優化意 見 • 範例:Plugin - Drilldown 使 用 Pro fi les Drilldown 查看結果
LLM 如何幫助可觀測性案例 - 告警解析與根因分析 • 使 用 Grafana MCP
跟 GitHub MCP 排查問題 • 範例:Grafana Zero to Hero Use Case: Grafana with LLM 從 Alerting 發現有 Request High Latency 的問題
LLM 如何幫助可觀測性案例 - 告警解析與根因分析 cont. 讓 Claude 總結 Alert
內容
LLM 如何幫助可觀測性案例 - 告警解析與根因分析 cont. 提供 Claude Code Base
與要解決的問題等資訊,搭配 Grafana MCP 與 GitHub MCP 查找根因
LLM 如何幫助可觀測性案例 - Dashboard 生 成 • 透過 Grafana
MCP 查詢現有指標,並建 立 Dashboard 根據 PostgreSQL Server Exporter 建 立 的 Dashboard
常 見 問題排除流程 - LLM 怎麼取得資料 • 資訊 • Grafana
MCP Server • 查詢 Prometheus Metrics、Loki Logs、Alerts • Tempo MCP Server • Tempo v 2 . 9 . 0 內建 MCP Server,查詢 Traces 資料 • 知識 • 系統架構、資料查詢技巧、Postmortem • 透過 Prompt、Skills(Claude)、RAG 強化 分析 處理 分析結果 資訊 知識
LLM 如何幫助可觀測性案例 - 強化背景知識 • 主動提供知識可以提 高 效率,避免 LLM
瞎猜 • Observability • Prometheus Metrics PromQL 技巧 • Tempo TraceQL、Loki LogQL 技巧 • Observability Signals 關聯建 立方 式 • 系統架構 • 架構圖、業務邏輯 • 可 用 的 Metrics 種類與意義 • Observability Signals Label/Attribute 與服務間的對應 盲 人 摸象,圖 片 來源:Sketchplanations
LLM 如何幫助可觀測性案例 - 強化背景知識 cont. • OpenTelemetry Demo:擬真電商系統,微服務架構 •
範例:OpenTelemetry Demo App with LLM 電商平台 OpenTelemetry Demo 架構圖
LLM 如何幫助可觀測性案例 - 強化背景知識 cont. 問題初步診斷
LLM 如何幫助可觀測性案例 - 強化背景知識 cont. 詳細資訊追問
LLM 如何幫助可觀測性 - AI 錯誤的代價 • 提供意 見 &
執 行 修正 • 提供意 見 :浪費時間 • 執 行 修正:嚴重後果 e.g. Drop Prod DB • 人 好像 比 較少犯錯? • 信 心 程度不夠時, 人 會規避 風 險 • 緩解 方 式 • 防 止人 類錯誤的機制也適 用 於 AI • 人工 核可、藍綠佈署、 金 絲雀佈署 etc. 圖 片 來源:Tenor
Recap • 透過各種資訊,清楚了解系統狀態 • 資訊的 生 成、收集、儲存、使 用 •
連接資料孤島,建 立 關聯,產 生 綜效 • 利 用 SDK 收集 LLM 運 行 資訊 • MCP 提供 LLM 資訊 • Prompt、Skill、RAG 強化 LLM 知識 可觀測性 可觀測性與 LLM
延伸閱讀 • Demo Project • FastAPI Observability • Spring
Boot Observability • FastAPI Tracing with Jaeger through OpenTelemetry • OpenTelemetry Application Performance Management • 時光之鏡:透視過去、現在與未來的 Observability:概念、 工 具與應 用 • Grafana Zero to Hero:Grafana 基礎操作與進階應 用 • Observability 1 0 1 :從零開始了解可觀測性:可觀測性基礎介紹 • 全 方 位強化 Python 服務可觀測性:以 FastAPI 和 Grafana Stack 為例
工 商時間 可觀測性概念、 工 具介紹 天瓏網路書店 Grafana 入門 手
冊、應 用 案例 天瓏網路書店 預購中!