From Observability to Observability Driven Development

Credit to : canva

Agenda Future : Observability Shift Left Present : History of
Observability Past : Why we need Observability - 可觀測性左移 - 可觀測性的演進史 - Observability Signals - 現代化開發者遇到什麼挑戰，為什麼需要可觀測性 ? 03 02 01

Hello! I’m Marcus 後端打雜工 #自我學習 #熱愛分享 #可觀測性分享經驗 - 2022
DevopsDays 可觀測性的實踐 - 2023 ITHome 鐵人賽 DevOps 組佳作 - COSCUP、MOPCON、.NET Conf

本次分享旨在與聽眾分享本人對於的個人觀點與心得，本場不會談論任何技術細節，期待看到大量技術、工具實務細節的朋友們，可能會大失所望。為不耽誤您的青春，請趁其他教室關門前前往。 WARNING 可觀測性

• LINE ID : @294zkrpy • 輸入 “開始測驗” 可觀測性小助手

可觀測性小助手 AI 智能客服上線後，然後呢 ? Credit to : canva

今天是星期五晚上下班時間，你負責的可觀測性小助手突然崩潰，客戶反應程式異常無法使用，PM 束手無策，開發團隊在黑暗中摸索問題根源。這時候你會怎麼做 ?

Development Process Architecture People Infra Cloud & Packaging Problem 人
* 架構 * 基礎建設 * 流程 * Cloud = Complexity Credit to : canva

可觀測性 Observability Credit to : canva

正在實施可觀測性計劃外停機平均時間縮短 50% 69% 對他們的業務很重要且具有戰略意義 90% Why Observability

演進歷程 History of Observability Credit to : canva

History of Observability Credit to : Observability is Also Programmed

1.0 Observability Credit to : canva

目的 : 更了解系統狀況，當發生異常時快速恢復

Observability Signals Metrics Distributed Traces Structured Log SLI/KPIs Service dependencies
Unlimited detail Do I have a problem ? Where is the problem ? What is causing the problem ? Service Level Objective

Metrics 外部 • Service Level Agreement (SLA) 內部 • Service
Level Objective (SLO) • Service Level Indicator (SLI) • Service Level Status (SLS) • Error budget Credit to : slo

Structured Log Before After • Application Logs • Security Log
• System Log • Audit log • Infrastructure log

Distributed Traces Credit to : slo

問題排除流程 Credit to : link

Observability washing Metrics、Trace、Log 真的夠嗎 ? Credit to : canva

• 我有用 Jenkins，我就是在做 DevOps • 我有用 CI/CD，我就是在做 DevOps • 我有用
Slack，我就是團隊協作專家 • 我有用 Excel，我就是數據分析大師 • 我有用 Log、Metrics、Tracing，就是導入可觀測性了嗎 ? 導入工具就能解決問題嗎 ? Credit to : chatGPT

延伸問題可觀測性數據爆增關心成本問題技術堆疊複雜度變高 71% 56% 88% 蒐集所
有數據，不一定是最具成本效益的方式

2.0 Observability Credit to : canva

Observability Signals 再進化 Credit to : link

CNCF : Observability Whitepaper Credit to : tag-observability link

Continuous Profiling The future of application performance assessment Credit to
: What is continuous profiling?

Continuous Profiling Credit to : What is continuous profiling?

Observability : Shift Left 可觀測性左移 Credit to : canva

Observability : Shift Left Plan Design Develop Test Deploy Operate
CI/CD pipeline 開發流程開發 & 維運的工作，兩者都非常重要過去關注的

• Healthy pipelines • 提升穩定性 (Reliability) • 提高效率 (Performance) •
程式碼行為 (behave) 的假設 • 考慮可觀察性信號 Signals • feedback CI/CD pipeline 開發流程 Observability : Shift Left

CI/CD pipeline Observability Plan Design Develop Test Deploy Operate Unhealthy
pipeline • Slow deployment • Testing Issues • Technical dept • Reducing any delay in pushing code • Reducing wait time for user • Preventing unnecessarily long cycle time Internal External impact low high

CI/CD pipeline Observability example Credit to : Observe Thy CI/CD
Pipelines with OpenTelemetry

Observability–Driven Development Plan Design Develop Test Deploy Operate 目標 :
• 建立有效的反饋機制 • 打破開發和運維之間的隔閡 • 培養數據驅動的決策文化 Write Tests Evaluate Tests Refactor TDD Define Expected Outcome Measure The Outcome Change Feature & keep measuring ODD Deployment feedback Is feature behaving as expected

Observability–Driven Development Framework 02 03 04 05 定義衡量指標 01 定義衡量指標
KPI 持續優化跟調整實現自動化的可觀測性數據收集設計階段考慮可觀測性建立即時反饋機制確保在開發周期系統具備良好的可觀測性

Implementing O.D.D : 定義衡量指標監控指標 (系統健康) Rate（速率） Errors（錯誤） Duration（持續時間） Utilization（利用率）
Saturation（飽和度） Errors（錯誤） Latency（延遲） Traffic（流量） Errors（錯誤） Saturation（飽和度） • 關鍵服務是什麼 ? • 外部服務有哪些 ? • 各服務之間的依賴關係 ? • 有哪些重要情境不能掛？ Bug & Issue Other MBPM（Metrics-Based Process Management） SLA, SLOs, SLIs 系統架構圖 Goal 框架

可觀測性小助手 AI 智能客服上線後，然後呢 ? Credit to : canva

O.D.D : 定義衡量指標 – 以 AI 智能客服為例監控指標 Rate（速率）：每分鐘處理的客戶查詢數量。 Errors（錯誤）：系統處理錯誤的次數。
Duration（持續時間）：平均響應時間查詢時間：用戶查詢到系統生成回應所需的時間。語音識別延遲：從用戶語音輸入到語音轉文本的時間回應生成時間：系統生成自然語言回應所需的時間。 • 自然語言處理模組、回應生成模組、查詢數據庫模組等 • 語音識別模組依賴於語音到文本轉換模組。 MBPM（Metrics-Based Process Management） SLA, SLOs, SLIs 系統架構圖 Goal 框架 • 請求 Token 數 • OpenAPI 請求量 • 回答問題正確率

Observability 3.0 Credit to : canva

A.B.C + OpenTelemetry AIOps, LLM Observability AI Data Observability, Telemetry
Data Big Data 收集遙測數據的標準 OpenTelemetry Infrastructure Cloud

LLM Observability : OpenLIT Credit to : openLIT

Observability Market Landscape Credit to : observability-in-2024

Takeaway 小結 Credit to : canva

Takeaway 可觀測性 1.0 可觀測性 2.0 可觀測性 3.0 特點基本監控與人工分析增強監控與主動分析
智能監控與自動化運營分析方法人工分析半自動分析自動分析處理問題 Known-unknown unknown-unknown unknown-unknown 操作模式被動主動自動優點對已發生的問題做出反應主動發現和解決潛在問題系統能夠自動識別、分析和解決問題缺點被動監控，無法及時預測和防範問題數據量大，帶來存儲和處理的挑戰初期投入成本大，需對現有系統全面升級和改造總結 • 從人工分析到半自動，再到全自動。 • 問題處理方式從被動到主動再到預測性。 • 從基本監控到深入分析，再到預測和洞察

THANK YOU { Devops Days。Everyone } Marcus 的學習筆記 Any question
? marcus tung 鐵人賽 : Observability 101

Github : Observability 101

From Observability to Observability Driven Deve...

From Observability to Observability Driven Development

More Decks by Marcus

Other Decks in Technology

Featured

Transcript