揭秘LLMOps: 讓LLM服務像火箭般穩定高效的祕密!

Maggie Lee LINE Taiwan, Machine Learning Engineer Education: 國立政治大學中文系學士/
資科系碩士 Specialty: • Machine Learning • Large Language Model • Knowledge Graph

iThome CIO 21%↑ 各企業優先目標大改變用AI強化分析與決策 20%↑ 用AI創新應用與服務

iThome CIO 35% 各企業優先目標大改變用AI強化分析與決策 41% 用AI創新應用與服務

iThome CIO 37% 47% 加強企業數位轉型提高員工生產力採用GAI目的大調查

01 02 03 04 Faster Time to Market 如何優化合作模式 Reliability
and Quality 如何快速打造可靠的服務 Regulatory Compliance and Ethics 法規與倫理面的實際方案 LLMOps流程上存有什麼挑戰 05 總結 CONTENT

01 LLMOps流程上存有什麼挑戰

MLOps到LLMOps流程/合作再進化提升效率看重商業價值創造工程上需要LLM 即時支援use case LLM作為生產力增強器 1234 特點項目文字特點項目
安全性穩定性紀錄prompt各版本的表現差異維持服務穩定性服務安全性不只有避免輸出歧視還有更多可用工具

訓練模型的機會減少後實驗有被好好紀錄嗎 2100 特點項目文字特點項目準確性成為LLM的關鍵因素穩定性紀錄prompt各版本的表現差異維持服務穩定性
安全性服務安全性不只有避免輸出歧視還有更多可用工具看重商業價值創造工程上需要LLM 即時支援use case 提升效率

屬於GenAI LLMOps獨有的挑戰 LLM道德和法律愈發重要安全性服務安全性不只有避免輸出歧視還有更多可用工具穩定性紀錄prompt各版本的表現差異
維持服務穩定性看重商業價值創造工程上需要LLM 即時支援use case 提升效率

02 Faster Time to Market 如何優化合作模式

文字生成開發流程將任務轉換成Prompt 深入瞭解問題優化模型輸出品質對內容進行自動化審查對內容進行
人工檢查 BO Legal Engineer PM Engineer Engineer Engineer BO Legal Engineer ？？？？

Select Foundational Model Evaluate Results Prompt Engineering Room for improvement
Deploy to Production Enough Resource RAG Fine-tuning

以客服案件分類解釋器為例不好意思我在認證電話號碼時無法收到認證碼（簡訊）我該怎麼辦？ Input 標籤: 政策原因：電話號碼內的Auth
Penalty History因用戶多次認證被鎖定，無法完成簡訊認證 Output 分類客訴案件讓客服團隊可以快速統整服務需要優化的地方標籤有產品、政策、活動、系統問題、客服營運問題

R&R 混亂完蛋！效能越改越低怎麼辦我覺得這個 prompt跟我分類定義不一樣我要修改prompt 以客服案件分類解釋器為例

將Prompt以CO-STAR 切分任務 Context Objective Style Tone Audience Response 以客服案件分類解釋器為例 Provider
Engineer Engineer BO Engineer BO BO confirmer BO Engineer Engineer Engineer Engineer Engineer

快速建立POC 決定是否使用 RAG or tuning 若準確度/正確度低於60% 嘗試加入 model based
solution 討論服務可接受的表現與團隊討論預期效能建議落在當前平均表現正負10% R&R 混亂優化到什麼程度完蛋！效能越改越低怎麼辦我覺得這個 prompt跟我分類定義不一樣我要修改prompt 以客服案件分類解釋器為例我希望這個服務達到90%的準確率這個服務我有辦法達到嗎？

快速建立POC 決定是否使用 RAG or tuning 若準確度/正確度低於60% 嘗試加入 model based
solution 討論服務可接受的表現與團隊討論預期效能建議落在當前平均表現正負10% 整合服務 R&R 混亂優化到什麼程度控制output 格式完蛋！效能越改越低怎麼辦我覺得這個 prompt跟我分類定義不一樣我要修改prompt 以客服案件分類解釋器為例我希望這個服務達到90%的準確率這個服務我有辦法達到嗎？

03 Reliability and Quality 如何快速打造可靠的服務

Make it more easy Select Foundational Model Evaluate Results Prompt
Engineering Room for improvement Deploy to Production Upload Test data

集中管理 – 方便管理不同project的prompt，提升效率。 Why use open-source LLMOps platform

成本透明- 開發專案需要多少金額清清楚楚 Why use open-source LLMOps platform

一目瞭然 - 簡化的prompt編輯和版本管理 Why use open-source LLMOps platform

紀錄不同prompt版本表現及差異 Why use open-source LLMOps platform

Input Prompt template metadata Upload test data Create mlflow exp.
Execute predict & evaluation Log template and performance Do retriever Input retriever metadata exp. Is exist • Prompt name • environmentName • X-Pezzo-Api-Key • X-Pezzo-Project-Id Edit prompt & deploy • DB connection info • Index name • 搜索的input對到test data的哪個欄位 Yes No Prompt name Prompt VersionSha model date score filename note 客服分類器V1 f9dfb462b52 gpt-4o 2024-08-28 0.853 8M-2W.csv 更改event定義客服分類器V1 k8ehf452a34 gpt-4o 2024-08-27 0.749 8M-1W.csv 增加輸出繁體中文 • exp. name: {prompt_id} • Run_id: {promptVersionSha}-{date-string}

04 Regulatory Compliance and Ethics 法規與倫理面的實際解決方案

AI 法案基本原則七大基本原則永續發展人類自主隱私
保護透明可解釋資訊安全問責隱私保護

Regulation Check 廣告文案生成輸出文案就夠了嗎單身男士進！女孩尋找伴侶，可深處了解約會預防高血壓中風腦溢血心肌梗塞？中醫有解！十年白髮變黑竟靠這個小玩意
帶有情色以及性暗示內容過度宣稱療效涉及改變身體外觀例如：使頭髮烏黑。

Regulation Check 法規 • 化粧品標示宣傳廣告涉及虛偽誇大或醫療效能認定準則 • 藥品廣告法令及審查原則 • 食品衛生管理法….. 可用詞/
不可宣稱詞 • 涉及影響生理機能或改變身體結構之詞句 • 化妝品得宣稱詞句例示及不適當宣稱詞句列舉 • 食品通常可使用之詞句… 內部規則 • LINE Logo 規範 • 色情裸露 • 不當內容… 過往審核結果 • 搜尋相似的廣告來參考過往審核結果

Regulation Check 生成廣告文案 Spam keyword Detection 廣告文案及對應審查結果歷史資料
Regulation Check 是否通過採用是否通過

System guard input System guard System guard LLM Generative model
output Prompt hacking ML Commons AI Safety ML Commons AI Safety Regulation check

Takeaway 01 02 03 串接 pezzo + Mlflow + gradio
輕鬆紀錄每次實驗防止Prompt hacking / 增加AI common security Check / 法規檢查串接開源LLMOps服務實驗一指到位針對LLM輸入及輸出安全主動出擊文字生成專案寫prompt不單是一個任務以CO-STAR 切分子任務開發優先順序/驗收對象一目瞭然

揭秘LLMOps: 讓LLM服務像火箭般穩定高效的祕密!

揭秘LLMOps: 讓LLM服務像火箭般穩定高效的祕密!

LINE Developers Taiwan
PRO

More Decks by LINE Developers Taiwan

Other Decks in Technology

Featured

Transcript