LLMOps: Eval-Centric を前提としたMLOps

LLMOps: Eval-Centric を前提としたMLOps Asei Sugiyama

自己紹介杉山阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google
Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG mlops community 運営機械学習図鑑事例でわかる MLOps 共著決闘者 @ マスターデュエル

TOC MLOps 振り返り <- LLMOps 再考

MLOps 振り返り MLOps とは MLOps で取り組む課題機械学習チームの悲劇 MLOps のベストプラクティス継続的な改善
継続的な訓練

MLOps とは機械学習の成果をスケールさせるためのさまざまな取り組み 2018 年の Google Cloud Next
がおそらく初出

MLOps で取り組む課題前処理が難しいモデルの更新などの運用が煩雑機械学習チームの悲劇西田佳史, 遠藤侑介,
有賀康顕著「n 月刊ラムダノート Vol.1, No.1(2019)」ラムダノート株式会社 2019年 https://eiyo21.com/book/9784789554596/

機械学習チームの悲劇機械学習専門のチームが誕生機械学習モデルを作成し、PoC で成果を確認モデルをプロダクトに組み込むためのタスクが作成されるモデルをプロダクトに組み込む作業の見積もりが大きくなる典型的な機能開発のほうが小さな見積もりになり、優先度が上がるプロダクトに組み込まれないため機械学習専門のチームの成果が出ない投資対象を見直すことになりチーム解散

MLOps のベストプラクティス事例でわかる MLOps 技術・プロセス・文化活用フェーズごとに整理杉山阿聖, 太田
満久, 久井裕貴編著「事例でわかるMLOps 機械学習の成果をスケールさせる処方箋」講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

継続的な改善 DevOps の原則のひとつフィードバックサイクルによる改善 Explore Continuous Improvement
- Training | Microsoft Learn https://learn.microsoft.com/en- us/training/modules/characterize-devops- continous-collaboration-improvement/3-explore- continuous-improvement

継続的な訓練 MLOps における継続的な改善の実装モデルを継続的に訓練して改善 MLOps: Continuous
delivery and automation pipelines in machine learning | Cloud Architecture Center | Google Cloud https://cloud.google.com/architecture/mlops- continuous-delivery-and-automation-pipelines-in- machine-learning

TOC MLOps 振り返り LLMOps 再考 <-

LLMOps 再考既存の LLMOps 既存の LLMOps の問題点市場調査 LLM の活用における課題
Eval-Centric AI LLMOps の取り組み継続的な評価フレームワークの検証

既存の LLMOps LLM の出現時に LLMOps というドキュメントが出現した既存の MLOps のプラクテ
ィスを LLM に適用するもの LLMOps: What it is and how it works | Google Cloud https://cloud.google.com/discover/what-is-llmops?hl=en

既存の LLMOps の問題点 MLOps は CT (継続的な訓練) を中心とした継続的な改善 LLM の活用においては
CT を前提とできないため、フィードバックループを構成できていない解決したい課題を明確にしないままに MLOps をベースに定義してしまった

市場調査 LLM を活用しているエンジニアにインタビュー (自由形式) 似たような課題・対策を行っていることが見えてきた LLM の活用における課題を再考し、LLMOps を再定義したい

LLM の活用における課題システムの正しい振る舞いを、誰も明確に記述できない品質評価の観点を事前に列挙することは困難で、出力から事後的に得られることが大半機械学習による言語パフォーマンスの評価
- Speaker Deck https://speakerdeck.com/langstat/ji-jie-xue-xi-niyoruyan-yu- pahuomansunoping-jia

Eval-Centric AI

LLMOps の取り組み Eval-Centric を前提とした LLM の活用のための取り組みを収集技術・プロセス・文化の観点で整理 The
Rise of LLMOps - Speaker Deck https://speakerdeck.com/asei/the-rise- of-llmops

LLMOps の取り組み: 技術 RAG プロンプトエンジニアリング LLM-as-a-Judge 継続的な評価オズの魔法使いパターンユーザーテストトレース
ガードレールプロンプトのバージョン管理

LLMOps の取り組み: プロセス・文化事例共有会計測学習する文化セキュリティ Red Teaming AI
ガバナンス

プロンプトエンジニアリング入力文章を調整して、言語モデルを効率的に使おうとする手法群指示文を人が見たときにわかりやすくなるよう、明確に記述することが基本 Gemini の記事が参考になる CoT
(Chain of Thought) などのテクニックもある Gemini から欲しい回答を引き出すプロンプト術｜Gemini - Google の AI https://note.com/google_gemini/n/n60a9c426694e

LLM-as-a-Judge プロンプトを用いて LLM に出力の良さを評価させる手法新たな評価観点が得られた場合、その評価観点に基づく評価方法の手順書を書くと、その観点に基づく評価が
LLM で可能 LLMによるLLMの評価「LLM-as-a-Judge」入門〜基礎から運用まで徹底解説 https://zenn.dev/pharmax/articles/2d07bf0498e212

継続的な評価による継続的な改善

Prompt Playground

フレームワークの検証開発者を対象としたヒアリング学術的な団体での議論公的な団体での議論コミュニティによるイベントへの参加

ウィンターワークショップ2025・イン・下関

まとめ MLOps は機械学習の成果をスケールさせるためのさまざまな取り組み MLOps のプラクティスのひとつである継続的な訓練は継続的な改善を実現させるためのもの LLM の活用においては Eval-Centric
なアプローチが必要であり、評価を通じた改善サイクルの再定義が必要 LLM-as-a-Judge などの技術を用いて、品質評価の観点をイテレーティブに獲得する継続的な評価が鍵

LLMOps: Eval-Centric を前提としたMLOps

LLMOps: Eval-Centric を前提としたMLOps

Asei Sugiyama

More Decks by Asei Sugiyama

Other Decks in Technology

Featured

Transcript