Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
MLflow × LLM 生成AI時代の実験管理とリスク低減
Search
西岡 賢一郎 (Kenichiro Nishioka)
August 30, 2025
Technology
0
86
MLflow × LLM 生成AI時代の実験管理とリスク低減
機械学習の社会実装勉強会第50回 (
https://machine-learning-workshop.connpass.com/event/366914/
) の発表資料です。
西岡 賢一郎 (Kenichiro Nishioka)
August 30, 2025
Tweet
Share
More Decks by 西岡 賢一郎 (Kenichiro Nishioka)
See All by 西岡 賢一郎 (Kenichiro Nishioka)
AIがAIを拡張する時代へ ~Claude Codeで実現する高品質文書作成~
knishioka
0
65
Conductor: Git Worktreeで実現する並列AIコーディング
knishioka
0
79
ローカルLLMでファインチューニング
knishioka
0
950
自作MCPサーバ入門
knishioka
0
46
成功と失敗の実像と生成AI時代の展望
knishioka
0
67
MCPが変えるAIとの協働
knishioka
1
220
LangFlowではじめるRAG・マルチエージェントシステム構築
knishioka
0
260
DeepSeekを使ったローカルLLM構築
knishioka
0
240
業務ツールをAIエージェントとつなぐ - Composio
knishioka
1
270
Other Decks in Technology
See All in Technology
AIコーディングとエンジニアリングの現在地 / A Snapshot of AI Coding and Engineering(Sept. 2025)
ar_tama
0
160
研究開発部メンバーの働き⽅ / Sansan R&D Profile
sansan33
PRO
3
20k
PyCon JP 2025 DAY1 「Hello, satellite data! ~Pythonではじめる衛星データ解析~」
ra0kley
0
730
「技術負債にならない・間違えない」 権限管理の設計と実装
naro143
31
9.4k
いまさら聞けない ABテスト入門
skmr2348
0
170
今改めてServiceクラスについて考える 〜あるRails開発者の10年〜
joker1007
20
9k
サプライチェーン攻撃に学ぶModuleの仕組みと セキュリティ対策
kuro_kurorrr
3
790
LLMアプリケーション開発におけるセキュリティリスクと対策 / LLM Application Security
flatt_security
7
1.5k
バイブコーディングと継続的デプロイメント
nwiizo
2
350
そのグラフに「魂」は宿っているか? ~生成AI全盛期におけるデータ可視化手法とライブラリ比較~
negi111111
2
830
VCC 2025 Write-up
bata_24
0
140
非同期処理実行基盤 Delayed脱出 → Solid Queue完全移行への旅路。
srockstyle
3
1.3k
Featured
See All Featured
Why Our Code Smells
bkeepers
PRO
339
57k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
45
2.5k
How STYLIGHT went responsive
nonsquared
100
5.8k
4 Signs Your Business is Dying
shpigford
185
22k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.7k
Unsuck your backbone
ammeep
671
58k
Designing for humans not robots
tammielis
254
25k
Designing for Performance
lara
610
69k
Producing Creativity
orderedlist
PRO
347
40k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
36
2.5k
Building Better People: How to give real-time feedback that sticks.
wjessup
368
20k
How GitHub (no longer) Works
holman
315
140k
Transcript
MLflow × LLM 生成AI 時代の実験管理とリスク低減 なぜ今「実験管理」が重要なのか 西岡 賢一郎 Data Informed
CEO / D-stats CTO 機械学習の社会実装勉強会 第50 回 2025 年8 月30 日 MLflow
背景:生成AI 開発の課題 LLM 活用は急速に進展中 Chatbot 、RAG 、要約など様々なユースケースで活用拡大 しかし実際の開発現場では…
再現性がない(同じ結果を再現できない) 本番に何が動いているのか不明確 コストや品質がコントロール不能 PM 視点ではリスクが高い 予測不能な品質変動、説明責任の難しさ、コスト管理の困難さ MLflow 2 / 11
典型的な困りごと 「どのプロンプトで精度が出たか忘れた」 試行錯誤の過程が記録されず、効果的だったプロンプトを再現できない 「Embedding モデルを変えたら結果が良くなった?悪くなった?」 設定変更の効果が客観的に比較・検証できない 「本番で走っているのはどのバージョン?」
環境間の差異が不明確で、トラブル発生時の原因特定が困難 「意思決定の根拠が残らない」 なぜその設定やモデルを採用したのか、後から検証できない MLflow 3 / 11
MLflow とは? 機械学習のライフサイクル管理プラットフォーム オープンソースソフトウェア(OSS )として広く使われている もともとML 用 →
今はLLM にも対応 生成AI アプリケーション開発にも活用できるように機能拡張 主な機能 Tracking :実験ログの記録と可視化 Model Registry :モデルのバージョン管理 Evaluation & Monitoring :品質検証と監視 Tracing :複雑な処理フローの可視化 MLflow 4 / 11
LLM 時代のMLflow 活用ポイント Tracking :実験ログの自動記録 プロンプト、パラメータ設定、生成結果、コスト、精度を自動で記録・比較可能 Prompt UI
/ Registry :プロンプト管理 プロンプトの編集・共有・バージョン管理を一元化し、最適プロンプトを組織で共有 Evaluation :品質の数値比較 LLM-as-a-Judge, Human Feedback など多様な評価方法で品質を客観的に測定 Tracing :複雑フローの可視化 RAG など複雑なアプリケーションフローを分解・可視化し、ボトルネックを特定 MLflow 5 / 11
Before / After MLflow (RAG アプリ例) Before 精度改善が偶然に依存
設定変更の効果が不明 本番と検証環境が不一致 After 実験履歴から最適条件を選択 コスト・精度を可視化してPM が判断 Production モデルをRegistry で固定化 MLflow 6 / 11
デモで見るMLflow Jupyter Notebook → MLflow UI 簡単な実験コードからMLflow UI で詳細なログ情報を確認
自動記録される実験情報 プロンプト内容とパラメータ設定 実行結果とモデル出力 実行コストやAPI 使用量 UI の比較機能 複数のRun を並べて精度やコストを比較、最適な設定を選定可能 高度な機能 Prompt Engineering UI やTracing 可視化による複雑なフローの把握 MLflow 7 / 11
PM/ 開発者が得られる価値 透明性 本番モデルとその選定根拠を明確に説明可能 再現性 同じ実験を誰でも再現できる環境と条件を保証 リスク低減
精度低下・コスト増を早期に検知し対策可能 協調 PM ・エンジニア・研究者が同じ画面を見て議論できる共通基盤 MLflow 8 / 11
運用イメージ → → → ↩
開発フェーズ MLflow Tracking で実験履歴を残す プロンプト、パラメータ、出力結果、メトリクスを自動記録 検証フェーズ MLflow Evaluation で品質比較 LLM-as-a-Judge などを活用した客観的な品質評価 本番フェーズ MLflow Registry でモデルを管理 Staging → Production へのステージング管理と安全なデプロイ 改善フェーズ MLflow Tracing でボトルネックを特定 複雑なRAG や処理フローの可視化とパフォーマンス分析 MLflow 9 / 11
導入の第一歩 難しく考えなくてOK MLflow は段階的に導入でき、小さく始めて徐々に拡張可能です 「まずは実験ログを残す」ことから始める 最初はTracking のみの利用から、環境構築は最小限でOK
ローカル環境でもすぐ利用可能 pip install mlflow だけでインストール完了、コード数行で記録開始 チーム利用への発展 リモートサーバやクラウドでTracking UI を共有し、チーム全体で実験を可視化 MLflow 10 / 11
まとめ LLM 開発はスピードと同時に管理と再現性が必須 実験と改善の記録がなければ持続的な品質向上は困難 MLflow は「実験ノート+品質保証+本番管理」を一体化 従来の個別ツールをシームレスに統合し、開発効率を向上
RAG や要約など幅広いアプリでリスク低減に貢献 複雑なワークフローの可視化と品質評価を容易に実現 結論:LLM 活用にMLflow は欠かせない基盤 透明性・再現性・説明責任を担保し、生成AI 時代の信頼できる開発を実現 MLflow 11 / 11