Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
MLflow × LLM 生成AI時代の実験管理とリスク低減
Search
西岡 賢一郎 (Kenichiro Nishioka)
August 30, 2025
Technology
210
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
MLflow × LLM 生成AI時代の実験管理とリスク低減
機械学習の社会実装勉強会第50回 (
https://machine-learning-workshop.connpass.com/event/366914/
) の発表資料です。
西岡 賢一郎 (Kenichiro Nishioka)
August 30, 2025
More Decks by 西岡 賢一郎 (Kenichiro Nishioka)
See All by 西岡 賢一郎 (Kenichiro Nishioka)
会計士・税理士向け AI活用勉強会第1回
knishioka
0
45
権限は渡さない、操作だけ切り出す ― 自前MCPサーバー実践入門
knishioka
0
50
AIガバナンス実践 - 生成AIコネクタのデータ漏洩リスクと実務対策
knishioka
0
210
データサイエンスの現場から学ぶ 成功と失敗の実像と生成AI時代の展望
knishioka
0
89
ハーネスエンジニアリング入門
knishioka
0
420
OpenClawでPM業務を自動化
knishioka
2
560
Claude Cowork Plugins を読む - Skills駆動型業務エージェント設計の実像と構造
knishioka
0
670
仕様書駆動AI開発の実践: Issue→Skill→PRテンプレで 再現性を作る
knishioka
2
890
Claude Codeを使った情報整理術
knishioka
20
13k
Other Decks in Technology
See All in Technology
時期が悪い!それでもRaspberry Piを買って遊んで活用するには / 20260627-osc26do-rpi-jikigawarui
akkiesoft
1
910
そこにあるから地図ができる~位置を示す"モノ"を愉しむ~ - Interface 2026年6月号GPS特集オフ会 / interface_202606_GPS_offline
sakaik
1
120
Docker Desktop不要の時代が来る? WSL標準の「wslc」で Linuxコンテナを動かしてみた.
ueponx
0
200
Hatena Engineer Seminar 37 jj1uzh
jj1uzh
0
200
自分が詳しくない領域でAIを使う #プロヒス2026
konifar
20
7.9k
Foundry Toolkit + Lemonade Serverでローカルワークフロー開発
seosoft
0
110
“詰む”前に仕組みを作れ 〜技術の波に溺れないためのキャッチアップ術〜
takasyou
7
4.4k
5分でわかる Amazon Connect_20260608
hwangbyeonghun
0
140
AIペネトレーションテスト・ セキュリティ検証「AgenticSec」紹介資料
laysakura
2
7.7k
次世代ランサムウェア対策の考察 / 20260704 Mitsutoshi Matsuo
shift_evolve
PRO
1
160
製造現場での生成AIの活用、およびエージェントAIの実装のあり方、AVEVAの取り組み
iotcomjpadmin
0
180
脱SaaS!FDEを支えるプロビジョニングと分離設計
knih
0
310
Featured
See All Featured
RailsConf 2023
tenderlove
30
1.5k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
55k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
250
1.3M
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
3.5k
Rebuilding a faster, lazier Slack
samanthasiow
85
9.5k
Faster Mobile Websites
deanohume
310
32k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
New Earth Scene 8
popppiees
3
2.4k
Raft: Consensus for Rubyists
vanstee
141
7.6k
Side Projects
sachag
455
43k
How to Talk to Developers About Accessibility
jct
2
260
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
490
Transcript
MLflow × LLM 生成AI 時代の実験管理とリスク低減 なぜ今「実験管理」が重要なのか 西岡 賢一郎 Data Informed
CEO / D-stats CTO 機械学習の社会実装勉強会 第50 回 2025 年8 月30 日 MLflow
背景:生成AI 開発の課題 LLM 活用は急速に進展中 Chatbot 、RAG 、要約など様々なユースケースで活用拡大 しかし実際の開発現場では…
再現性がない(同じ結果を再現できない) 本番に何が動いているのか不明確 コストや品質がコントロール不能 PM 視点ではリスクが高い 予測不能な品質変動、説明責任の難しさ、コスト管理の困難さ MLflow 2 / 11
典型的な困りごと 「どのプロンプトで精度が出たか忘れた」 試行錯誤の過程が記録されず、効果的だったプロンプトを再現できない 「Embedding モデルを変えたら結果が良くなった?悪くなった?」 設定変更の効果が客観的に比較・検証できない 「本番で走っているのはどのバージョン?」
環境間の差異が不明確で、トラブル発生時の原因特定が困難 「意思決定の根拠が残らない」 なぜその設定やモデルを採用したのか、後から検証できない MLflow 3 / 11
MLflow とは? 機械学習のライフサイクル管理プラットフォーム オープンソースソフトウェア(OSS )として広く使われている もともとML 用 →
今はLLM にも対応 生成AI アプリケーション開発にも活用できるように機能拡張 主な機能 Tracking :実験ログの記録と可視化 Model Registry :モデルのバージョン管理 Evaluation & Monitoring :品質検証と監視 Tracing :複雑な処理フローの可視化 MLflow 4 / 11
LLM 時代のMLflow 活用ポイント Tracking :実験ログの自動記録 プロンプト、パラメータ設定、生成結果、コスト、精度を自動で記録・比較可能 Prompt UI
/ Registry :プロンプト管理 プロンプトの編集・共有・バージョン管理を一元化し、最適プロンプトを組織で共有 Evaluation :品質の数値比較 LLM-as-a-Judge, Human Feedback など多様な評価方法で品質を客観的に測定 Tracing :複雑フローの可視化 RAG など複雑なアプリケーションフローを分解・可視化し、ボトルネックを特定 MLflow 5 / 11
Before / After MLflow (RAG アプリ例) Before 精度改善が偶然に依存
設定変更の効果が不明 本番と検証環境が不一致 After 実験履歴から最適条件を選択 コスト・精度を可視化してPM が判断 Production モデルをRegistry で固定化 MLflow 6 / 11
デモで見るMLflow Jupyter Notebook → MLflow UI 簡単な実験コードからMLflow UI で詳細なログ情報を確認
自動記録される実験情報 プロンプト内容とパラメータ設定 実行結果とモデル出力 実行コストやAPI 使用量 UI の比較機能 複数のRun を並べて精度やコストを比較、最適な設定を選定可能 高度な機能 Prompt Engineering UI やTracing 可視化による複雑なフローの把握 MLflow 7 / 11
PM/ 開発者が得られる価値 透明性 本番モデルとその選定根拠を明確に説明可能 再現性 同じ実験を誰でも再現できる環境と条件を保証 リスク低減
精度低下・コスト増を早期に検知し対策可能 協調 PM ・エンジニア・研究者が同じ画面を見て議論できる共通基盤 MLflow 8 / 11
運用イメージ → → → ↩
開発フェーズ MLflow Tracking で実験履歴を残す プロンプト、パラメータ、出力結果、メトリクスを自動記録 検証フェーズ MLflow Evaluation で品質比較 LLM-as-a-Judge などを活用した客観的な品質評価 本番フェーズ MLflow Registry でモデルを管理 Staging → Production へのステージング管理と安全なデプロイ 改善フェーズ MLflow Tracing でボトルネックを特定 複雑なRAG や処理フローの可視化とパフォーマンス分析 MLflow 9 / 11
導入の第一歩 難しく考えなくてOK MLflow は段階的に導入でき、小さく始めて徐々に拡張可能です 「まずは実験ログを残す」ことから始める 最初はTracking のみの利用から、環境構築は最小限でOK
ローカル環境でもすぐ利用可能 pip install mlflow だけでインストール完了、コード数行で記録開始 チーム利用への発展 リモートサーバやクラウドでTracking UI を共有し、チーム全体で実験を可視化 MLflow 10 / 11
まとめ LLM 開発はスピードと同時に管理と再現性が必須 実験と改善の記録がなければ持続的な品質向上は困難 MLflow は「実験ノート+品質保証+本番管理」を一体化 従来の個別ツールをシームレスに統合し、開発効率を向上
RAG や要約など幅広いアプリでリスク低減に貢献 複雑なワークフローの可視化と品質評価を容易に実現 結論:LLM 活用にMLflow は欠かせない基盤 透明性・再現性・説明責任を担保し、生成AI 時代の信頼できる開発を実現 MLflow 11 / 11