MLflowはどのようにLLMOpsの課題を解決するのか

MLﬂowはどのようにLLMOps の課題を解決するのか 2025/3/6 Taka Yayoi

©2025 Databricks Inc. — All rights reserved 自己紹介弥生隆明
(やよいたかあき) シニアスペシャリストソリューションアーキテクト ▪ 2020年からデータブリックスジャパンにおいて、プレセールス、POCに従事 ▪ 前職はコンサル、総合電機メーカーにてデータ分析・Webサービス構築などに従事。インド赴任経験あり。 ▪ Databricks Certiﬁed (Data Engineer | Machine Learning) Professional, Generative AI Engineer Associate ▪ Qiitaでいろいろ書いています。 2 @taka_aki

©2025 Databricks Inc. — All rights reserved MLﬂow Meetup! 日本人メンテナーが
語るMLﬂowの現在と未来 3 3/18(火) 18:00 WeWork 東京スクエアガーデン MLflowメンテナー陣を囲んで、参加者の皆様と自由に対話やディスカッションができる時間です。 MLflowに関する質問や、MLOps全般についての相談など、気軽に話せる場としてご活用ください。

本日のアジェンダ • LLM/生成AIアプリ開発における課題 • MLﬂowがLLMOpsの課題を解決する方法 ◦ 実験トラッキング ◦ トレース ◦
評価 • クイックデモ

LLM/生成AIアプリ開発における課題

LLM/生成AIアプリ開発における課題 1. エージェントシステムの複雑性 2. 急速な進化を遂げる業界 3. デバッグ 4. 品質保証 5.
本格運用

エージェントシステムの複雑性 • LLMは多くの場合、複数のモデル、ツール、プロンプト、その他のコンポーネントを組み込んだ大規模なAIエージェントシステムの重要なコンポーネントとなります。自律エージェントの台頭により、システムの制御フローはより動的で複雑になります。このようなシステムを効果的に管理するには、その複雑さを扱うための明確に定義されたプロセスと専門的なツールが必要です。

急激な進化を遂げる業界 • 生成AIの業界は急速に進化しており、新しいモデル、ツール、ライブラリが毎日のように登場しています。バージョンを追跡し、依存関係を管理することは、 AIシステムの安定性と再現性を維持するために重要です。 • 以下の図は、LangChainやOpenAIなどの人気のある生成AIライブラリの高いリリース頻度を、従来の
MLおよび DLと比較して示しています。バージョンと依存関係を追跡しないと、 AIシステムの安定性と再現性を維持することが困難になる可能性があります。

デバッグ / 品質保証 / 本格稼働 • デバッグの課題：LLMベースのアプリのデバッグは、システムの複雑さと高い抽象化レベルのため困難です。LLMとそのコンポーネントの動作を理解するには、適切なツールと技術が必要です。 •
品質保証の課題：LLMの品質確保は、モデルの複雑さと動的なタスクのため困難です。信頼性とパフォーマンスのためには、堅牢な QAプロセスが必要です。 • 本格稼働の課題：LLMアプリの動的化に伴い、デプロイ後のパフォーマンス監視が重要です。機械学習の監視には、モデルの動作とパフォーマンスをリアルタイムで追跡する専門ツールが必要です。

MLﬂowがLLMOpsの課題を解決する方法

LLMOps文脈でのMLﬂowの提供機能構築構築テストデプロイ監視実験トラッキングトレースモデルパッケージ評価
トレースモデルサービングプロンプトエンジニアリングUI

実験トラッキング

実験(Experiment)トラッキング実験トラッキングはMLflowプラットフォームの基本的な機能であり、モデル、プロンプト、トレース、メトリクスなど、LLM/GenAIプロジェクト中の多くのアセットやアーティファクトを一箇所に整理することができます。 • 単一の情報源 : MLflowは、モデル、プロンプト、トレースなど、すべてのLLMアセットを保存および管理するための集中管理された場所として機能し、プロジェクトの単一の情報源を確保します。 • より良いコラボレーション
: 実験トラッキングにより、チームメンバーと作業を共有でき、結果を再現しフィードバックを提供することができます。 • リネージ追跡 : MLflowは、プロジェクトのさまざまな段階を通じてLLMアセットのリネージをキャプチャし、モデル、プロンプト、その他のアーティファクトのリネージを追跡できるようにします。 • 比較分析: MLflowは、異なるバージョンのLLMモデル、プロンプト、その他のアセットを比較することを可能にし、情報に基づいた意思決定を行い、LLMアプリケーションの品質を向上させるのに役立ちます。 • ガバナンスとコンプライアンス : 組織内の機械学習アセットの中央リポジトリを使用することで、MLflowはガバナンスとコンプライアンス基準を維持し、重要なアセットが認可されたユーザーのみがアクセスできるようにします。

14 トラッキングされた実験

トレース MLﬂow Tracing

MLflow Tracing MLflow Tracingは、LLM呼び出しやドキュメント取得、データクエリ、ツール呼び出しなどの重要な詳細をキャプチャすることで、生成AIアプリケーションにおけるLLMの可観測性を確保し、アプリケーションの内部動作を監視し深い洞察を得ることができます。 • デバッグ: トレースは抽象レイヤーの下で何が起こっているかの詳細なビューを提供し、LLMアプリケーションの問題を迅速に特定して解決するのに役立ちます。
• 品質の検査 : MLflow Evaluationでモデルやエージェントを評価した後、自動生成されたトレースを分析してLLMの動作を理解し、情報に基づいた意思決定を行うことができます。 • 本番監視: トレースは本番環境でのLLMのパフォーマンスを監視するために不可欠です。MLflowトレーシングは、本番環境でのボトルネックやパフォーマンスの問題を特定し、是正措置を講じてアプリケーションを継続的に最適化することを可能にします。 • OpenTelemetry: MLflowトレースは、業界標準の可観測性フレームワークであるOpenTelemetryと互換性があり、Prometheus、Grafana、Jaegerなどの人気のある可観測性ツールと統合して高度な監視と分析を行うことができます。 • フレームワークサポート : MLflowトレーシングは、OpenAI、LangChain、LlamaIndex、DSPy、Anthropic、Amazon Bedrockなど、15以上のGenAIライブラリをサポートしています。これらのライブラリで構築されたLLMアプリケーションのトレースを開始するには、コードに1行追加するだけです。

17 展開されたトレースビュー

18 18 エコシステムの構築 MLﬂow Tracingは15以上の生成AIライブラリとインテグレーションします New faces in 2.20!

評価 MLﬂow Evaluation

MLflow Evaluation MLflowのLLM評価は、基盤モデル、プロンプト、および複合AIシステムを比較するための簡素化されたアプローチを提供し、評価プロセスを簡素化するように設計されています。 • 簡素化された評価 : MLflowのmlflow.evaluate() APIと組み込みのハーネスを活用して、GenAIモデルを簡単にテストできます。
• LLM-as-a-Judge: MLflowは柔軟な設定が可能なLLM-as-a-Judgeメトリクスを提供し、評価プロセスに複雑な評価基準を組み込んで一括評価を行うことができます。 • カスタマイズ可能なメトリクス : 提供されるメトリクスに加えて、MLflowはプラグインスタイルのカスタムスコアリングをサポートし、評価の柔軟性を高めます。 • 比較分析: 基盤モデル、プロバイダー、プロンプトを簡単に比較して、情報に基づいた意思決定を行うことができます。 • 深い洞察: 評価実行のためにトレースが自動的に生成され、評価結果に関する深い洞察を得て、品質問題を自信を持って修正できます。

クイックデモ

Databricksも絶賛採用中です！

MLflowはどのようにLLMOpsの課題を解決するのか

MLflowはどのようにLLMOpsの課題を解決するのか

Takaaki Yayoi

More Decks by Takaaki Yayoi

Other Decks in Technology

Featured

Transcript

MLﬂowはどのようにLLMOps の課題を解決するのか 2025/3/6 Taka Yayoi

©2025 Databricks Inc. — All rights reserved 自己紹介弥生隆明

©2025 Databricks Inc. — All rights reserved MLﬂow Meetup! 日本人メンテナーが

本日のアジェンダ • LLM/生成AIアプリ開発における課題 • MLﬂowがLLMOpsの課題を解決する方法 ◦ 実験トラッキング ◦ トレース ◦

LLM/生成AIアプリ開発における課題

LLM/生成AIアプリ開発における課題 1. エージェントシステムの複雑性 2. 急速な進化を遂げる業界 3. デバッグ 4. 品質保証 5.

MLﬂowがLLMOpsの課題を解決する方法

LLMOps文脈でのMLﬂowの提供機能構築構築テストデプロイ監視実験トラッキングトレースモデルパッケージ評価

実験トラッキング

14 トラッキングされた実験

トレース MLﬂow Tracing

17 展開されたトレースビュー

18 18 エコシステムの構築 MLﬂow Tracingは15以上の生成AIライブラリとインテグレーションします New faces in 2.20!

評価 MLﬂow Evaluation

クイックデモ

Databricksも絶賛採用中です！