Upgrade to Pro — share decks privately, control downloads, hide ads and more …

MLflowはどのようにLLMOpsの課題を解決するのか

 MLflowはどのようにLLMOpsの課題を解決するのか

#さくらのAI Meetup vol.8「MLOpsを学ぼう」 - connpass https://sakura-tokyo.connpass.com/event/345101/

こちらのイベントで発表したスライドです。

Takaaki Yayoi

March 06, 2025
Tweet

More Decks by Takaaki Yayoi

Other Decks in Technology

Transcript

  1. ©2025 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明

    (やよい たかあき) シニア スペシャリスト ソリューションアーキテクト ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサル、総合電機メーカー にてデータ分析・Webサービス構築 などに従事。インド赴任経験あり。 ▪ Databricks Certified (Data Engineer | Machine Learning) Professional, Generative AI Engineer Associate ▪ Qiitaでいろいろ書いています。 2 @taka_aki
  2. ©2025 Databricks Inc. — All rights reserved MLflow Meetup! 日本人メンテナーが

    語るMLflowの現在と未来 3 3/18(火) 18:00 WeWork 東京スクエアガーデン MLflowメンテナー陣を囲んで、参加者の皆様と自由に対 話やディスカッションができる時間です。 MLflowに関する 質問や、MLOps全般についての相談など、気軽に話せる 場としてご活用ください。
  3. デバッグ / 品質保証 / 本格稼働 • デバッグの課題:LLMベースのアプリのデバッグは、システムの複雑さと高い抽象化レベ ルのため困難です。LLMとそのコンポーネントの動作を理解するには、適切なツールと技 術が必要です。 •

    品質保証の課題:LLMの品質確保は、モデルの複雑さと動的なタスクのため困難です。信 頼性とパフォーマンスのためには、堅牢な QAプロセスが必要です。 • 本格稼働の課題:LLMアプリの動的化に伴い、デプロイ後のパフォーマンス監視が重要で す。機械学習の監視には、モデルの動作とパフォーマンスをリアルタイムで追跡する専門 ツールが必要です。
  4. 実験(Experiment)トラッキング 実験トラッキングはMLflowプラットフォームの基本的な機能であり、モデル、プロンプト、トレース、 メトリクスなど、LLM/GenAIプロジェクト中の多くのアセットやアーティファクトを一箇所に整理することができます。 • 単一の情報源 : MLflowは、モデル、プロンプト、トレースなど、すべてのLLMアセットを保存および管理する ための集中管理された場所として機能し、プロジェクトの単一の情報源を確保します。 • より良いコラボレーション

    : 実験トラッキングにより、チームメンバーと作業を共有でき、結果を再現しフィードバックを提供 することができます。 • リネージ追跡 : MLflowは、プロジェクトのさまざまな段階を通じてLLMアセットのリネージをキャプチャし、 モデル、プロンプト、その他のアーティファクトのリネージを追跡できるようにします。 • 比較分析: MLflowは、異なるバージョンのLLMモデル、プロンプト、その他のアセットを比較することを可能にし、情報に基 づいた意思決定を行い、LLMアプリケーションの品質を向上させるのに役立ちます。 • ガバナンスとコンプライアンス : 組織内の機械学習アセットの中央リポジトリを使用することで、MLflowは ガバナンスとコンプライアンス基準を維持し、重要なアセットが認可されたユーザーのみがアクセスできるようにします。
  5. MLflow Tracing MLflow Tracingは、LLM呼び出しやドキュメント取得、データクエリ、ツール呼び出しなどの重要な詳細を キャプチャすることで、生成AIアプリケーションにおけるLLMの可観測性を確保し、アプリケーションの内部動作を監視し深い洞 察を得ることができます。 • デバッグ: トレースは抽象レイヤーの下で何が起こっているかの詳細なビューを提供し、LLMアプリ ケーションの問題を迅速に特定して解決するのに役立ちます。

    • 品質の検査 : MLflow Evaluationでモデルやエージェントを評価した後、自動生成されたトレースを分析してLLMの動作 を理解し、情報に基づいた意思決定を行うことができます。 • 本番監視: トレースは本番環境でのLLMのパフォーマンスを監視するために不可欠です。MLflowトレーシングは、本番 環境でのボトルネックやパフォーマンスの問題を特定し、是正措置を講じてアプリケーションを 継続的に最適化することを可能にします。 • OpenTelemetry: MLflowトレースは、業界標準の可観測性フレームワークであるOpenTelemetryと互換性が あり、Prometheus、Grafana、Jaegerなどの人気のある可観測性ツールと統合して高度な監視と分析を行う ことができます。 • フレームワークサポート : MLflowトレーシングは、OpenAI、LangChain、LlamaIndex、DSPy、Anthropic、Amazon Bedrockなど、15以上のGenAIライブラリをサポートしています。これらのライブラリで構築されたLLMアプリケーション のトレースを開始するには、コードに1行追加するだけです。
  6. MLflow Evaluation MLflowのLLM評価は、基盤モデル、プロンプト、および複合AIシステムを比較するための簡素化されたアプローチを提供し、 評価プロセスを簡素化するように設計されています。 • 簡素化された評価 : MLflowのmlflow.evaluate() APIと組み込みのハーネスを活用して、GenAIモデルを簡単に テストできます。

    • LLM-as-a-Judge: MLflowは柔軟な設定が可能なLLM-as-a-Judgeメトリクスを提供し、評価プロセスに複雑な評価基 準を組み込んで一括評価を行うことができます。 • カスタマイズ可能なメトリクス : 提供されるメトリクスに加えて、MLflowはプラグインスタイルのカスタム スコアリングをサポートし、評価の柔軟性を高めます。 • 比較分析: 基盤モデル、プロバイダー、プロンプトを簡単に比較して、情報に基づいた意思決定を行うことができます。 • 深い洞察: 評価実行のためにトレースが自動的に生成され、評価結果に関する深い洞察を得て、品質問題を 自信を持って修正できます。