Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI時代におけるMLOpsのTips

Shu Kobuchi
February 22, 2025

 AI時代におけるMLOpsのTips

https://event.ospn.jp/osc2025-spring/session/2017030
AI時代におけるMLOpsのTips 〜 MLOpsを加速させるOSS 〜
オープンソースカンファレンス2025 Tokyo/Spring
ライトニングトークにてKubeflowの紹介などMLOpsの話をさせていただきました。

Shu Kobuchi

February 22, 2025
Tweet

More Decks by Shu Kobuchi

Other Decks in Technology

Transcript

  1. 自己紹介 • 小渕 周(Shu Kobuchi)こぶシュー • https://x.com/shu_kob @shu_kob • システムエンジニア

    → ブロックチェーン業界 • 2023年12月から生成 AI アプリケーション開発等 2 今日の昼飯
  2. • モデル(LLM)自体の運用は不要 • LLMバージョンアップへの追従が必要 生成AI LLMOpsとMLOpsの違い • 生成AIブームにより機械学習も活用機会増加 3 生成AI

    LLMOps • モデル自体の開発・運用が必要 ◦ GPUを使うなど膨大な計算量 • 他、LLMOpsに比べてやること多し MLOps • ファインチューニングが可能 • データの整形が必要 共通部分 生成AIでもオープンモデルは MLOpsに近い
  3. 機械学習モデル開発と運用の乖離 • モデル開発に特化、運用フェーズの考慮不足 • データ/環境変化への対応の遅れ・困難さ • 性能監視・評価指標の不備/欠如 • 運用エンジニアとの連携不足/知識共有不足 •

    技術的負債の蓄積、場当たり的対応の常態化 • SRE原則を活用して、MLモデルのライフサイクル全体を見据えた設 計・運用体制の構築が必要 4
  4. MLOpsにおけるデータマネジメント • データ品質がモデルの成否を左右 • 機械学習はデータ処理パイプラインが不可欠 • データの段階的処理 ◦ 作成、取り込み、前処理、保管、管理 ◦

    ETL(抽出、変換、読み込み)によるデータ整形 ◦ マスキングなどのデータ加工で適切なデータへ • データへの責任 ◦ 出所、解釈方法、品質、更新、適切な整形利用 • データ段階 ◦ 収集と分析、ML訓練パイプライン、構築と検証、評価、測定 • 責任範囲 ◦ 作成(どこから来たか)とデータ系統(誰が責任を負うか) • MLはデータにはじまり、データに終わる 5
  5. 可用性・信頼性確保の工夫 • 計算量増大への対応 ◦ GPUなど専用ハードウェアの活用 ◦ Kubernetes等のコンテナオーケストレーション技術の導入 • 大規模分散処理への対応 •

    計算資源の効率的な利用 • 障害発生時の迅速な復旧 • MLOpsの自動化 ◦ 継続的インテグレーション・デリバリー(CI/CD) ◦ 障害管理体制の確立・ポストモーテム ◦ モニタリングと警告 ◦ フォールバック(縮退運用)計画 6
  6. Kubeflow • https://github.com/kubeflow/kubeflow • MLOps を加速させる Kubernetes ネイティブな ML プラット

    フォーム • MLflow(次頁)もKubeflow上で稼働可能 • Kubernetes ネイティブ: Kubernetes の機能を最大限に活用し、ス ケーラビリティ、可搬性、柔軟性を実現 • ML ワークフローのオーケストレーション: データ前処理、モデル学 習、モデル評価、デプロイなどの ML ワークフローをパイプライン として定義し、実行・管理 • 多様な ML ツールとの統合: TensorFlow、PyTorch、scikit-learn など、様々な ML フレームワークやツールを Kubeflow 上で利用可 能 10
  7. MLflow • https://github.com/mlflow/mlflow • 機械学習ライフサイクル全体を管理するためのオープンソースプ ラットフォーム • 実験のトラッキング、モデルのパッケージング、デプロイ、モデル レジストリなどの機能を提供し、MLOps を効率化

    • 包括的な ML ライフサイクル管理: 実験管理、モデルパッケージン グ、モデルデプロイ、モデルレジストリなど、ML ライフサイクル全 体をカバー • 多様な ML フレームワークに対応: scikit-learn、TensorFlow、 PyTorch、Spark MLlib など、様々な ML フレームワークをサポー ト • 柔軟なデプロイ: ローカル環境、クラウド環境、コンテナ環境など、 様々な環境へのモデルデプロイに対応 11
  8. 参考書籍 • Cathy Chen、Niall Richard Murphy、Kranti Parisa、D. Sculley、Todd Underwood 著、井伊 篤彦、張

    凡、樋口 千洋 訳 「信頼性の高い機械学習 - SRE原則を活用したMLOps」2024年10 月 オライリー・ジャパン 13