Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DatabricksにおけるLLMOps - ML15min

DatabricksにおけるLLMOps - ML15min

こちらのイベントで使用したスライドです。

第82回 Machine Learning 15minutes! Broadcast - connpass https://machine-learning15minutes.connpass.com/event/297997/

Takaaki Yayoi

May 16, 2024
Tweet

More Decks by Takaaki Yayoi

Other Decks in Technology

Transcript

  1. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary 1 データブリックス・ジャパン Databricks アカウントSA部 部長 弥生 隆明 DatabricksにおけるLLMOps
  2. ©2023 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明

    (やよい たかあき) Databricks アカウントSA部 部長 ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki
  3. データブリックスのUnity Catalogで実現する 真のデータガバナンス 日時: 2023年11月17日(金) URL: https://events.databricks.com/20231027-unitycatalog-jp イベント概要 みなさまの組織では、ガバナンス、特にデータガバナンスは効いている状態 でしょうか?

    生成AI 以前もデータの活用は進んでいましたが、それと同時にデータガバ ナンスの重要性も注目されていました。 Databricksが提供する統合ガバナンスソリューションである Unity Catalog は、データやAI活用におけるガバナンスの課題のほとんどを解決します。 本セッションでは、 Unity Catalogがどのようにしてガバナンスの課題を解決 するのかをデモを交えてご説明し、 Unity Catalogを利用する際に留意すべ きベストプラクティスをご紹介します。
  4. ©2023 Databricks Inc. — All rights reserved 投資 $3B 市場価値は5兆円以上

    従業員数 5000+ (3年前は1500人) 収益(ARR) $1B+ (1,360億円) データレイクハウスの 発明者でパイオニア 導入企業数 10000+ レイクハウスカンパニー のクリエーターが 2013年に起業 知る人ぞ知るデカコーン Databricksは2022年も 攻勢を続ける | Coral Capital
  5. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary 1. LLMOpsとは? 2. DatabricksにおけるLLMOps 3. まとめ 5
  6. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary MLOpsとは MLOpsとは機械学習モデルライフサイクル全般を円滑にするために必要な体制・基盤・手法全般を意味します。 MLOps(Machine Learning Operations)とは、 データサイエンスチーム、運用チームなど、機械学習モデルの 構築・運用に関わるチームが協調し、円滑に機械学習モデルを 運用していくための体制・基盤を構築すること、 その概念全般を意味します。 LLMOps(Large Language Model Operations)とは、 データサイエンスチーム、運用チームなど、LLMの 構築・運用に関わるチームが協調し、円滑にLLMを 運用していくための体制・基盤を構築すること、 その概念全般を意味します。
  7. ©2023 Databricks Inc. — All rights reserved Confidential and Proprietary

    MLOps - LLMで何が変わる? 7 LLMの特性 MLOpsの示唆 様々な形態でLLMを利用可能: • 課金API経由での一般的なプロプライエタリ モデル、OSSモデル • すぐに利用できるオープンソースモデル • 特定のアプリケーションにファインチューンされたカス タムモデル • カスタムの事前トレーニング済みモデル 開発プロセス: • インクリメンタルな開発 • APIからスタートしカスタムモデルへ LLMは入力として自然言語のプロンプトを受け入れ : • 期待するレスポンスを得るためにプロンプトエンジニ アリングが可能 開発プロセス: • LLMに問い合わせを行うテストテンプレートの設計が 開発プロセスの重要な一部に アーティファクトのパッケージング : • パッケージングされるアーティファクトとプロダクションに おけるプロンプトはモデルというよりパイプラインに LLMにはサンプルやコンテキストを伴うプロンプトを 指定可能 サービングのインフラストラクチャ : • 適切なコンテキストの検索に使用されるベクトルデータベースのよ うな外部ツール
  8. ©2023 Databricks Inc. — All rights reserved Confidential and Proprietary

    MLOps - LLMで何が変わる? 8 LLMの特性 MLOpsの示唆 サードパーティの APIプロバイダー経由で プロプライエタリモデルや OSSモデルを利用可能 APIガバナンス: • APIプロバイダーをスイッチできる選択可能性や柔軟性を持つため に、APIガバナンスのための集中管理されたシステムを持つことが 重要に LLMは非常に大きなディープラーニングモデルであり、多く の場合、数Gバイトから数百Gバイトに サービングのインフラストラクチャ : • LLMのサービングには GPUが必要 • モデルを動的にロードする必要がある場合には、高速な ストレージが重要に LLMにおいては、多くの場合、単一の「適切な」回答が存在 しないため、従来の MLメトリクスを通じた評価が困難 人間のフィードバック : • LLMの評価、テストで必要になることが多い • 将来的なファインチューニングのためには、テスト、 モニタリングを含む MLOpsに直接組み込むことが重要に
  9. ©2023 Databricks Inc. — All rights reserved Confidential and Proprietary

    DevOps MLOps - LLMで何が変わる? 9 • これらの新たな要件に適合するために、多くの既存ツール、既存プロセスの修正は軽微です ◦ 開発、ステージング、プロダクションの分離は変わりません ◦ パイプラインやモデルをプロダクションに移行する際に、Gitのバージョン管理とUnity CatalogにおけるMLflow モデルレジストリは依然として主要なパイプラインとなります。 ◦ データ管理に対するレイクハウスアーキテクチャは、効率性のために依然として適切で重要です。 ◦ 既存のCI/CDインフラストラクチャには変更はありません。 ◦ モデルトレーニングのためのパイプライン、モデル推論のためのパイプラインなどを用いた、 モジュール化されたMLOpsの構造は同じです。 レイクハウスプラットフォーム 開発 ステージング プロダクション DataOps Unity Catalog ModelOps
  10. データエンジニアリング モデル開発 モデルデプロイメント ⓒ 2023 Databricks Inc. — All rights

    reserved AIの課題 AIライフサイクルでサイロ化された技術スタック データセット モデル アプリケーション データとモデルのガバナンス
  11. Data Engineering Model Development Model Deployment ⓒ 2023 Databricks Inc.

    — All rights reserved AIの課題 AIライフサイクルでサイロ化された技術スタック Datasets Models Applications Governance of data and models モデル開発に必要なクリーンで信頼できる データの取得が困難 インテグレーション欠如による開発の遅延 完全なAIライフサイクルを制御、管理、追跡できないこと によるリスクの増加
  12. Lakehouse AIはデータ中心アプローチです 事前学習モデルの 活用あるいは カスタムモデルの 構築 リアルタイムアプリに モデルを サービング・監視 ネイティブツールによ

    るデータと特徴量の 準備 データプラットフォーム — Delta Lake ガバナンス — Unity Catalog データセット モデル アプリケーショ ン
  13. Lakehouse AIはデータ中心アプローチです Use Existing Model or Build Your Own Model

    Serving and Monitoring Data Collection and Preparation DATA PLATFORM UNITY CATALOG Datasets Models Applications データプラットフォーム上に構築 高速なデプロイメント ビルトインのガバナンスとモニタリング
  14. 事前学習モデルの活用 あるいはカスタムモデルの 構築 リアルタイムアプリへのモデ ルの提供、監視 ネイティブツールによるデータ と特徴量の準備 データプラットフォーム — Delta

    Lake ガバナンス — Unity Catalog Vector Search Model Serving MLflow Lakehouse AI — キーとなる製品 MosaicML AutoML Lakehouse Monitoring Feature Engineering
  15. ©2023 Databricks Inc. — All rights reserved 簡素化され、スケーラブルでコスト効率 の高い大規模AIモデルの トレーニング

    ご自身のセキュアな環境で自分のデー タを用いて、自分の生成AIモデルをト レーニングあるいはファインチューニング モデルとデータプライバシーに 対する完全なコントロール MosaicML 大規模AIモデルのトレーニングを最大7倍高速、安価に 事前学習モデルの活用 カスタムモデルの構築
  16. トレーニングコストの制限 サービングのコスト 目標品質 サービングのレーテンシー Auto ML ご自身のデータを用いて 自身のモデルを構築 事前学習モデルの活用 カスタムモデルの構築

    Databricksによってキュレーションされた モデルを含む、お好きなモデルからスタート テキスト生成モデルの例 : MPT-7B-Instruct, MPT-30B-Instruct, Falcon-7B-Instruct etc. 十分な量のトレーニングデータセットの持込 例: 過去の顧客とのやり取りからの質問・回答のペア AutoML エンベディングのファインチューニングやモデル作成のための ローコードツール
  17. ©2023 Databricks Inc. — All rights reserved 月間1,100万ダウンロードのMLOpsの スタンダード モデルの実験、追跡、評価、管理

    権限管理やガバナンスを自動化 するためのAI Gatewayのような LLMOpsの新機能 MLflow エンドツーエンドのMLOpsとLLMOps 事前学習モデルの活用 カスタムモデルの構築
  18. Lakehouse AI — データ中心アプローチ 事前学習モデルの 活用あるいは カスタムモデルの 構築 リアルタイムアプリに モデルを

    サービング・監視 ネイティブツールによ るデータと特徴量の 準備 データプラットフォーム — Delta Lake ガバナンス — Unity Catalog データセット モデル アプリケーショ ン