Upgrade to Pro — share decks privately, control downloads, hide ads and more …

生成AIとレイクハウス・ガバナンス

Databricks Japan
July 23, 2024
140

 生成AIとレイクハウス・ガバナンス

生成AIとデータガバナンス

生成AI時代に突入し、企業や組織の競合優位性の中心は再び「データ」になりつつあります。企業のノウハウ、ナレッジを含蓄するデータを以下にガバナンスを担保した状態で高品質に確保し生成AIに投入できるかにかかっています。Databricksが提供するレイクハウスが生成AI活用にいかに調和するかを紐解いていきます。

Databricks Japan

July 23, 2024
Tweet

Transcript

  1. ©2022 Databricks Inc. — All rights reserved #ctoa_aigov 生成AIとレイクハウス     (ガバナンス)

    1 フィールドエンジニアリング・マネージャ 北村匡彦 Databricks
  2. ©2022 Databricks Inc. — All rights reserved #ctoa_aigov MLOps 、プロセスと自動化

    セットである。 MLOpsと 何か? 3 コード、データ、モデル 管理 MLシステム パフォーマンス、安定性、長期的な効率を改善する MLOps = DevOps + DataOps + ModelOps
  3. ©2022 Databricks Inc. — All rights reserved #ctoa_aigov プロプライエタリ LLMs

    オープンソース LLMs 所有権 ベンダーが管理・所有 フルオープン、独自 カスタマイ ズが可能 セキュリティ プライバシー ベンダー提供 サービングエンドポ イント(外部)にデータ転送 ユーザー環境内に閉じる カスタマイズ ベンダー サービス依存 フルカスタマイズ可能 透明性 コード、モデル 重み、トレーニン グデータ ベンダー管理 (ブラックボックス) ソースコード、モデル重み、ト レーニングデータ 100%オー プンで、入手可能。 アクセス形態 API経由でアクセス 3P SLAに依存 自前ホスティング or ベンダーホスティング コスト・品質 すべて ユースケースに「最適」なモデル ない GPT-J Examples: LLaMA Dolly 大規模言語モデル (LLM) Proprietary vs Open Source 4
  4. General モデルの推移 0 100 20 40 60 80 2019 2020

    2021 2022 2023 Open Source vs. Private Models, 5-Shot MMLU Performance Private Open Source Falcon 180 LlaMA 2 Flan-T5-XXL LlaMA DBRX LlaMA 3 GPT-2.1.5B GPT-3 PaLM 540B GPT 3.5 Claude 3 GPT-4 Flan-PaLM 2 PaLM 2 Claude 2 GPT-4o Now
  5. Results using a Compound AI system Fine-tuned OSS Model Vector

    Embeddings PaLM Commercial LLM Query Processor Dataset Retrieval Generate Arguments Generate Final Formula 85% 精度 6s 処理遅延
  6. ©2022 Databricks Inc. — All rights reserved #ctoa_aigov GenAI 行動を誘導するため

    特別なプロンプトとパイプラ イン 作成 LLMとカスタム・エンタープライ ズ・データ 組み合わせ 事前に訓練されたGenAIモデ ルを特定 データセットやドメイ ンに適応させる GenAIモデルをゼロからトレー ニングする コントロールとカスタマイズ 幅 広がるが、計算量と複雑さ 増す GenAI 旅 データを活用しながら、基本的なGenAIから高度なGenAIへ 反復的なパスを計画 する。 プロンプトエンジニアリ ング リトリーバル・オーグメン テッド・ジェネレーション (RAG) ファインチューニング 事前トレーニング
  7. ©2022 Databricks Inc. — All rights reserved #ctoa_aigov • これら

    互いに排他的な選択肢で な い。 • シンプルに始めて、ベースラインを作り、 反復する。 GenAI 旅 • 以下に基づいてテクニックを選択する: ◦ データ 量と質 ◦ コンピュート・リソース ◦ レイテンシー要件 ◦ 特定 ドメインまた アプリケーション データを活用して、基本的なGenAIから高度なGenAIへ 反復的なパスを計画する。 プロンプトエンジニアリ ング リトリーバル・オーグメン テッド・ジェネレーション (RAG) ファインチューニング 事前トレーニング
  8. ©2022 Databricks Inc. — All rights reserved #ctoa_aigov 利用パターン 定義

    主な用途 データ 要件 学習時間 メリット 考慮点 プロンプト エンジニアリン グ モデル 行動を導くた め 特別なプロンプト 作成 迅 なオンザフライ ・モデル・ガイダン ス 特にない 特にない 迅 、費用対効果、ト レーニング不要 ファインチューニングよ りもコントロール性が 劣る Retrieval augmented generation (RAG) ファインチュー ニング 事前トレーニン グ GenAI journey
  9. ©2022 Databricks Inc. — All rights reserved #ctoa_aigov 利用パターン 定義

    主な用途 データ 要件 学習時間 メリット 考慮点 プロンプト エンジニアリン グ モデル 行動を導くた め 特別なプロンプト 作成 迅 なオンザフライ ・モデル・ガイダン ス 特にない 特にない 迅 、費用対効果、ト レーニング不要 ファインチューニングよ りもコントロール性が 劣る Retrieval augmented generation (RAG) LLMと外部知識検索 組み合わせ ダイナミックなデー タセットと外部知識 外部 知識ベース また ベクトルデー タベース 中程度 (埋め込み計算な ど) コンテクストが動的に 更新され、精度が向 上 プロンプト 長さと推 論 計算量が増加 ファインチュー ニング 事前トレーニン グ GenAI journey
  10. ©2022 Databricks Inc. — All rights reserved #ctoa_aigov 利用パターン 定義

    主な用途 データ 要件 学習時間 メリット 考慮点 プロンプト エンジニアリン グ モデル 行動を導くた め 特別なプロンプト 作成 迅 なオンザフライ ・モデル・ガイダン ス 特にない 特にない 迅 、費用対効果、ト レーニング不要 ファインチューニングよ りもコントロール性が 劣る Retrieval augmented generation (RAG) LLMと外部知識検索 組み合わせ ダイナミックなデー タセットと外部知識 外部 知識ベース また ベクトルデー タベース 中程度 (埋め込み計算な ど) コンテクストが動的に 更新され、精度が向 上 プロンプト 長さと推 論 計算量が増加 ファインチュー ニング 事前に訓練されたモデ ルを特定 データセッ トやドメインに適応させ る ドメインまた タス ク 専門化 ドメイン特化、インス トラクション例 デー タセットが数1000程 度必要 中~長(データサイ ズによる) きめ細かなコントロー ル、高い専門性 ラベル付きデータが必 要、計算コスト 事前トレーニン グ GenAI journey
  11. ©2022 Databricks Inc. — All rights reserved #ctoa_aigov 利用パターン 定義

    主な用途 データ 要件 学習時間 メリット 考慮点 プロンプト エンジニアリン グ モデル 行動を導くた め 特別なプロンプト 作成 迅 なオンザフライ ・モデル・ガイダン ス 特にない 特にない 迅 、費用対効果、ト レーニング不要 ファインチューニングよ りもコントロール性が 劣る Retrieval augmented generation (RAG) LLMと外部知識検索 組み合わせ ダイナミックなデー タセットと外部知識 外部 知識ベース また ベクトルデー タベース 中程度 (埋め込み計算な ど) コンテクストが動的に 更新され、精度が向 上 プロンプト 長さと推 論 計算量が増加 ファインチュー ニング 事前に訓練されたモデ ルを特定 データセッ トやドメインに適応させ る ドメインまた タス ク 専門化 ドメイン特化、インス トラクション例 デー タセットが数1000程 度必要 中~長(データサイ ズによる) きめ細かなコントロー ル、高い専門性 ラベル付きデータが必 要、計算コスト 事前トレーニン グ GenAIモデルをゼロか らトレーニングする 独自 タスクまた ドメイン固有 コーパス 大規模データセット (数十億~数兆トー クン) 長い(数日から数 週間) 特定 ニーズに合わ せた最大限 コント ロール コスト莫大$$$$ GenAI journey
  12. データ ビルド 評価 デプロイ ガバナンス 簡素化されたAIシステムと RAG開発 企業データによるモデル チューニングとカスタマイズ スケーラブルなモデル、機

    能、エージェント 提供 カスタマイズ可能なガード レール 自動評価 人間による評価 LLMトレーニング た め データ準備 ストリーミングデータ データ、モデル、ツール ガバナンス データとモデル全体 モニタリング まとめると、何が必要になるのか => ガバナン ス Build Production Quality Compound AI System
  13. ©2022 Databricks Inc. — All rights reserved #ctoa_aigov MLワークフロー資産: 開発、ステージング、生産

    意味論 16 開発済み テスト済み 配備済み コード データ モデル 資産 必要だ: 実行環境 Dev Staging Production
  14. ©2022 Databricks Inc. — All rights reserved #ctoa_aigov Dev vs.

    staging vs. prod: 管理対象 アセット 17
  15. ©2023 Databricks Inc. — All rights reserved データレイクハウス すべて データに対するオープンで統合された基盤

    オープンデータレイク すべて 生データ (ログ、テキスト、音声、動画、画像) Databricksが レイクハウス アーキテクチャを発明 2020 統合セキュリティ、ガバナンス、カタログ 信頼性と共有 ため 統合データストレージ ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Databricks AI Delta Live Tables Workflows Databricks SQL Unity Catalog Delta Lake グローバル企業 74% がレイクハウスを導 入 現在 MIT Technology Review Insights, 2023
  16. ©2023 Databricks Inc. — All rights reserved Partner ecosystem Data

    + AI assets UniForm Universal standard Any asset Any client Any engine Any format Unity REST API Iceberg REST catalog API Delta Sharing UNITY CATALOG (OSS) AI / ML Functions ML Models Vector DBs Unity Catalog: The open universal catalog for Data and AI Microsoft Fabric Google Cloud MAJOR CLOUD PLATFORMS DATA + AI PLATFORMS COMPUTE ENGINES LlamaIndex UNIFIED GOVERNANCE Objects Volumes Image Audio PDF Tables Managed External Views Delta Iceberg Hudi Parquet CSV JSON
  17. ©2022 Databricks Inc. — All rights reserved #ctoa_aigov LLM Ops

    on レイクハウス 強み 独自AIツール + データプラットフォーム 複数AIツール + データプラットフォーム レイクハウス (Data + AI) 統一されたデータ・AIガバナンス ✕ Separate governance ✕ Some tools don’t have governance ✓ 検索と発見 一元化 Data & AI ~ Separate search interfaces ✕ Some tools don’t have search ✓ データとAI 統合ツールキット ✕ Separate data / AI tools ✕ Separate data / AI tools ✓ データ 単一コピー ✕ Copy of data in each platform ✕ Copy of data in each tool ✓ 統一された自動系統追跡 ~ Only within each platform ✕ Not provided ✓ パフォーマンスとスケーラビリティ ✓ ✓ ✓ コスト ~ Costly effort to integrate platform ✕ Stitch together 10s of tools ✓ AI=生成AI、LLM、機械学習
  18. ©2023 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム (データインテリジェンス =

    レイクハウス + GenAI) Databricks AI 生成AI • カスタムモデル • モデルサービング • RAG エンドツーエンドAI • MLOps (MLflow) • AutoML • モニタリング • ガバナンス あなた データ セマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべて 生データ (ログ、テキスト、音声、動画、画像 ) Databricks SQL テキストからSQL Workflows 過去 処理に基づく ジョブコスト 最適化 Delta Live Tables データ品質 自動化 Databricks AI カスタムLLM 作成チュー ニング、提供 Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウトを最適化
  19. ©2023 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム あなた データ

    セマンティクスを理解するために データインテリジェンスエンジ オープンデータレイク すべて 生データ (ログ、テキスト、音声、動画、画像 Workflo 過去 処理に ジョブコスト Delta Live Tables データ品質 自動化 Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウト Databricks AI カスタムLLM 作成チュー ニング、提供 オペレーション 財務 マーケティング カスタマー サービス どうすれ 組織 皆に データとAIを展開 できる か? “Project Genie” 自然言語で誰でもデータや AIを活用
  20. データ ビルド 評価 デプロイ ガバナンス 簡素化されたAIシステムと RAG開発 企業データによるモデル チューニングとカスタマイズ スケーラブルなモデル、機

    能、エージェント 提供 カスタマイズ可能なガード レール 自動評価 人間による評価 LLMトレーニング た め データ準備 ストリーミングデータ データ、モデル、ツール ガバナンス データとモデル全体 モニタリング (再掲)まとめると、何が必要になるのか => ガバナン ス Build Production Quality Compound AI System