Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Databricksによるデータサイエンスと機械学習 / Data Science With ...

Databricksによるデータサイエンスと機械学習 / Data Science With Databricks

データサイエンス, 機械学習ライフサイクルに必要な機能を網羅的にご紹介します。

Databricks Japan

January 29, 2025
Tweet

More Decks by Databricks Japan

Other Decks in Technology

Transcript

  1. ©2024 Databricks Inc. — All rights reserved あなたのすべてのデータに対する オープンで統合された基盤 データレイクハウス

    データとAIを容易にスケール、活用 生成AI 組織全体におけるデータ+AIの民主化 データインテリジェンス プラットフォーム
  2. ©2024 Databricks Inc. — All rights reserved すべての生データ (ログ、テキスト、音声、動画、画像 )

    ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL セキュリティ、ガバナンス、カタログの統合 Unity Catalog 信頼性と共有のための統合データストレージ Delta Lake Databricksデータインテリジェンスプラットフォーム オープンデータレイク
  3. ©2024 Databricks Inc. — All rights reserved ETL & リアルタイム分析

    オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL セキュリティ、ガバナンス、カタログの統合 Unity Catalog Databricksデータインテリジェンスプラットフォーム 信頼性と共有のための統合データストレージ Delta Lake データのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 )
  4. ©2024 Databricks Inc. — All rights reserved ETL & Real-time

    Analytics Orchestration Data Warehousing Data Science & AI Mosaic AI Delta Live Tables Workflows Databricks SQL Unified security, governance, and cataloging Unity Catalog Databricksデータインテリジェンスプラットフォーム Unified data storage for reliability and sharing Delta Lake データのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 ) Unity Catalog 自然言語でセキュアに洞察を獲得 Delta Lake 利用パターンに基づきデータレイアウトを自動で最適化 Databricks SQL Text-to-SQL Workflows 過去の実行に基づく ジョブコストの最適化 Delta Live Tables 自動化されたデータ品質 Mosaic AI カスタムLLMの作成、チュー ン、サービング
  5. ©2024 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム データ中心の AI

    生成AI • カスタムモデル • モデルサービング • RAG エンドツーエンドAI • MLOps (MLflow) • AutoML • モニタリング • ガバナンス データのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 ) Databricks SQL Text-to-SQL Workflows 過去の実行に基づく ジョブコストの最適化 Delta Live Tables 自動化されたデータ品質 Mosaic AI カスタムLLMの作成チュー ン、サービング Unity Catalog 自然言語でセキュアに洞察を獲得 Delta Lake 利用パターンに基づきデータレイアウトを自動で最適化
  6. ©2024 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム データのセマンティクスを理解するために生成 データインテリジェンスエンジ

    オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 Workflo 過去の実行に ジョブコストの Delta Live Tables 自動化されたデータ品質 Unity Catalog 自然言語でセキュアに洞察を獲得 Delta Lake 利用パターンに基づきデータレイアウトを自動 Mosaic AI カスタムLLMの作成チュー ン、サービング オペレーション 財務 マーケティング カスタマーサービス どのようにして 組織の全員に データとAIを展開 できるのか? “Project Genie” 自然言語で誰でもデータ&AI
  7. ©2024 Databricks Inc. — All rights reserved AI ML DL

    LLM …. ? 人工知能 (AI) 人間の知能を模倣できるシステムの構築を狙いとしたコンピュータサイエンスの学祭的領域 機械学習 (ML) 明示的にプログラムすることなしに既存データから学習して予測 Deep Learning (DL) データから学習するために人工ニューラルネットワークを活用 生成AI 新たなコンテンツ(画像、テキスト、音声、コード...)の生成にフォーカスしたAIのサブ領域 LLM 高度な言語処理能力を達成するために膨大なデータセットでトレーニングされたモデル 基盤モデル (GPT-4, BART, MPT-7B, …) 特定の言語の理解、生成タスクにファインチューンされたLLM
  8. ©2024 Databricks Inc. — All rights reserved 従来型、プロプライエタリ、オープンソース生成AI + LLMをサポート

    あなたのユースケースにベストなモデルを選択 Databricksの生成AI不可知論的アプローチ ディープ ラーニング モデル 従来のML アルゴリズム プロプライ エタリLLM オープン ソース AI + LLM チェーン & エージェント Dolly MPT Stable Diffusion
  9. ©2024 Databricks Inc. — All rights reserved Mosaic AIはデータ中心のアプローチです 事前学習モデルの

    活用、カスタム モデルの構築 リアルタイムアプリへ のモデルの サービング、監視 ネイティブツールで データと特徴量を準 備 データプラットフォーム — Delta Lake ガバナンス — Unity Catalog データ セット モデル アプリ ケーション
  10. ©2024 Databricks Inc. — All rights reserved Mosaic AIはデータ中心のアプローチです 事前学習モデルの

    活用、カスタム モデルの構築 リアルタイムアプリへ のモデルの サービング、監視 ネイティブツールで データと特徴量を準 備 データプラットフォーム — Delta Lake ガバナンス — Unity Catalog データ セット モデル アプリ ケーション データプラットフォーム上に構築 高速なデプロイメント ビルトインのガバナンスとモニタリング
  11. ©2024 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集

    EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  12. ©2024 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集

    EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング データ エンジニア リング モデル開発 モデル トラッキング モデル レジストリ モデル デプロイ メント
  13. ©2024 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集

    EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント レイクハウス モニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング データ エンジニア リング モデル開発 モデル トラッキング モデル レジストリ モデル デプロイ メント データエンジニアリング モデル開発 Databricks ML ランタイム モデルトラッキング モデルデプロイメント Databricks モデルサービング モデルレジストリ Unity Catalog
  14. ©2024 Databricks Inc. — All rights reserved Mosaic AI レイクハウスと完全にインテグレーション

    Mosaic AIの機能 (AI) レイクハウスの機能 (データ + AI) MLOps + LLMOps MLflow アセットバンドル (DAB) CI/CDサポート データとベクトルの準備 ネイティブツールでデータと特徴量を準備 SQL ワークフロー Delta Live Tables ノートブック アプリケーションの提供 リアルタイムアプリへのモデルのサービングおよび監視 モデル サービング AI Functions Models from SQL Lakehouse Apps レイクハウス モニタリング モデルの構築と評価 カスタムモデルのトレーニング、ファインチューン 事前学習モデルのプロンプトエンジニアリング ノートブック w/ MLランタイム AutoML ファインチューン マーケット プレースのモデル MPT LLaMA2 AI Playground MLflow Track & Evaluate データとベクトルのサービング Feature Serving Vector Search Function Serving ガバナンス モデルレジストリ in Unity Catalog Unity Catalog Feature Store in Unity Catalog データプラットフォーム Deltaテーブル 構造化データ ファイル (ボリューム) 非構造化データ
  15. ©2024 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集

    EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  16. ©2024 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集

    EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  17. ©2024 Databricks Inc. — All rights reserved クラウドネイティブの連携機能 コメント 同時参照

    同時編集 マルチ言語: Scala, SQL, Python, R MLflow連携による実験トラッキング Databricksノートブック
  18. ©2024 Databricks Inc. — All rights reserved バージョン レビュー テスト

    開発 / 実験 本番運用ジョブ Git / CI/CD システム CI/CD連携 ▲ ▼ サポートする Gitプロバイダー (Gitベースの) Repos
  19. ©2024 Databricks Inc. — All rights reserved • 自然言語でコードを生成、 説明、修正

    • すべてのユーザー体験にAI アシスタントを • 高度に適切な回答のために DatabricksIQを活用 Databricksアシスタント コンテキストを解するAIアシスタントで生産性をブースト 22 🚀 10万以上のユーザーを毎月支援! 🚀
  20. ©2024 Databricks Inc. — All rights reserved コンテキストを解するAIアシスタントの例 23 AIは質問された

    ビジネスの質問 に適した正しい SQLの作成方法 を知っている AIは適切な データがどこにあ るのかを知って おり、私が アクセスできる テーブルのみを 表示
  21. ©2024 Databricks Inc. — All rights reserved 自然言語でコードを生成、説明、修正 • 自然言語のリクエストを受け付け、コー

    ドスニペットを作成 • 精度を改善するために、コードの セル、ライブラリ、ランタイムなどからの 詳細情報を適用 • セル内で問題を説明、診断、修正 24
  22. ©2024 Databricks Inc. — All rights reserved すべてのユーザー体験にAIアシスタントを 25 ダッシュボードでの

    Databricks アシスタント SQLエディタの Databricksア シスタント すべてのユーザー の生産性をブースト データサイエンティスト | データエンジニア | SQLアナリスト | ビジネスユーザー ヘルプでのDatabricks アシスタント ノートブックの Databricks ア シスタント
  23. ©2024 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集

    EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  24. ©2024 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集

    EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  25. ©2024 Databricks Inc. — All rights reserved Unity Catalogでの特徴量エンジニアリング (new)

    主キーを持つすべてのテーブルを特徴量として利用できます • 主キーが設定されているすべての UCテーブルで特徴量を サービングすることができます • すべてのML資産の統合ビュー ◦ 特徴量、モデル、関数、エンド ポイントをカタログでグルーピングできま す 利用可能 ALTER TABLE <full_table_name> ADD CONSTRAINT <pk_name> PRIMARY KEY(pk_col1)
  26. ©2024 Databricks Inc. — All rights reserved Unity Catalogでの特徴量エンジニアリング すべてのデータ資産に対する単一の権限モデル

    • Unity Catalogの権限モデルに よって特徴量データとメタデータが管 理されます。 • Unity Catalogにおけるデータ ガバナンスの更なる改善点が特徴量 データに適用されます。 利用可能
  27. ©2024 Databricks Inc. — All rights reserved Feature Serving 30

    Public Preview (AWS, Azure) 特徴量に対する外部アクセス、Feature Storeで ホストされている特徴量関数に対する一貫性の あるAPI: RESTエンドポイント、python (後ほど) UCにおける特徴量サービング Databricks Online Table/ DynamoDB/CosmosDB
  28. ©2024 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集

    EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  29. ©2024 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集

    EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  30. ©2024 Databricks Inc. — All rights reserved Databricks AutoML コントロールを奪うことなしにデータチームを支援するガラスボックスソリューション

    AutoMLを スタートするための UIとAPI データ探索ノートブック 特徴量のサマリー統計情報と分布を 示すノートブックを生成 再現可能なトライアルノート ブック すべてのモデルのソースコードを含む ノートブックを生成 MLflowエクスペリメント モデルとメトリクスを追跡するために 自動生成されるMLflowエクス ペリメント モデルレジストリ へのデプロイが容易 データ品質、前処理の 理解、デバッグ AutoMLのモデルに 専門知識を埋め込み 精度を改善
  31. ©2024 Databricks Inc. — All rights reserved Notebook source databricks.automl.classify(df,

    target_col='label', timeout_minutes=60) APIによる”ガラスボックス”のAutoML
  32. ©2024 Databricks Inc. — All rights reserved 問題のタイプ モデル /

    チューン 分類 回帰 特徴量 時系列予測 数値 カテゴリ変数 テキスト タイムスタンプ ARIMA UIでの特徴量選択 設定可能なnull値の 補完 設定可能な モデル選択 new new new new 分散トレーニングのサ ポート UIでの特徴量選択 new new new new new roadmap AutoMLのリリースとロードマップ 問題、モデル、特徴量タイプ、カスタマイズのサポートの拡張
  33. ©2024 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集

    EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  34. ©2024 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集

    EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  35. ©2024 Databricks Inc. — All rights reserved Models デプロイメント オプションを標準化

    する汎用モデル フォーマット Projects 任意の計算プラットフォー ムで再現可能なフォーマッ トに パッケージ Tracking エクスペリメントの 記録とクエリー: コード、メトリクス パラメーター アーティファクト モデル のコンポーネント
  36. ©2024 Databricks Inc. — All rights reserved Tracking ノートブック ローカル

    アプリ クラウド ジョブ UI API Tracking Server パラメータ メトリクス アーティファ クト モデル メタデータ Spark データソース
  37. ©2024 Databricks Inc. — All rights reserved 42 トラッキングにおけるキーコンセプト エクスペリメント

    : 実験における トップレベルの追跡オブジェクト ラン: エクスペリメントにおける トライアルの一つ パラメータ : コードに対するキー バリューの入力 メトリクス : 数値(時間と共に更新) アーティファクト : モデルを含む任意のファ イル ソース: どのコードを実行した?
  38. ©2024 Databricks Inc. — All rights reserved 1行のコードでML開発を追 跡: パラメータ、

    メトリクス、データ リネージ、モデル、環境 MLflowトラッキングと自動ロギング mlflow.autolog() UIやプログラムから結果を解析 • チューニングパラメータXはメトリックにどのような影響が? • ベストモデルはどれ? • 十分長い期間トレーニングを実行した? • どのバージョンのDeltaテーブルを使った? データバージョンを 含むパラメータ、タグ モデル、環境、アーティファクト メトリクス 再現性を確保
  39. ©2024 Databricks Inc. — All rights reserved 44 再現性のための自動ロギング クラスターの仕様や環境の依存関係を自動ロギング

    ランの再現機能 : ✓ ✓ ✓ ✓ コードのバージョン データのバージョン クラスターの設定 環境の仕様 再現性チェックリスト :
  40. ©2024 Databricks Inc. — All rights reserved 様々なツールで利用 できるシンプルな モデルフレーバー

    コンテナ バッチ & ストリーム スコアリング クラウド推論サービス インラインコード モデル モデルフォーマット Flavor 2 Flavor 1 カスタムモデル
  41. ©2024 Databricks Inc. — All rights reserved MLflowモデルの例 my_model/ ├──

    MLmodel │ │ │ │ │ └── estimator/ ├── saved_model.pb └── variables/ ... run_id: 769915006efd4c4bbd662461 time_created: 2018-06-28T12:34 flavors: tensorflow: saved_model_dir: estimator signature_def_key: predict python_function: loader_module: mlflow.tensorflow TensorFlowモデルフォーマットを 理解するツールで利用可能 Pythonを実行できるすべての ツール (Docker, Spark, etc!)で利 用可能
  42. ©2024 Databricks Inc. — All rights reserved 可視化の改善 • ランの詳細の再設計

    • メトリックの集計 • チャートのグルーピング • DLチャートの改善 ロギングの改善 • システムメトリクス • 非同期 + バッチロギング • 1Mステップ/イテレーションのサポート • 更なるautologgingのサポート 使いやすさの改善 • 新たなチュートリアルとドキュメント • シームレスなログイン • 検索の改善 ディープラーニングでのMLflow モデルトレーニングのためのMLflowの拡張UI
  43. ©2024 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集

    EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  44. ©2024 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集

    EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  45. ©2024 Databricks Inc. — All rights reserved Databricksプロジェクトのアー ティファクト、 リソース、設定を指定する

    YAMLファイル bundle.ymlファイルを用いて Databricksアセットバンドルを 検証、デプロイ、実行 する機能 を持つ新たなDatabricks CLI バンドルは開発やCI/CD プロセスで有用です Databricksアセット バンドルとは? バンドルはどこで使う? バンドルはどこで使う? 54 Databricksアセットバンドル 一度コードを書いたら どこでもデプロイ
  46. ©2024 Databricks Inc. — All rights reserved 詳細 リソース設定 •

    ジョブ、DLTパイプライン、MLflow、 etc. • REST APIのスキーマに準拠 環境ベースの仕様 • 異なる環境でのプロジェクトの挙 動を制御 55 名前とデフォルトのワーク スペース
  47. ©2024 Databricks Inc. — All rights reserved どこでバンドルを使うのか? $ databricks

    bundle deploy -t “development” $ databricks bundle run pipeline –refresh-all -t “development” ★ あなたのプロジェクトをデプロイ、実行。設定を調整し 変更をテスト。 ★ 違いをテストするために複数のワークスペースにデプロイ。 ★ IDE、ターミナル、Databricksからデプロイ、実行。 Alice アクティブな開発の一部として 56
  48. ©2024 Databricks Inc. — All rights reserved どこでバンドルを使うのか? As part

    of CI/CD processes ★ CI/CDサーバーで実行 (例: GitHub Actions) ★ CIやリリースパイプラインによって 起動 ★ サービスプリンシパルとして実行 することが理想 commit pull request deploy as test merge release deploy to prod check out ➜ databricks bundle deploy -t “staging” ➜ databricks bundle run pipeline –refresh-all -t “staging” ➜ databricks bundle deploy -t “production” ➜ databricks bundle run pipeline –refresh-all -t “production” 57 🔗 Github Actionsのサンプル: https://docs.databricks.com/en/dev-tools/bundles/ci-cd.html
  49. ©2024 Databricks Inc. — All rights reserved DABs: 一度コードを書いたらどこでもデプロイ •

    CI/CDとプロジェクト管理のベストプラクティスを民主化 • コードとリソース、設定の共同バージョン管理 • 自動化との高い親和性 (CLI vs. 1000個のRESTコール) • 自信を持ってコラボレーション、デプロイ (分離、自動テスト、etc) • あなたのプロジェクトを定義、デプロイするための統合された単一の方法 サマリー 58
  50. ©2024 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集

    EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  51. ©2024 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集

    EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  52. ©2024 Databricks Inc. — All rights reserved UCで新規モデルバージョンを作成 # sklearnモデルのトレーニング

    clf = RandomForestClassifier(max_depth=7) clf.fit(X, y) # モデルを記録してUCの新規バージョンとして登録 mlflow.sklearn.log_model( sk_model=clf, artifact_path="model", input_example=X.iloc[[0]], registered_model_name="prod.ml.iris_model") • モデルバージョンを作成する際には、input_example を提供するか、明示的にモデル のシグネチャを指定します シグネチャへの入力サンプルを追加
  53. ©2024 Databricks Inc. — All rights reserved Unity Catalogにおけるモデルのエイリアスとバー ジョン

    • モデルのエイリアス はモデルバージョンに対する変更可能なリファレンスです。Champion or Challengerと言ったものになります。 • モデルのバージョン はモデル名に対して増加していくリファレンスとなります。1,2,3,...と 言ったものになります。 • モデルはMLflowのAPI(やUI)を用いて設定することができ、モデルが新規の場合 バージョン1が作成され、それ以外の場合にはバージョンが増加します。 ◦ mlflow.register_model(model_uri, name="prod.ml.iris_model") • MLflowクライアント(やUI)を通じてモデルが登録されると、モデルのエイリアスが使えるよう になります。モデルのエイリアスは特定のモデルバージョンに紐づけられます。 ◦ client.set_registered_model_alias(name="prod.ml.iris_model", alias="Champion", version=1)
  54. ©2024 Databricks Inc. — All rights reserved Unity Catalogにおけるモデルのエイリアスと バージョン

    • mlflow.register_model() を用いて登録されたモデルは、そのモデル名に対する追加のランに よって以降のバージョンが増加します。
  55. ©2024 Databricks Inc. — All rights reserved Unity Catalogにおけるモデルのエイリアスと バージョン

    • MLflowクライアントのclient.set_registered_model_alias() を用いることでモデルの エイリアスが定義されます。
  56. ©2024 Databricks Inc. — All rights reserved Unity Catalogにおけるモデルのデプロイ バッチ推論

    • モデルが登録されるとモデルのURIを通じて参照できるようになります ◦ エイリアス経由: "models:/prod.ml.iris_model@Champion" ◦ バージョン経由: "models:/prod.ml.iris_model/1" • 以下の例ではpyfuncモデルが呼び出され、データ test_x のスコア リングに用いられます。 ◦ champion_model = mlflow.pyfunc.load_model( "models:/prod.ml.iris_model@Champion") champion_model.predict(test_x)
  57. ©2024 Databricks Inc. — All rights reserved Unity Catalogにおけるモデルのデプロイ •

    モデルがUnity Catalogに登録され ると、1クリックでエンドポイントとして デプロイできます。 • また、プログラムからサービングエン ドポイントを作成することができま す。 モデルサービング
  58. ©2024 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集

    EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  59. ©2024 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集

    EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  60. ©2024 Databricks Inc. — All rights reserved 69 モデルサービング •

    モデルサービングはリアルタイムのMLモデルデ プロイメントをシンプルにするために、 プロダクションレディ、サーバレスの ソリューションを提供します。 • アプリケーションやウェブサイトとモデルの予測 結果を連携するためにAPIとしてモデルをデプロ イします。 • モデルサービングは: ◦ 運用コストを削減します。 ◦ MLライフサイクルを円滑にします。 ◦ データサイエンスチームは プロダクションレベルのリアルタイムMLを自 身のソリューションに組み込むと いうコアタスクにフォーカスできるようになり ます。 リアルタイムのMLモデルデプロイメント
  61. ©2024 Databricks Inc. — All rights reserved 70 モデルサービング MLOpsのメリット

    デプロイメントを自動化し、エ ラーを削減する 特徴量/ベクトル検索 モニタリング 統合ガバナンス レイクハウスネイティブ CPUやGPUに任意のモデルを デプロイ。自動化された コンテナ構築とインフラ管理がメ ンテナンスコストを削減し、デプ ロイメントを加速 デプロイメントを シンプルに 非常に低いレイテンシー (オーバーヘッドのレイテンシー のp50 < 10ms)と高い クエリーボリューム (QPS >25k) 持つ高可用性、 スケーラブルなサービング サーバレス
  62. ©2024 Databricks Inc. — All rights reserved 71 モデルサービング サービングエンドポイントに複数のモデルを

    サービングする能力を通じてA/Bテストやカナリ アデプロイメントのような オンライン評価戦略をサポート オンライン評価
  63. ©2024 Databricks Inc. — All rights reserved Databricksモデルサービング サービングすべきすべてのモデルに対する統合管理 モデルサービング

    カスタムモデル 基盤モデル 外部モデル サーバレスコンピュートによるREST API として任意のモデルをデプロイ、 MLflowによる管理。 CPUとGPUをサポート。Feature Store やVector Searchと連携。 外部モデルとAPIを管理。 MLflow AI Gatewayと従来の Databricksモデルサービングの監視と ペイロード記録のガバナンスを 提供。 Databricksがトップの基盤モデルを 選定し、シンプルなAPIとして提供。 自分でサービングを設定することなしに 即座に実験をスタート。 Available now Available now Available now
  64. ©2024 Databricks Inc. — All rights reserved マーケットプレイスのAIモデル 要件に適したモデル :

    汎用あるいは特定タスク両 方向けのオープンソース、プロプライエタリなモデ ルへのアクセス。 シンプルなアクセス : 提供されるサンプル コードを用いてモデルサービングに デプロイ、あるいはカスタム用途のために ダウンロード。 インテグレーション : Unity Catalogで マーケットプレイスのモデルを管理し、 バッチ・リアルタイム推論からファインチューニング に至るMosaic AIの他の機能で 活用。 OSSモデルのガイド: 研究チームによる知見が こちらで公開されています。 オープンなマーケットプレイスでのAIモデルの配布とアクセス
  65. ©2024 Databricks Inc. — All rights reserved AI関数 モデルは単にファンシーな関数です! リアルタイムアプリにモデ

    ルをサービングし監視 SQLクエリーにおける関数としてモデルを 利用可能 AI関数 + 関数サービング = あるモデルを他のモデルに対する機能として 活用することができ、主要なモデルがサービ ングされる際に自動で サービング/リアルタイムのスコアリングを行 うことができます。
  66. ©2024 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集

    EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  67. ©2024 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集

    EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  68. ©2024 Databricks Inc. — All rights reserved データとMLパイプラインに対する自動化された洞察とすぐに利用できるメトリクス • 完全マネージド

    なので、インフラの管理 やメトリクスの計算、 スクラッチからのダッシュボード 構築による時間を無駄にしません • 簡単なセットアップ、すぐに利用 できるメトリクス、自動生成の ダッシュボードでストレスなし • 全体的な理解のためのデータと モデルに対する統合ソリューション Databricksレイクハウスモニタリング Generally Available July 2024
  69. ©2024 Databricks Inc. — All rights reserved パイプラインの処理は成功するかもしれませんがデータ品質は劣化します データエンジニアはパイプ ラインのデータ劣化を特定

    するためにデータアナリストや データサイエンティストのからの フィードバックに依存していま す。 受動的な問題の検知 データやモデルの監視に 異なるツールを使うことで、ワー クフローを分断し、 データチーム間のチーム ワークの妨げとなります。 分断されたツール 中央管理の監視サービスの 欠如はデータチームの完全なパ イプラインに対するビューの妨 げとなり、問題の特定や担当者 の割り当てを困難にします。 診断が困難 データ管理の課題
  70. ©2024 Databricks Inc. — All rights reserved プロアクティブな問題管理によるセルフサービスデータ基盤を実現 あなたのデータ製品における問 題探索を容易にするための自

    動生成ダッシュボード、 レディメイドのメトリクス、分析 ツールで、組織全体の 品質のアップデートを共有 レポートの自動生成 データ製品の構築にどのような フレームワークやプラットフォー ムを使っていたとしても、すべて のデータ製品の 品質を監視。データ製品の インパクトを計測するために容 易に品質とビジネスメトリクスを レイクハウスに連携。 統合モニタリング コスト効率の高い「保険」でデー タ製品の問題が影響を 及ぼす前に捕捉。データとAIパ イプラインにおける スマートな自動化で不必要な再 訓練を回避し効率を改善。 自動化された根本原因分析 Databricksレイクハウスモニタリング
  71. ©2024 Databricks Inc. — All rights reserved モデル レイクハウスのすべてのテーブルを監視 Bronze/Silver/Gold

    モニター 時系列テーブル モニター 推論テーブル モニター •Databricksバッチスコアリングパイプライン •Databricksモデルサービングエンドポイント •外部サービング(リクエストログ)やバッチ パイプラインから取り込むための ETL • カラム • タイムスタンプ • カラム/特徴量 テーブルタイプに基づいてすぐに利用できる様々な分析メトリクス スナップショットテー ブル • タイムスタンプ • 特徴量 • 予測カラム • ラベルカラム • モデルID 特徴量テーブル
  72. ©2024 Databricks Inc. — All rights reserved プロファイリン グテーブル ドリフト

    テーブル ダッシュボー ド レイクハウスのテーブルの監視 テーブル 🔎モニター アラート Webhooks DBSQL 動作原理 入出力の分布に関する統計情報 最小、最大、標準偏差、分位数、最頻値、 … モデル品質メトリクス (ラベルが 提供された場合) 分類: Accuracy, F1, precision, recall 回帰: MSE, RMSE, MAE, R2, … Anomaly detection and drift for training-vs-scoring and scoring-vs-scoring nullやカウントの変動、PSI、コルモゴロフ–スミルノフ 検定、平均のシフト、変異距離の合計、 L-inf distance、カイ二乗検定、Wasserstein distance, … カスタムメトリクス SQLエクスプレッションとして表現
  73. ©2024 Databricks Inc. — All rights reserved Unity Catalogを基盤として構築 •

    UCテーブルに格納されるプロファイルメト リクスを計算 • UCテーブルに格納されるドリフト メトリクス を計算 • SQLエクスプレッションとしての カスタムメトリクス のサポート • メトリクスの時系列を変化を可視化 するために自動生成される DBSQL ダッシュボード Unity Catalogのテーブルをインクリメンタルに処理するバックグラウンドサービス
  74. ©2024 Databricks Inc. — All rights reserved レイクハウスモニタリング テーブルとモデルに対するオープンなモニタリング 83

    プロファイリング テーブル テーブル (データ ) テーブル (データ ) テーブル (特徴量 ) テーブル (データ ) モデル テーブル (推論) レイクハウスモニタリング (とAIサポート) ダッシュボー ド データドリフト テーブル モニター import databricks.data_monitoring as dm dm.create_or_update_monitor( table_name=... , analysis_type=dm.analysis.InferenceLog(...), output_schema_name=... ... ) dm.refresh_metrics(...) モニター モニター モニター モニター モニター モニタリングUIやPython APIでの 設定: Mosaic AIや BIツール DB SQL アラート 監視するモデルを 表現 Databricks サーバレス スケジュールさ れたパイプライ ン ユーザー / 管理者 モニタリングの定義: モデルのパイプライン:
  75. ©2024 Databricks Inc. — All rights reserved 84 モデルサービング モデルを監視、デバッグするための推論テーブル:

    • それぞれのリクエストとレスポンスがUnity Catalogの推論テーブルに記録されます。 ◦ あなたのモデルの次のイテレーションの再トレーニングのデータセットとして活用 ◦ プロダクションのデータとモデルに対する品質モニタリングを作成 ◦ 疑いのある推論結果の診断とデバッグの実施 ◦ 再ラベリングすべきラベルの間違ったデータの作成 推論テーブル
  76. ©2024 Databricks Inc. — All rights reserved 85 LLMを活用した Q&Aでビジネス

    ユーザーによるデータ分析を実現 自然言語で質問を行い、テキストや可視化で回答を得 ます。 カスタム指示によるデータセット固有の体験を 提供 Databricks SQL & DatabricksIQを活用 Gated Public Preview in Q1 Project Genie
  77. ©2024 Databricks Inc. — All rights reserved 98 Unity Catalog

    Single governance solution for data and AI assets on the Lakehouse: ◦ Centralized access control ◦ Auditing ◦ Lineage ◦ Discovery Unified governance for data and AI MLOps - What’s new?
  78. ©2024 Databricks Inc. — All rights reserved 99 Unity Catalog

    With Feature Engineering in Unity Catalog: • Any Delta table in Unity Catalog that has been assigned a primary key (and additionally timestamp key) can be used as a source of features to train and serve models • Feature tables can be easily shared across different workspaces, and lineage recorded between other assets in the lakehouse Feature Engineering in Unity Catalog MLOps - What’s new?
  79. ©2024 Databricks Inc. — All rights reserved 100 Unity Catalog

    With Models in Unity Catalog: • The full model lifecycle can be managed in Unity Catalog • Models can be shared across Databricks workspaces • Lineage can be traced across both data and models Models in Unity Catalog MLOps - What’s new?
  80. ©2024 Databricks Inc. — All rights reserved 101 Model Serving

    Real-time ML model deployment • Model Serving provides a production-ready, serverless solution to simplify real-time ML model deployment. • Deploy models as an API to integrate model predictions with applications or websites. • Model Serving: ◦ Reduces operational costs ◦ Streamlines the ML lifecycle ◦ Enables Data Science teams to focus on the core task of integrating production-grade real-time ML into their solutions. MLOps - What’s new?
  81. ©2024 Databricks Inc. — All rights reserved 102 Model Serving

    MLOps benefits MLOps - What’s new? Automatic feature/vector lookups, monitoring and unified governance that automates deployment and reduce errors Lakehouse native Deploy any model type on CPU or GPU. Automated container build and infrastructure management reduce maintenance costs and speed up deployment. Simplified Deployment Highly available and scalable serving with very low latency (p50 overhead latency <10ms) and high query volumes (QPS >25k) Serverless
  82. ©2024 Databricks Inc. — All rights reserved Empower collaboration with

    centralized discovery of assets. Learn how your teammates trained models and what data they trained with Use lineage for audits or reproducibility Discover data and AI assets to use
  83. ©2024 Databricks Inc. — All rights reserved Efficiently debug issues

    with lineage and quality. Perform impact analysis, quality tracking, reproducibility, and root cause analysis with UC Root Causes Analysis w/ Lakehouse Monitoring & Lineage Impact Analysis with Popularity
  84. ©2024 Databricks Inc. — All rights reserved 105 Model Serving

    Online evaluation MLOps - What’s new? Supports online evaluation strategies such as A/B testing or canary deployments through the ability to serve multiple models to a serving endpoint
  85. ©2024 Databricks Inc. — All rights reserved • Secure platform

    for discovering and accessing AI models such as MPT, Llama and Mistral models. • Easily access and govern AI models combining Databricks Marketplace with Unity Catalog. Models on Databricks Marketplace Open marketplace for discovering and sharing AI assets Search models on Marketplace
  86. ©2024 Databricks Inc. — All rights reserved Databricks Model Serving

    Unified management of all models you need to serve Model Serving Custom Models Foundation Models External Models Deploy any model as a REST API with Serverless compute, managed via MLflow. CPU and GPU. Integration with Feature Store and Vector Search. Govern external models and APIs. This provides the governance of MLflow AI Gateway, plus the monitoring and payload logging of traditional Databricks Model Serving. Databricks curates top Foundation Models and provides them behind simple APIs. You can start experimentation immediately, without setting up serving yourself. Available now Available now Available now
  87. ©2024 Databricks Inc. — All rights reserved MLOps Stacks Turnkey

    deployment of ML projects on Databricks with CI/CD • Automate the creation of infrastructure for an ML project • Includes: • ML pipelines for model training, deployment, and inference deployed using Databricks Asset Bundles • Feature tables • CI/CD (GitHub and Azure Devops supported) • Uses software development best practices, and is flexible to customization • Roadmap: • Monitoring (Q1FY25) • Model Serving (Q1FY25) Documentation: AWS, Azure
  88. ©2024 Databricks Inc. — All rights reserved AI Functions •

    Tackle complex language tasks with native SQL functions • Common use cases include summarization, topic identification, entity extra content creation. • ai_query available now, with more functions coming in Q1 • Supports LLMs in Foundation Model APIs, External Models, Custom Models • Also works with non-LLMs, e.g. classification/regression Access and serve LLMs directly from Databricks SQL Generally Available September 2024
  89. ©2024 Databricks Inc. — All rights reserved 110 Enable business

    users to interact with data with LLM-powered Q&A Ask questions in natural language and receive answers in text and visualizations Curate dataset-specific experiences with custom instructions Powered by Databricks SQL & DatabricksIQ Gated Public Preview in Q1 Project Genie
  90. ©2024 Databricks Inc. — All rights reserved Automated insights and

    out-of-the box metrics on data and ML pipelines • Fully managed so no time wasted managing infrastructure, calculating metrics, or building dashboards from scratch • Frictionless with easy setup and out-of-the-box metrics and generated dashboards • Unified solution for data and models for holistic understanding Databricks Lakehouse Monitoring Generally Available July 2024
  91. ©2024 Databricks Inc. — All rights reserved Pipelines may successfully

    execute but data quality degraded Data engineers rely on feedback from data analysts and data scientists to identify deteriorating data quality in pipelines. Reactive Issue Detection Using different tools for data and model monitoring can fragment workflows and hinder teamwork among data teams. Fragmented Tooling Lacking a central monitoring service obscures the data teams' full pipeline view, making it tough to pinpoint issues and assign responsibility. Difficult Diagnoses Challenges Managing Data
  92. ©2024 Databricks Inc. — All rights reserved Enable a self-serve

    data platform with proactive issue management Share quality updates organization-wide with auto-generated dashboards, and use ready-made metrics and analytics tools for easy issue exploration in your data products. Auto-Generated Reports Monitor all data products' quality with a single tool, no matter the framework or platform used to build them. Merge quality and business metrics effortlessly in your lakehouse to gauge your data products' impact. Unified Monitoring Catch data product issues before they reach consumers with cost-effective "insurance." Boost efficiency with smart automation in your data and AI pipelines, avoiding unnecessary retraining. Automated Root Cause Analysis Databricks Lakehouse Monitoring
  93. ©2024 Databricks Inc. — All rights reserved Model(s) Monitor all

    tables in your lakehouse Bronze/Silver/Gold monitor Time Series Table monitor Inference Table monitor •Databricks batch scoring pipeline •Databricks Model Serving Endpoint •ETL to ingest from external serving (request logs) or batch pipelines • Columns • TimeStamp • Columns/Features Different out-of-the-box analysis metrics based on table type(s) Snapshot Table • TimeStamp • Features • Prediction column • Label column • Model ID Feature table
  94. ©2024 Databricks Inc. — All rights reserved Profiling Table Drift

    Table Dashboard Monitoring a table in the Lakehouse Table 🔎monitor Alerts Webhooks DBSQL How does it work? Distributional statistics for inputs, outputs Minimum, maximum, standard deviation, quantiles, top occurring value, … Model quality metrics (if labels are provided) Classification: Accuracy, F1, precision, recall Regression: MSE, RMSE, MAE, R2, … Anomaly detection and drift for training-vs-scoring and scoring-vs-scoring Delta/changes in nulls and counts, PSI, KS divergence, Mean shift, Total Variation distance, L-inf distance, χ2 test, Wasserstein distance, … Custom metrics Expressed as SQL expressions
  95. ©2024 Databricks Inc. — All rights reserved Built on Unity

    Catalog • Calculates profile metrics stored in UC table • Calculates drift metrics stored in UC table • Supports custom metrics as SQL expressions • Auto-generates DBSQL dashboard to visualize metrics over time Background service that incrementally processes data in Unity Catalog tables
  96. ©2024 Databricks Inc. — All rights reserved Lakehouse Monitoring Open

    monitoring for tables and models 117 Profiling Tables Table (data) Table (data) Table (feature) Table (data) Model Table (inference ) Lakehouse Monitoring (with AI support) Dashboards Data Drift Tables monitor import databricks.data_monitoring as dm dm.create_or_update_monitor( table_name=... , analysis_type=dm.analysis.InferenceLog(...), output_schema_name=... ... ) dm.refresh_metrics(...) monitor monitor monitor monitor monitor Configure in Monitoring UI or via Python API: Mosaic AI or BI Tools DB SQL Alerts Representing the model for monitoring Databricks Serverless Scheduled Pipeline Users / Admins Monitoring definitions: Model pipeline:
  97. ©2024 Databricks Inc. — All rights reserved How Mosaic AI

    works Serve AI Unity Catalog + Delta Lake Monitor Data & AI Packaging Packaging Features Indexes AI Assets AI Assets Logs Metrics Log s Features Indexes Data Storage Models Chains Agents Features Indexes 118 APIs BI / SQL ETL / streaming pipelines Prepare Data Batch, streaming, real time Governance & Lineage Features Features Indexes Serve Data Develop & Evaluate AI 🤗 pipelines 🦜🔗 chains + prompt + credential function(...)