Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[2024年3月版] Databricksのシステムアーキテクチャ

[2024年3月版] Databricksのシステムアーキテクチャ

2024年3月版のDatabricksのシステムアーキテクチャについて説明します。

Databricks Japan

April 12, 2024
Tweet

More Decks by Databricks Japan

Other Decks in Technology

Transcript

  1. ©2024 Databricks Inc. — All rights reserved モダンデータプラットフォーム - フレームワーク

    4 ビジネス アナリスト データ エンジニア データ サイエンティスト MLエンジニア ビジネス パートナー 高度な分析、ML & AI データウェアハウス 取り込み & 変換 ETL & DS ツール クラウドストレージ データ & AI ガバナンス オーケストレーション BI ツール コラボ レーション AIエンジン
  2. ©2024 Databricks Inc. — All rights reserved 高度な分析、ML & AI

    データウェアハウス 取り込み & 変換 Photon ETL & DS ツール Databricksデータインテリジェンスプラットフォーム 5 クラウド ストレージ データ & AI ガバナンス オーケストレーション BI ツール ビジネス アナリスト データ エンジニア データ サイエンティスト MLエンジニア コラボ レーション ビジネス パートナー AIエンジン ワークフロー (ジョブ, DLT) IDEサポート ノートブック SQLエディタ Lakeview Databricks SQL SQL コネクター バッチ & ストリーム DLT & Autoloader データ品質 インテリジェンスエ ンジン 検索 & 発見 DatabricksIQ アシスタント 性能 最適化 ML モデリング 生成AI リアルタイム 分析 モデル サービング Amazon S3 ADLS Google Cloud Storage Delta Sharing マーケット プレース Delta Lake プロプライエタリ なDWHフォー マットなし UniForm 画像 CSV 任意 . . . Parquet Delta JSON Unity Catalog アクセス制 御 監査 発見 リネージ レイクハウス フェデレーション レイクハウスモ ニタリング
  3. ©2024 Databricks Inc. — All rights reserved クラウドストレージ Databricks AI

    7 Databricks AI 外部サービス データの準備 • 構造化データの発見 & 特徴量への変換 • 非構造化データのチャンク、 エンべディングの作成 AIの開発と評価 • アルゴリズムのトレーニングとテスト • モデルのファインチューニング & プロンプトエンジニアリング • 生成AIエージェント & ツールの作成 • アセットのチェーン • エクスペリメントの評価 • セキュリティと権限の管理 • モデルリネージの追跡 • データモニタリング • AIモニタリング(品質を維持するためにモデルの精度を評価 ) AIの提供 • 低レーテンシーモデルサービング • モデルのリクエスト/レスポンスの記録 データの提供 • 低レーテンシー特徴量サービング • Vector DBのエンべディングへの問合せ • 開発とプロダクション間のコード、データ、モデルの移動 • モデル、特徴量、エクスペリメントの管理 エンドツーエンドのAIの機能 … MLOps + LLMOps データ & AIのガバナンス • AI駆動の発見と検索 • AIアシスタント • AIによるパフォーマンス最適化およびスケーリング AIエンジン AI モデル & ツール • 商用AIモデル • コミュニティAIモデル • コミュニティツール
  4. ©2024 Databricks Inc. — All rights reserved AI モデル &

    ツール クラウドストレージ データの準備 AIの開発と評価 AIの提供 Databricks AI 8 … データインテリジェンスプラットフォームに完全に統合 SQL ワークフロー DLT ノートブック マーケットプレース レイクハウスモ ニタリング Spark レイクハウス共通機能 Unity Catalog CI/CDサポート Delta ファイル (Volumes) データの提供 Data & AIのガバナンス MLOps + LLMOps OpenAI … Hugging Face 外部サービス MLFlow Vector Search Feature Serving モデル サービング * Models In UC AI Functions AutoML Lakehouse AI固有の機能 ファインチューン Features In UC MLflow (Track/Evaluate) AI Playground * カスタムモデル、基盤モデル、外部モデルに対する統合 API
  5. ©2024 Databricks Inc. — All rights reserved Unified security, governance,

    and cataloging Unified data storage for reliability and sharing Unity Catalog Delta Lake レイクハウスからデータインテリジェンスプラットフォームへ 10 レイクハウス インテリジェンスエンジンはすべてのレイヤーのプ ラットフォーム体験をシンプルにします ETL & リアルタイム分析 データサイエンス & AI オーケストレーション データ ウェアハウス ワークフロー DLT Databricks AI Databricks SQL セキュリティ、ガバナンス、カタログの統合 信頼性と共有のための統合データストレージ Unity Catalog Delta Lake データのセマンティクスを理解する生成AI インテリジェンスエンジン ETL & リアルタイム分析 データサイエンス & AI オーケストレーション データ ウェアハウス セキュリティ、ガバナンス、カタログの統合 信頼性と共有のための統合データストレージ データインテリジェンスプラットフォーム ワークフロー DLT Databricks AI Databricks SQL Unity Catalog Delta Lake Unity Catalogはインテリジェンスエンジンの基盤です
  6. ©2024 Databricks Inc. — All rights reserved サーバレスコンピュートプレーン Control Plane

    12   クラシックコンピュートプレーン 顧客 クラスター (ETL と AI) SQL ウェアハウス (DWH と BI) Databricks SQL (DWH と BI) データインテリジェンスプラットフォーム概要 Unity Catalog インテリジェンスエンジン プラットフォームサービス ユーザー 計算資源 ストレージ クラウドストレージ モデルサービング (リアルタイム)
  7. ©2024 Databricks Inc. — All rights reserved サーバレスコンピュートプレーン Control Plane

    13   クラシックコンピュートプレーン 顧客 クラスター (ETL と AI) SQL ウェアハウス (DWH と BI) Databricks SQL (DWH と BI) データインテリジェンスプラットフォーム サーバレス Unity Catalog インテリジェンスエンジン プラットフォームサービス ユーザー 計算資源 ストレージ クラウドストレージ モデルサービング (リアルタイム)
  8. ©2024 Databricks Inc. — All rights reserved クラシックコンピュート ハイレベルアーキテクチャ コントロールプレーン

    クラウドストレージ その他の データ ソース 顧客 Databricksワークスペース ID プロバイダー プラットフォームサービス アカウントコンソール Unity Catalog クラスター クラスター インテリジェンスエンジン
  9. ©2024 Databricks Inc. — All rights reserved クラシックコンピュート ハイレベルアーキテクチャの詳細 Databricksワークスペース

    コントロールプレーン クラウドストレージ その他の データ ソース 顧客 ID プロバイダー アカウントコンソール クラスター ドライバー ワーカー ログイン Photon メタストア (カタログ) Web App ポータル, REST API コンピュートマ ネージャ アクセス制御 データ/リネージエ クスプローラ Unity Catalog ワークフローマ ネージャ クエリーマネー ジャ SSO オプティマイザ アシスタント DatabricksIQ インテリジェンス エンジン プラットフォーム サービス ユーザー
  10. ©2024 Databricks Inc. — All rights reserved クラシックコンピュート ハイレベルアーキテクチャ 顧客

    Databricks SQL - SQLウェアハウス SQLウェアハウス (ロードバランスクラスター) コントロールプレーン アカウントコンソール クラウドストレージ その他の データ ソース ID プロバイダー プラットフォームサービス Unity Catalog インテリジェンスエンジン
  11. ©2024 Databricks Inc. — All rights reserved ハイレベルアーキテクチャの詳細 Databricks SQL

    - SQLウェアハウス コントロールプレーン クラウドストレージ その他の データ ソース 顧客 ID プロバイダー アカウントコンソール メタストア (カタログ) Web App ポータル, REST API コンピュートマ ネージャ アクセス制御 データ/リネージエ クスプローラ Unity Catalog ワークフローマ ネージャ クエリーマネー ジャ SSO オプティマイザ アシスタント DatabricksIQ インテリジェンス エンジン プラットフォーム サービス ユーザー DB SQLクエリーエディタ コネクターやJDBC/ODBC 経由でのBIツール クラシックコンピュート SQLウェアハウス Driver Driver ロードバランス Worker Worker Photon Photon
  12. ©2024 Databricks Inc. — All rights reserved ハイレベルアーキテクチャ 21 コントロールプレーン

    サーバレスコンピュート 顧客 Databricksサーバレス アカウントコンソール DB SQLクラスター 未割り当てのプール モデルサービングエンドポイント システム間通信無し システム間通信無し 分離されたセキュリティグループ サーバレス コンピュートマ ネージャ IDプロバイダー その他のデータ ソース クラウドストレージ ルートバケット (DBFS) プラットフォーム サービス Unity Catalog インテリジェンスエンジン
  13. ©2024 Databricks Inc. — All rights reserved サーバレスコンピュート ハイレベルアーキテクチャ 22

    A IDプロバイダー その他のデータ ソース クラウド ストレージ Databricks SQL - サーバレスSQLウェアハウス 顧客 コントロールプレーン アカウントコンソール 顧客 A クラスター 顧客 B クラスター B IDプロバイダー その他のデータ ソース クラウド ストレージ Web App ワークフローマネージャ コンピュートマネージャ コネクター クエリーマネージャ Unity Catalog インテリジェンスエンジン
  14. ©2024 Databricks Inc. — All rights reserved ハイレベルアーキテクチャの詳細 23 コントロールプレーン

    Serverless Compute Web App (ポータル/REST API) クエリー 未割り当てのク ラスター 分離された ネットワーク 分離されたVM 分離されたコンテナ 最低限の権限 Driver worker Driver worker Driver worker A IDプロバイダー その他のデータ ソース クラウド ストレージ ルートバケット (DBFS) 顧客 A 専用計算 リソースとし て 割り当て Driver worker 顧客 Databricks SQL - サーバレスSQLウェアハウス SSO (AやBのIDプロバイダーを使用) (AやBの)ユーザー 顧客 B 専用計算 リソースとし て 割り当て Driver worker Driver B IDプロバイダー その他のデータ ソース Cloud Storage ルートバケット (DBFS) worker アカウントコンソール Photon Photon Photon ワークフロー Encryption at rest and in transit Unity Catalog インテリジェンスエ ンジン
  15. ©2024 Databricks Inc. — All rights reserved コントロールプレーン クラシックコンピュート クラスター

    SQL ウェアハウス 25 * Secure Cluster Connectivity セキュリティのハイライト Secure Cluster Connectivity (SCC)、IPアクセスリスト、SSO Users クラウドストレージ その他の データソー ス 顧客 ID プロバイダー アカウントコンソール ログイン シングルサインオン (SSO) IPアクセスリスト (IPアドレス) SCC* リレー ワークフローマ ネージャ クラスター マネージャ Web App ポータル, REST API メタストア (カタログ) ... ... DatabricksIQ
  16. ©2024 Databricks Inc. — All rights reserved コントロールプレーン ワークフローマ ネージャ

    クラスター マネージャ クラシックコンピュート SQL ウェアハウス クラスター Web App ポータル, REST API クラウド ストレージ ルート バケット 26 セキュアクラスター通信のワークスペース その他の データソー ス IDプロバイ ダー SCC リレー 完全なジョブ の結果 443 メイン通信 トンネル 443 from to AzureとAWSにおけるSCCのポートと通信 * 顧客 443 80 インタラク ティブログイ ン / REST コール 443に自動で リダイレクト メタストア (カタログ) ユー ザー アカウントコンソール ... ... DatabricksIQ 443 (コンピュートプレーンからコントロールプ レーンのみへの)内部コール 8443-8451 Hive メタストア 3306 * SCC on GCPはkubernetesベース
  17. ©2024 Databricks Inc. — All rights reserved トランジット VNet/VPC コンピュートプレーンの

    VNet/VPC 顧客の企業 ネットワーク コントロールプレーン 27 エンドツーエンドのプライベート接続用のPrivate Link クラシック コンピュート アカウントコンソール ユーザー、ワークロード、データ間のプライベート接続 顧客 ユーザー VPN クラウド ストレージ Private Link VPN: Virtual Private Network (や類似のクラウドサービス ) Private Linkサー ビス Private Link Private Link Cluster SQL ウェアハウス • フロントエンド: ユーザーからワークスペース • バックエンド: コンピュートプレーンからコントロールプレーン
  18. ©2024 Databricks Inc. — All rights reserved コントロールプレーン DB SQL

    クエリー クラウドストレージ 28 顧客管理キー アカウントコンソール 顧客自身の暗号化キーで格納データを暗号化 顧客 ノート ブック 鍵管理 (KMS, AKV, …) シーク レット 顧客管理 キー クラスターディスク DBFS • クラウドネイティブの鍵管理サービスと連携 • 鍵のローテーションでルートキーの定期的な ローテーションを実現
  19. ©2024 Databricks Inc. — All rights reserved Databricksコンピュートをスケール 30 Driver

    worker Driver worker オートスケール (水平) クラスターのみ より大きなノード (垂直) 複数のクラスター 複数のクラスター - ロード分散 SQLウェアハウスのみ なぜ?クエリーやデータ量の変動 なぜ?シングルノードのDSやpandas UDFでの性能や大規模データの取り扱い なぜ?個別のワークロード (ETL, DS, BIなど) ジョブ専用の揮発性クラスター なぜ?より多くの同時クエリーをサポート Driver worker New worker Databricks SQLのSQLウェアハウス Driver worker Driver worker Driver worker Driver worker Driver Driver シングルノードのDS Driver worker 注意: Databricksで計算資源をスケールさせる最も簡単な方法はサーバレス サービスを使うことです (サーバレスSQLウェアハウスやモデルサービング )
  20. ©2024 Databricks Inc. — All rights reserved 共有のコントロールプレーンサービス コンピュートプレーン ワークスペース

    マルチワークスペースアーキテクチャ 31 クラウド ストレージ コントロールプレーン ワークスペースの分離、例えば - 開発プロセスのステージ (DEV, STG, PROD) - ビジネスユニット - リソース制限の回避 (クラウドアカウント/サブスクリプション) アカウント コンソール ユーザー管理 IDプロバイ ダー ユーザーとグ ループの同 期 分離 / スケール Unity Catalog メタストア モデルレジストリ Feature Store Web App ポータル, REST API クラスター SQL ウェアハウス 顧客 顧客 ユーザー ワークスペース クラスター SQL ウェアハウス クラウド ストレージ 分離 / スケール インテリジェンスエンジン
  21. ©2024 Databricks Inc. — All rights reserved 最終形 メダリオン、ベストプラクティスのパイプライン クレンジング

    取り込み ブロンズ シルバー Sparkストリーム ゴールド 再サンプリング 内挿された 時系列 特徴量拡張 特徴量削減 生データ ▪ データ処理なし ▪ 間違いを修正するためにデータを保持 クレンジングされ適合したデータ ▪ 直接クエリー可能 ▪ PIIのマスキング/検閲 整理されたビジネスレベルのテーブル ▪ プロジェクト/ユースケース固有 ▪ 非正規化、読み取りに最適化した データモデル 34
  22. ©2024 Databricks Inc. — All rights reserved • ランディング (ブロンズ)

    • オリジナルフォーマットの生データ (一時的) • 取り込み (ブロンズ) • (ランディングのAvro, CSV, parquet, XML, JSON フォーマットから)Deltaに変換された生データ • データ契約の検証: (通常はソースから派生する ) スキーマ、タイムフレーム… • 時にはステージングと呼びます • 統合 - 物理データモデル (シルバー) • (用語集や分類を含む)複数のビジネスドメインをカバー する詳細情報 • すべてのデータソースを統合 • 必ずしもディメンショナルモデルである必要は ありませんが、ディメンショナルモデルに入力されます。 • データマート (ゴールド) • 統合レイヤーのサブセットであり、時にはデータのフィ ルタリングや集計が行われます • スタースキーマを用いたディメンショナルモデルに フォーカス • 通常は特定のLoBやチーム向けとなります データモデル: DHW向けディメンショナルモデル 35 gold silver Presentation Integration Data Mart Dim Dim Dim Fact Customer Product Time Order Dim. Model Data Mart Dim. Model Dimensional model (star schema) Physical Data Model Logical Data Model (3NF*) Business Information Model SQL * 3NF = “Third normal form” in data modelling bronze Ingestion Verified data Landing Raw data (temp.) ETL/ELT
  23. ©2024 Databricks Inc. — All rights reserved gold silver Curation

    データモデリング: モダンユースケース(MLやAI) 36 • ランディング (ブロンズ) • オリジナルフォーマットの生データ (一時的なもので ある場合もあり)。ランディングゾーンを持つことで、オ リジナルの入力フォーマットと独立して Deltaフォー マットでブロンズを保持することができます。 • 取り込み (ブロンズ) • (ランディングのAvro, CSV, parquet, XML, JSON フォーマットから)Deltaに変換された生データ • 通常はDWHと比較して軽量な検証処理 • その他の変換処理やビジネスロジックは適用されま せん • 多くの場合 “スキーマオンリード” のアプローチ • キュレーション (シルバー) • クレンジング、フィルタリング、拡張されたデータ • 最終形 (ゴールド) • ビジネスレベルの集計 • プロジェクト目的に応じたマスキング、削減、匿名化 • 必要であれば性能のための非正規化 Final ETL/ELT Python R SQL Scala Cleansed data Filtered data Augmented data Project data Business level aggregates bronze Ingestion Verified data Landing Raw data (temp.)
  24. ©2024 Databricks Inc. — All rights reserved 37 強化されたメダリオンアーキテクチャ •

    Landing: オリジナルフォーマットの生データ • Ingestion: 生データが検証され Deltaに変換 • モダンユースケースのための Data Lake • Curation: クレンジング、均質化され、ビジネスロジックを適用 • Final: ビジネス/プロジェクトで利用できるデータセット • BIユースケースのための DWH • Integration: エンタープライズDWH (複数の場合あり) • Presentation: ビジネスレディのDWH情報 (データマート) Cloud storage gold bronze silver Ingestion Verified data Curation Cleansed, augmented, … Final Business specific Landing Raw data, temp. Presentation Data marts Integration Business information model BIユースケース (厳密にモデル化され 検証されたデータ モダンユースケース batch streaming モダンなAIユースケースとクラシックなDWH/BIユースケース向け
  25. ©2024 Databricks Inc. — All rights reserved クラウドストレージ External table

    containers / buckets Databricksにおけるハイレベルのデータアクセス コンピュートプレーン マネージドテーブル コンテナ / バケット 外部テーブルコンテナ / バケット 39 クラスター / SQLウェアハウス ルートコンテナ / バケット DBFS * / Unity Catalogによるアクセス制御 Unity CatalogのクラスターとSQLウェアハウス Unity Catalog アクセスコントロール無し、プロダクションデータでは使わないこと * 仮想ファイルシ ステム
  26. ©2024 Databricks Inc. — All rights reserved Unity Catalog データアクセスのセキュリティ

    クラウドストレージ クラシック / サーバレス コンピュートプレーン クラスター Driver worker マネージドテーブル コンテナ / バケット データコンテナ / バケット #1 データコンテナ / バケット #2 データコンテナ / バケット #3 データコンテナ / バケット #4 テーブルACL のチェック 1a IDプロバイダー 40 アクセス制御 短期間の サイン済み トークンでの アクセス 1b マネージド テーブル 短期間の サイン済み トークンでの アクセス 1b 外部テー ブル ID アカウントコンソール
  27. ©2024 Databricks Inc. — All rights reserved ユーザー (S3, ADLS)

    41 Unity Catalogにおけるクエリーの生涯 クラウド ストレージ 監査ログ 監査ログの 書き込み 管理者 • IAMロール(AWS) / サービス プリンシパルやマネージド アイデンティティ(Azure)の作成 • Unity Catalogでアクセスポリシーを 定義 1 クエリー送信 (SQL Python, R, Scala,) IAMロール / サービスプリンシパル / マネージドアイデンティティの Assume 3 短期間のトークンとサイン済み URLを返却 4 メタデータと権限のチェック 2 結果の送信 8 短期トークンとURLによるデータのリ クエスト/取り込み 5 データの返却 6 クラスターやSQL ウェアハウス ポリシーの 強制 7
  28. ©2024 Databricks Inc. — All rights reserved データフォーマット - Parquet

    顧客 p1 pn p2 p3 p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. task task task task 小さなファイル問題 全体 期間 顧客 p4 p1 p2 p3 task task task task 全体 データの破損 期間 スキーマ破損 ファイル破損 失敗 失敗 失敗 顧客 p4 p1 p2 p3 task task task task 全体 ゴール: 信頼できるデータと最適なファイルサイズ 期間 43 Parquetの何が悪い?
  29. ©2024 Databricks Inc. — All rights reserved Delta: 信頼性とパフォーマンスの機能 customers

    TX log p4 p1 p2 p3 直接の更新と削除 (複雑なパイプラインは不要です ) ✘ • GDPR • Change Data Capture (CDC & SCD) ✘ customers TX log p4 p1 p2 p3 customers TX log p4 p1 p2 p3 customers TX log p4 p1 p2 p3 タイムトラベル (暗黙的なスナップショット) V2 V1 V0 ✘ ✘ オンザフライの最適化 (複雑なパイプラインは不要です ) customers p3 p1 p2 TX log customers p1 pn p2 p3 p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. TX log customers TX log p4’ p1’ p2’ p3’ 一貫性 (破損、不完全、間違ったデータを読み込むことはあり ません) write ✔ スキーマ強制 ! ! customers TX log p4 p1 p2 p3 stream read stream ✔ 44
  30. ©2024 Databricks Inc. — All rights reserved UniForm UniForm IcebergやHudiであるかのようにアクセスされるDeltaで格納されたデータ

    * 45 データ メタデータ Reader Reader Reader * クライアント 単一 セットの Parquet ファイル * Hudi coming soon Delta メタデータ Iceberg メタデータ Hudi * メタデータ
  31. ©2024 Databricks Inc. — All rights reserved UniForm UniForm IcebergやHudiであるかのようにアクセスされるDeltaで格納されたデータ

    * 46 Data メタデータ Delta メタデータ Iceberg メタデータ Hudi * メタデータ UniForm 単一 セットの Parquet ファイル Delta メタデータ Iceberg メタデータ Hudi * メタデータ 1 2 3 4 UniForm Writer UniForm Readers Writer Reader Reader Reader * クライアント 1 2 1 2 1 2 単一 セットの Parquet ファイル * Hudi coming soon
  32. ©2024 Databricks Inc. — All rights reserved Icebergメタデータ 47 最新データへの自動アクセス

    計算資源不要 オープンな表示 タイムトラベルをサポート Icebergメタデータを自動生成 DeltaでUniFormを有効化 最新データへの手動アクセス 読み込みにサーバーサイドの計算資源不要 オープンな標準 ユーザー指定の メタデータパス Unity Catalog Iceberg REST API
  33. ©2024 Databricks Inc. — All rights reserved DBFS (Databricks File

    System) 49 dbfs ルートコンテナ / バケット データコンテナ / バケット Repos Unity Catalog Volumes 例 Spark Unity Catalogによる ユーザーアクセス コントロール ワークスペース オブジェクト権限によるユー ザーの アクセスコントロール 保護されていません! マウント: マウントで使用されたIAMポ リシーやサービスプリンシパ ルによる 各ユーザーのアクセス コントロール 分散ファイルシステムの抽 象レイヤー 分散処理 クライアント ファイルシステム プロダクションデー タでは使用しない で ください!
  34. ©2024 Databricks Inc. — All rights reserved Databricks コントロールプレーン Databricksのファイルシステム

    50 リファレンス ターゲット ファイルシステム 凡例 %run /Users/<username>/step_1 <username> オペレーショナル DB 個々の ノートブック Databricksノートブック(%run) /Shared /Users /Users/<user_name>/orders DevOps, GitHub, ... Driver & worker (POSIXファイルシステム) / <username> ワークスペースファイルシステム フォルダ /Workspace/Repos/ /Workspace/Repos/<username>/<path> %sh ls /Workspace/Repos/$username/ %sh cat /Workspace/Repos/$username/n.py from loc_lib import method # loc_lib in repo config = open(“c.yml”).read() config = open( “/Workspace/Repos/$username/$path/c.yml” ).read() dbutils.fs.ls("file:/Workspace/Repos/<username>/") spark.read.csv(f"file:{os.getcwd()}/data/d.csv") %sh cat /dbfs/FileStore/data.csv dbutils.fs.ls("dbfs:/FileStore/…”) dbutils.fs.ls("/databricks-data/…”) spark.read.csv("dbfs:/FileStore/d.csv”) dbfs ルートコンテナ / バ ケット / /FileStore /databricks-data /dbfs /dbfs/FileStore / %sh cat /dbfs/mnt/data/bucket/data.csv dbutils.fs.ls(“dbfs:/mnt/data/sales-data/…”) dbutils.fs.ls(“/mnt/data/sales-data/…”) dbutils.fs.ls("abfss://… /mktg-data/…”) dbutils.fs.ls("s3a://… /mktg-data/…”) dbutils.fs.ls("gs://… /mktg-data/…”) spark.read.csv("/mnt/data/mktg-data/… /d.csv”) spark.read.csv("abfss://… /mktg-data/… /d.csv”) コンテナ / バケット /sales-data /mktg-data /mnt /mnt/data dbutils.fs.ls("dbfs:/Volumes/<c>/<s>/<v>/<p>”) dbutils.fs.ls("/Volumes/<c>/<s>/<v>/<p>”) %sh ls /Volumes/<c>/<s>/<v>/<p> %sql LIST ‘/Volumes/<c>/<s>/<v>/<p>’ spark.read.csv(‘/Volumes/<c>/<s>/<v>/’) /Volumes/<c>/<s>/<v>/<p> Unity Catalog Volumes Metastore catalog schema volume コンテナ / バケット /images <c> = catalog <s> = schema <v> = volume <p> = path /Volumes/<c>/<s>/<v>/<p>
  35. ©2024 Databricks Inc. — All rights reserved BIツール Op. DB

    バッチ & ストリーム データ コラボレーション Databricksデータインテリジェンスプラットフォーム 52 ストレージ データサイエンス & 生成AI 処理、ETL、リアルタイム分析 オーケストレーション データとAIのガバナンス バッチ & ストリーム データウェアハウス データインテリジェンスエンジン データインテリジェンスプラットフォーム フェデレーショ ン ETL AIアプリ 3rd party ビジネスアプリ 連携 取り込み 変換 分析 ソース 提供 クエリーと処理 ダッシュボード Spark / Photon Delta Live Tables Databricks SQL ワークフロー Auto loader マーケットプ レース アシスタント データ ルーム Lakeview レイクハウスモ ニタリング Hugging Face OpenAI IDプロバイダ ガバナンス AIサービス モデル サービング Vector Search ML モデリング Mosaic AI カタログ & リネージ アクセス 制御 Unity Catalog MLOps 生成AI 特徴量 サービング … ドメイン 鍵管理 鍵 モデル / 特徴量 DatabricksIQ センサーとIoT (非構造化) RDBMS (構造化) ビジネスアプリ (非構造化) メディア (非構造化) 他のクラウド ビジネスアプリ ファイル / ログ (半構造化) IDプロバイダ エンタープライズカ タログ クラウドストレージ AIアプリ RDBMS (構造化) 取り込み ツール イベント ストリーミング RDBM, KVストア データ利用 BIツール Delta Lake Delta Sharing bronze silver gold
  36. ©2024 Databricks Inc. — All rights reserved 1 バッチETL 53

    バッチ & ストリーム データ コラボレーション ストレージ データサイエンス & 生成AI 処理、ETL、リアルタイム分析 オーケストレーション データとAIのガバナンス バッチ & ストリーム データウェアハウス データインテリジェンスエンジン 取り込み 変換 分析 ソース 提供 クエリーと処理 Workflows Auto loader アシスタント ETL カタログ & リ ネージ アクセス 制御 Spark / Photon Delta Live Tables 取り込み ツール レイクハウスモ ニタリング Op. DB RDBM, KVストア 連携 IDプロバイダ ガバナンス Unity Catalog DatabricksIQ ドメイン 鍵管理 鍵 AutoLoader ダッシュボード センサーとIoT (非構造化) RDBMS (構造化) ビジネスアプリ (非構造化) メディア (非構造化) 他のクラウド ファイル / ログ (半構造化) RDBMS (構造化) IDプロバイダ bronze silver gold Delta Lake データインテリジェンスプラットフォーム フェデレーショ ン クラウドストレージ エンタープライズカ タログ
  37. ©2024 Databricks Inc. — All rights reserved バッチ & ストリーム

    データ コラボレーション ストレージ データサイエンス & 生成AI 処理、ETL、リアルタイム分析 オーケストレーション データとAIのガバナンス バッチ & ストリーム データウェアハウス データインテリジェンスエンジン 取り込み 変換 分析 ソース 提供 クエリーと処理 ワークフロー 2 ストリーミングとチェンジデータキャプチャ 54 アシスタント CDC ETL カタログ & リ ネージ アクセス 制御 Spark / Photon Delta Live Tables イベント ストリーミング レイクハウスモ ニタリング Op. DB RDBM, KVストア 連携 IDプロバイダ ガバナンス Unity Catalog DatabricksIQ ドメイン 鍵管理 鍵 ダッシュボード センサーとIoT (非構造化) RDBMS (構造化) ビジネスアプリ (非構造化) メディア (非構造化) 他のクラウド ファイル / ログ (半構造化) RDBMS (構造化) IDプロバイダ bronze silver gold Delta Lake データインテリジェンスプラットフォーム フェデレーショ ン クラウドストレージ エンタープライズカ タログ
  38. ©2024 Databricks Inc. — All rights reserved 3 機械学習 (従来型)

    55 データ コラボレーション ストレージ データサイエンス & 生成AI 処理、ETL、リアルタイム分析 オーケストレーション データとAIのガバナンス バッチ & ストリーム データウェアハウス データインテリジェンスエンジン 取り込み 変換 分析 ソース 提供 クエリーと処理 ワークフロー アシスタント モデル サービング ML モデリング MLOps ETL AIアプリ カタログ & リ ネージ アクセス 制御 Spark / Photon 連携 Hugging Face OpenAI IDプロバイダ ガバナンス AIサービス … Mosaic AI Unity Catalog DatabricksIQ レイクハウスモ ニタリング モデル / 特徴量 ダッシュボード センサーとIoT (非構造化) RDBMS (構造化) ビジネスアプリ (非構造化) メディア (非構造化) 他のクラウド ファイル / ログ (半構造化) RDBMS (構造化) IDプロバイダ AIアプリ bronze silver gold Delta Lake データインテリジェンスプラットフォーム フェデレーショ ン ドメイン 鍵管理 鍵 クラウドストレージ エンタープライズカ タログ
  39. ©2024 Databricks Inc. — All rights reserved 処理、ETL、リアルタイム分析 Spark /

    Photon 4 生成AI: RAG 56 データ コラボレーション Storage データサイエンス & 生成AI オーケストレーション データとAIのガバナンス バッチ & ストリーム データウェアハウス データインテリジェンスエンジン 取り込み 変換 分析 ソース 提供 クエリーと処理 ワークフロー アシスタント モデル サービング Vector Search 生成AI MLOps ETL カタログ & リ ネージ アクセス 制御 レイクハウスモ ニタリング モデル / 特徴量 連携 Hugging Face OpenAI IDプロバイダ ガバナンス AIサービス … Mosaic AI Unity Catalog DatabricksIQ ダッシュボード AIアプリ センサーとIoT (非構造化) RDBMS (構造化) ビジネスアプリ (非構造化) メディア (非構造化) 他のクラウド ファイル / ログ (半構造化) RDBMS (構造化) IDプロバイダ Cloud Storage AIアプリ bronze silver gold Delta Lake データインテリジェンスプラットフォーム フェデレーショ ン ドメイン 鍵管理 鍵 エンタープライズカ タログ
  40. ©2024 Databricks Inc. — All rights reserved ダッシュボード Lakeview 5

    BI 57 データ コラボレーション ストレージ データサイエンス & 生成AI 処理、ETL、リアルタイム分析 オーケストレーション データとAIのガバナンス バッチ & ストリーム データウェアハウス データインテリジェンスエンジン BIツール 取り込み 変換 分析 ソース 提供 クエリーと処理 アシスタント カタログ & リ ネージ アクセス 制御 ETL Spark / Photon データ ルーム 連携 IDプロバイダ ガバナンス Unity Catalog DatabricksIQ レイクハウスモ ニタリング Databricks SQL センサーとIoT (非構造化) RDBMS (構造化) ビジネスアプリ (非構造化) メディア (非構造化) 他のクラウド ファイル / ログ (半構造化) RDBMS (構造化) IDプロバイダ BIツール bronze silver gold Delta Lake データインテリジェンスプラットフォーム フェデレーショ ン ドメイン 鍵管理 鍵 エンタープライズカ タログ クラウドストレージ
  41. ©2024 Databricks Inc. — All rights reserved 6 レイクハウスフェデレーション 58

    データ コラボレーション ストレージ データサイエンス & 生成AI 処理、ETL、リアルタイム分析 オーケストレーション データとAIのガバナンス バッチ & ストリーム データウェアハウス データインテリジェンスエンジン 取り込み 変換 分析 ソース 提供 クエリーと処理 カタログ & リ ネージ アクセス 制御 ETL Spark / Photon 連携 IDプロバイダ ガバナンス Mosaic AI Unity Catalog ダッシュボード フェデレーション センサーとIoT (非構造化) RDBMS (構造化) ビジネスアプリ (非構造化) メディア (非構造化) 他のクラウド ファイル / ログ (半構造化) RDBMS (構造化) IDプロバイダ bronze silver gold データインテリジェンスプラットフォーム フェデレーショ ン ドメイン 鍵管理 鍵 クラウドストレージ エンタープライズカ タログ
  42. ©2024 Databricks Inc. — All rights reserved 7 データ共有 59

    データ コラボレーション ストレージ データサイエンス & 生成AI 処理、ETL、リアルタイム分析 オーケストレーション データとAIのガバナンス バッチ & ストリーム データウェアハウス データインテリジェンスエンジン 取り込み 変換 分析 ソース 提供 クエリーと処理 アクセス 制御 ETL 連携 IDプロバイダ ガバナンス Unity Catalog ダッシュボード 3rd party マーケットプ レース IDプロバイダ データ利用 bronze silver gold Delta Lake Delta Sharing センサーとIoT (非構造化) RDBMS (構造化) ビジネスアプリ (非構造化) メディア (非構造化) 他のクラウド ファイル / ログ (半構造化) RDBMS (構造化) ドメイン 鍵管理 鍵 データインテリジェンスプラットフォーム フェデレーショ ン エンタープライズカ タログ クラウドストレージ