Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Databricks SQL サーバレスとは?

Databricks SQL サーバレスとは?

Databricks SQL サーバレスとは何かについて説明します。

Databricks Japan

April 13, 2024
Tweet

More Decks by Databricks Japan

Other Decks in Technology

Transcript

  1. ©2022 Databricks Inc. — All rights reserved データプレーン 現行のアーキテクチャ 5

    BIアプリ インタラクティ ブ ユーザー コントロール プレーン Web Application Jobs & Cluster Manager Hive Metastore Secrets Notebooks, Repos, DBSQL MLFlow Registry ユーザー Databricks お使いの クラウド ストレージ DBFS Root Data Cluster お客様 Cluster
  2. ©2021 Databricks Inc — All rights reserved サーバレスSQL 優れた生産性: 待ち時間を削減

    することでより多 くのことを • より高速なウェアハ ウスの起動 • 高速なオートスケー リング • アイドル状態のコスト 削減 優れたセキュリ ティ: 複数レイヤーの 分離 セキュリティ分離レイヤー を実装することでお客様 のセキュリティを維持 優れた信頼性: 価値を生まないク ラウドタスクを排 除 • キャパシティプランニ ング • ネットワーク設定 • etc. 多くの機能: サーバレスに最 適化された機能 • マテリアライズド ビュー • キャッシュ • etc.
  3. ©2022 Databricks Inc. — All rights reserved データプレーン 現行のアーキテクチャ 12

    BIアプリ インタラクティ ブ ユーザー コントロール プレーン Web Application Jobs & Cluster Manager Hive Metastore Secrets Notebooks, Repos, DBSQL MLFlow Registry ユーザー Databricks お使いの クラウド ストレージ DBFS Root Data Cluster お客様 Cluster
  4. ©2022 Databricks Inc. — All rights reserved サーバレスデータプレーン 専用セキュリティグループ サーバレスアーキテクチャ

    13 BI アプリ インタラクティ ブ ユーザー コントロール プレーン Web Application Jobs & Cluster Manager Hive Metastore Secrets Notebooks, Repos, DBSQL MLFlow Registry ユーザー Databricks お使いの クラウド ストレージ DBFS Root Data Cluster お客様 別テナント Cluster 割り当て可能なプール
  5. ©2022 Databricks Inc. — All rights reserved サーバレスの有効化 1 1.

    SQL admin consoleを用いてワークス ペースのサーバレスを有効化します 2. AWSのオプション: DatabricksとAWSイン スタンスプロファイル間の信頼関係を作 成 2
  6. ©2022 Databricks Inc. — All rights reserved サーバレスSQLウェアハウスの作成 1 2

    1. Databricks SQLクラシックと同じUI 2. デフォルトでサーバレスのトグルはオ ンです 3. 既存のSQLウェアハウスを切り替える にはトグルを右に切り替えます
  7. ©2022 Databricks Inc. — All rights reserved Tenant 2 -

    ウェアハウス停止 Cluster Cluster 割り当て可能プール Tenant 1 - 新規ウェアハウス Cluster Cluster VM/Disk削除 新規 VM/Disk VMの追加 01 02 03 サーバレスリソースのライフサイクル 1. ユーザーがサーバレスのトグルをオ ンにしてSQLウェアハウスを作成。 割り当て可能なプールからユー ザーにクラスターが割り当てられま す。 2. ウェアハウスが停止/削除されるとリ ソースはクラウドプロバイダーに返 却されます。 3. 機械学習アルゴリズムがリソースを 予測し、プールにリソースを追加し ます。
  8. • コンテナとローカルストレージ は顧客専用であり、使用後に 削除されます。 • 長期保存用のストレージはお 客様のアカウントに存在しま す。 • 分離クラスターは個々のユー

    ザーアカウントを保護します。 強力な分離コントロール 内部レッドチームと外部ベンダーによるテストを実施 クラスターは顧客専用であり 再利用されません。 VMには広範なデータプレーン の権限がありません 信頼されないコードは VMレベ ルで実行されません コンテナにはVMレイヤーの権 限がありません インターネット、S3、他のクラ スターメンバーにのみトラ フィックが許可 コントロールプレーンへのトラ フィックはプライベートネット ワーク経由 一時セキュリティトークン経由 の統合されたデータアクセス 3. ネットワークの分離 2. VMの分離 1. コンテナの分離
  9. ©2022 Databricks Inc. — All rights reserved ネットワークアクセス 1. ユーザーからコントロールプレーン接続のオ

    プション • IPアクセスリスト • Private Link (プレビュー) 2. データプレーンから顧客のストレージへの接 続 • AWS: プライベートIP経由のAssume Role • Azure: パブリックIPあるいはサービスエンドポイ ント経由のサービスプリンシパル 3. Databricksによって管理されるデータプレー ンからコントロールプレーンへの接続。 TLS 1.2+とIPアクセスリスト。 1 2 3
  10. ©2022 Databricks Inc. — All rights reserved テナント専用セキュリティグループ 別テナント Cluster

    VM VM プライベートIP X プライベート IP (TLS) インター ネット X ネットワークアクセス コントロー ルプレー ン S3/ADLS • テナント横断のネットワークアクセスは不可 • リージョン内S3接続のためにプライベート IP/TLS経由でS3にアクセス • TLSによるパブリックIP、サービスエンドポイン ト(プライベートIP)経由でADLSにアクセス • IPレンジが限定されたプライベートIP/TLS経由 でコントロールプレーンにアクセス • インターネットからすべてのDatabricksサー ビスへのアクセスは不可
  11. Databricks SQL with serverless compute compared to other solutions DB

    SQL with serverless SQL compute is the highest performing and most cost effective solution 起動時間 クエリー 実行時間 高速 (~ 10 sec) 低速 ( ~5min) 低速 高速 CDW1 DB SQL Serverless CDW2 CDW3 Cost Estimate Source: 2021 Cloud Data Warehouse Benchmark Report; Databricks research DB SQL High Medium Low
  12. ©2022 Databricks Inc. — All rights reserved Roadmap Q2 (AWS)

    • Data plane to S3 private connectivity (AWS) • Private Link from DP -> CP (AWS) Q3 (AWS) • Auto Termination to 5 min • New regions Q4 (AWS) • GA • Performance improvements Q4+ (AWS + Azure) DBSQL Serverless only features • materialized view • persistent cache • 5 minute autostop • 1 minute autstop with API • Small query prioritization Q3 (Azure) • Service Endpoint • Auto Termination to 5 min Q4 (Azure) • GA • Performance improvements • New Regions (West US, Central US) • Serverless Job
  13. ©2022 Databricks Inc. — All rights reserved FEATURE MATRIX CLASSIC

    Self-Managed, Introductory SKU PRO Self-Managed, Compute in your account SERVERLESS Fully Managed, Elastic, Best Value GOOD BETTER BEST EXPLORATORY SQL SQL Editor with intelligent auto complete, ANSI SQL ✓ ✓ ✓ MANAGEMENT & GOVERNANCE Query History & Profile, Data Explorer (Unity Catalog), Managed Data Sharing ✓ ✓ ✓ CONNECTIVITY SQL Rest API, Python, Node.js, Go*, Partner Connect ✓ ✓ ✓ PERFORMANCE Photon Engine (Massively Parallel Processing) ✓ ✓ ✓ Predictive I/O X ✓ ✓ SQL ETL/ELT Query Federation*, Materialized Views*, Workflows Integration* X ✓ ✓ DATA SCIENCE & ML Python UDFs*, Notebooks Integration*, Geospatial X ✓ ✓ SERVERLESS DATA WAREHOUSE Instant, Elastic, Fully Managed Compute* X X ✓ HIGH CONCURRENCY BI Intelligent Workload Management* (Q1) X X ✓ Serverless Query Result Caching* (Q1) X X ✓ Details here * Capability in preview
  14. Providing traffic data and connected vehicle services that enhance mobility,

    convenience and peace of mind. Needed to keep SQL endpoint on 24/7 to support analysts generating insights to roads and traffic conditions. Fixed endpoint size limited amount of data and number of concurrent users. Using Serverless SQL, spin up SQL endpoint instantly. Support granular data for better accuracy and more concurrent users for improved productivity. Healthcare data company providing insights on GTM opportunities, drugs effectiveness and patient analytics. End customer, who uses dashboard such as Tableau or PowerBI for gathering insights of various healthcare customers, experience is non-ideal waiting for SQL endpoint to startup. Serverless SQL enables Kythera Lab to serve large number of concurrent customers in a most cost effective and secure way. Generates actionable market insights for financial customers by combining various data sources. Internal non-technical publishing team uses JDBC connector to collate financial data across various sources. Traditionally, keep an interactive clusters operating 24/7 and process PBs of data. Use Serverless SQL simplifies infrastructure management and tuning. Simplifies onboarding of non-technical users.