Upgrade to Pro — share decks privately, control downloads, hide ads and more …

オープンでセキュアなデータ共有: Delta Sharingの仕組み

オープンでセキュアなデータ共有: Delta Sharingの仕組み

オープンでセキュアなデータ共有であるDelta Sharingの仕組みについて説明します。

Databricks Japan

April 13, 2024
Tweet

More Decks by Databricks Japan

Other Decks in Technology

Transcript

  1. ©2021 Databricks Inc. — All rights reserved 1 Delta Sharing

    初のオープンソース共有プ ロトコル
  2. ©2021 Databricks Inc. — All rights reserved Delta Sharingが もたらすビジネスの

    成果 データの共有は、効果的なステークホルダー・エン ゲージメントを達成し、企業価値を提供するための、 ビジネスに直結した重要業績評価指標です。 データ共有の推進とデータサイロの打破は、ほとんど の場合において組織に価値をもたらすハイパフォーマ ンスなD&Aチーム と結びついていました。 データ共有を推進する組織は、ほとんどのビジネス 価値測定基準において、同業他社を上回ります。 1 2 3
  3. ©2021 Databricks Inc. — All rights reserved DW Vendor 3

    DW Vendor 3 DW Vendor 3 DW Vendor 2 DW Vendor 2 DW Vendor 1 DW Vendor 1 DW Vendor 1 DW Vendor 4 DW Vendor 4 SFTP ODBC API Com m ercial Product データ共有は複雑で障害が起こりやすいです 費用のかかる ロックイン 実現しない 事業価値 不必要な複雑さ
  4. ©2021 Databricks Inc. — All rights reserved DW ベンダー 3

    DW ベンダー 3 DW ベンダー 3 DW ベンダー 2 DW ベンダー 2 DW ベンダー 1 DW ベンダー 1 DW ベンダー 1 DW ベンダー 4 DW ベンダー 4 ビッグデータ用に構築された共有の仕組み
  5. ©2021 Databricks Inc. — All rights reserved データ共有のオープンな手法 あらゆるプラットフォームで使 用可能な、ロックインのない完

    全なオープン性 ほか組織との実データのシン プルな共有 プライバシー、セキュリティ、コ ンプライアンスを容易に管理 柔軟性と相互運用性 データ移動と複雑性の緩和 強力なガバナンスによる データのアンロック
  6. ©2021 Databricks Inc. — All rights reserved シンプル、オープン、簡単なデータ共有 Delta Lake

    Delta Sharing Server Delta Sharing Client ACL Checks ... Power BI データ共有者 データ受信者 マルチクラウド対応 レプリケーション無し 容易な管理 データ共有とコラボレーションにかかる時間を、数日からリアルタイムに短縮
  7. ©2021 Databricks Inc. — All rights reserved Delta Sharing Ecosystem

    オープンソース・クライアント コマーシャル・クライアント データプロバイダー Business Intelligence Analytics Governance 多数のパートナーと、統合・コネクターの仕組みによってサポートされています
  8. ©2021 Databricks Inc. — All rights reserved ユースケース Delta Sharingはどのように顧客価値を高め、活用されているか?

    Delta Sharingが完璧なゲームチェンジャーとして機能 Line of Business Data Sharing Data Monetization B2B Data Sharing Use Case Details Benefits • サイロ化した部門間のデータアクセス を合理化 • クラウドや地域間でデータを簡単に共 有可能 • エンジニアリング時間の節約 • リアルタイムでデータにアクセスし、 顧客価値を向上 • 異なる事業部門とデータを共有し、さ まざまなアプリケーションを通じて顧 客にデータを提供 • 生データとキュレーションされたデー タを簡単に共有する能力 • 最大手の顧客とデータを共有 • s3からs3への共有のアクセス制御 とメンテナンスの簡素化 • 大規模なデータセットの定期更新 処理を不要に • 様々なスポーツ企業とマーケティン グデータを共有 • 顧客はさまざまなプラットフォームや 地域に存在(ヨーロッパの大手サッ カーチームが最大の顧客)
  9. ©2021 Databricks Inc. — All rights reserved 相互運用性 価値実現までの時間 を短縮する

    シェアリングの未来 "Delta Sharingは、データ共有へ の新しくオープンなアプローチであ り、 クロスプラットフォームの柔軟 性を備えたシームレスで安全な データ交換を可能にします" "金融業界におけるデータの未来 は、 オープンなプロトコルとスタン ダード (Spark、Pandasなど)に向か う傾向にあることは歴史が物語って います。データガバナンス、共有、管 理も例外ではありません。" 新しいデータフィードやFTP(File Transfer Protocol)の実装は非常に 時間のかかるプロセスです—この時 間は、顧客がトライアルシナリオでコ ンテンツを探索したり、自社に価値を 生み出したりするために使用できる 貴重な時間でしょう" パートナーの声 1 2 3
  10. ©2021 Databricks Inc. — All rights reserved 10 シンプル、オープン、簡単なデータ共有 Delta

    Lake Delta Sharing Server Power BI データ共有者 データ受信者 マルチクラウド対応 レプリケーション不要 用意な管理 データ共有とコラボレーションにかかる時間を、数日からリアルタイム二短縮 Delta Sharing Client … Data Analyst Data Scientist Data Engineer On-Prem Authorize Authenticate
  11. ©2021 Databricks Inc. — All rights reserved Delta Sharingによる合理化された共有 Refined

    Table 実用データ リアルタイムでのデータ問い合わせ リアルタイムでのデータアクセス マルチクラウド レプリケーションなし 容易な管理 Delta Sharing サーバー Source Table シェア データ共有者 データ受信者 準備 (オプション) トリガー Delta Sharing クライアント Delta Sharingは、パートナーとの共同作業時間を数日からリアルタイムに短縮します。 11
  12. ©2022 Databricks Inc. — All rights reserved Data Domain Data

    Domain Data Domain Databricks Lakehouseとデータメッシュ 12 事業部門はData Domains で組織され、それぞれソース、データ、メタデータを所有する。 Databricks Lakehouse を使用して、データからド メイン固有のInsightを生み出し、Unity Catalog (共通データカタログ)をによって他ドメインに Data Products を提供する。組織ルールや業 界規制へのコンプライアンスは、 Federated Governance(統合ガバナンス)により確保される。 Data Data Product Insight Data Data Product Insight Data Data Product Insight Databricks Lakehouseプラット フォーム Data Productの消費 Data Productの作成/メンテナンス G G G G Federated Governance Unity Catalog Databricks Lakehouse Platformでは、Data Domainをさまざまなレベルで作成可能 • 1つのワークスペースで、クラスタを使用 してドメインを分離 • 分割されたワークスペースで、データ・ド メインごとに分離 • レイクハウスとData Domainの完全な 一致
  13. ©2022 Databricks Inc. — All rights reserved 13 Delta Sharing

    Data Domain Data Domain Data Domain Data Data Produc t Insight Data Data Produc t Insight Data Data Produc t Insight Data Domain Data Domain External party Data Data Produc t Insight XYZ Data Insight data Data Produc t Insight cloud region 2 cloud provider 2 cloud region 1 cloud provider 1 company 1 company 2 G G G G G Data Produc t (D2D) (D2D) Databricks to Databricks Delta Sharing データメッシュの拡大縮小 • Databricks に基づくデータメッシュは、クラウドリー ジョン およびクラウドプロバイダーを横断して拡張可 能。 • Delta Sharing はビジネスや技術の境界を越えてド メイン間でデータ製品を共有するためのオープンプロ トコルである。 • Delta Sharing Protocolは非ベンダー依存であるた め、データ メッシュの異なるドメインが存在する ◦ 同じ技術スタックを使う必要はない ◦ ビジネス・パートナーのような、別の会社で あっても問題ない
  14. ©2021 Databricks Inc. — All rights reserved 14 Delta Table

    Delta Sharing Server Delta Sharing Client Delta Sharing Protocol Access Permissions Parquet files テーブルリクエスト 事前署名付き Short-Lived URLs direct access to files (parquet format) in the object store … Power BI 注釈 • 共有はDelta Part Fileで行われ、テーブル、 パーティション、Delta Versionなどをサポー トします。 • クライアントはシステムに依存せず、 parquetファイルを読み取ることができれば よいです • Databricks 共有サーバーと ACL チェックは Unity Catalogと統合されています 内部の仕組み データ共有者 データ受信者 Data Sharing Protocol: • クライアントが共有サーバーを認証 • クライアントがテーブル(フィルタを含む)をリ クエスト • サーバーがアクセス許可をチェック • サーバーは事前に署名された、有効期限の 短いURLを生成して返す。 • クライアントはURLを使用してオブジェクト・ ストレージからファイルを直接読み込む。