Upgrade to Pro — share decks privately, control downloads, hide ads and more …

サイロ化したBigQueryをAnalyticsHubにより統合する構成案

manabian
September 04, 2024
5

 サイロ化したBigQueryをAnalyticsHubにより統合する構成案

Google Cloud 上でサイロ化(乱立)している BigQuery データを統合するための Analytics Hub をベースにしたアーキテクチャ案を共有します。 本アーキテクチャにて、適切な管理のもと、追加のストレージコストを最小限に抑えつつ、 Subscriber がコンピューティングコストを負担するなどの予算管理が可能となります

manabian

September 04, 2024
Tweet

Transcript

  1. 自己紹介 @manabian 【主な生業】 BI・DWH構築に関するSIベンダーにてテクニカルスペシャリスト職と して、次の業務を実施。 • Databricks におけるシステム実装論の整理とライブラリ開発 • データ分析基盤とアプリケーションの設計・構築に関する支援

    • データ分析基盤に関する技術検証 趣味がデータ分析基盤に関する調査や検証であり、 主に Qiita を中心にデータ分析基盤に関する記事を投稿。 • 最強のデータ分析基盤を目指して~汎用的なデータ分析基盤の選定 方法の提案~ – Qiita • PySpark 開発時に知っておくべき7つのテーマ– Qiita • データエンジニア界隈で話題のdbt(data build tool)のまとめ #Python - Qiita
  2. Publishe Layer Analytics Hub による Big Query 統合アーキテクチャ Dataset A

    A table B table C table BigQuery PJ P1 (Publisher) Dataset B E table F table … BigQuery PJ P# (Publisher) … Hub Layer Subscriber Layer Big Query PJ S# (Subscriber) … Analytics Hub (from Publisher) Exchange A Exchange B … Analytics Hub (for Subscriber) Exchange A confidential Exchange A restricted conf. Exchange A high conf. Exchange B confidential … Big Query PJ H1 (HUB) Dataset A confidential A table view Masked B table view Dataset A restricted conf. B table view Dataset A high conf. Dataset B confidential … C table view E table view F table view Big Query S1 (Subscriber) Big Query PJ S2 (Subscriber) Dataset A confidential A table view Masked B table view Dataset A confidential E table view F table view Dataset A restricted conf. B table view
  3. 統合アーキテクチャのレイヤー。 ◼Analytics Hub にて、 Publisher Layer とSubscriber Layer の2層で管 理するのではなく、

    Hub Layer を追加した 3 層により管理する。 ◼Hub Layer により既存の BigQuery の構成に依存することなく 整理したデータの流通が可能となる。 # レイヤー 概要 1 Publisher Layer 他の BigQuery へデータ共有を行うために Hub に対してデータ共有するレイヤー。 2 Hub Layer Publisher から共有されたデータの整理を行い Subscriber へデータ共有するレイヤー。 3 Subscriber Layer Hub からデータ共有を受けるレイヤー。