Upgrade to Pro — share decks privately, control downloads, hide ads and more …

サイロ化したBigQueryをAnalyticsHubにより統合する構成案

Avatar for manabian manabian
September 04, 2024
12

 サイロ化したBigQueryをAnalyticsHubにより統合する構成案

Google Cloud 上でサイロ化(乱立)している BigQuery データを統合するための Analytics Hub をベースにしたアーキテクチャ案を共有します。 本アーキテクチャにて、適切な管理のもと、追加のストレージコストを最小限に抑えつつ、 Subscriber がコンピューティングコストを負担するなどの予算管理が可能となります

Avatar for manabian

manabian

September 04, 2024
Tweet

Transcript

  1. 自己紹介 @manabian 【主な生業】 BI・DWH構築に関するSIベンダーにてテクニカルスペシャリスト職と して、次の業務を実施。 • Databricks におけるシステム実装論の整理とライブラリ開発 • データ分析基盤とアプリケーションの設計・構築に関する支援

    • データ分析基盤に関する技術検証 趣味がデータ分析基盤に関する調査や検証であり、 主に Qiita を中心にデータ分析基盤に関する記事を投稿。 • 最強のデータ分析基盤を目指して~汎用的なデータ分析基盤の選定 方法の提案~ – Qiita • PySpark 開発時に知っておくべき7つのテーマ– Qiita • データエンジニア界隈で話題のdbt(data build tool)のまとめ #Python - Qiita
  2. Publishe Layer Analytics Hub による Big Query 統合アーキテクチャ Dataset A

    A table B table C table BigQuery PJ P1 (Publisher) Dataset B E table F table … BigQuery PJ P# (Publisher) … Hub Layer Subscriber Layer Big Query PJ S# (Subscriber) … Analytics Hub (from Publisher) Exchange A Exchange B … Analytics Hub (for Subscriber) Exchange A confidential Exchange A restricted conf. Exchange A high conf. Exchange B confidential … Big Query PJ H1 (HUB) Dataset A confidential A table view Masked B table view Dataset A restricted conf. B table view Dataset A high conf. Dataset B confidential … C table view E table view F table view Big Query S1 (Subscriber) Big Query PJ S2 (Subscriber) Dataset A confidential A table view Masked B table view Dataset A confidential E table view F table view Dataset A restricted conf. B table view
  3. 統合アーキテクチャのレイヤー。 ◼Analytics Hub にて、 Publisher Layer とSubscriber Layer の2層で管 理するのではなく、

    Hub Layer を追加した 3 層により管理する。 ◼Hub Layer により既存の BigQuery の構成に依存することなく 整理したデータの流通が可能となる。 # レイヤー 概要 1 Publisher Layer 他の BigQuery へデータ共有を行うために Hub に対してデータ共有するレイヤー。 2 Hub Layer Publisher から共有されたデータの整理を行い Subscriber へデータ共有するレイヤー。 3 Subscriber Layer Hub からデータ共有を受けるレイヤー。