Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Databricks Lakehouse Federationで 運用負荷ゼロのデータ連携

Databricks Lakehouse Federationで 運用負荷ゼロのデータ連携

Avatar for Kenji Matsuda

Kenji Matsuda

March 26, 2026

Other Decks in Technology

Transcript

  1. @IVRy Inc. All rights reserved. Databricks Lakehouse Federationで 運⽤負荷ゼロのデータ連携 株式会社IVRy

    データエンジニア 松⽥ 健司 JEDAI Meetup! AIエージェント特集 - Lakebase連携からセキュリティまで
  2. @IVRy Inc. All rights reserved. アジェンダ 7 1. なぜ Lakehouse

    Federation を導入したのか 2. 導入後の構成と View の自動作成の仕組み 3. ハマったポイント 4. まとめと今後
  3. @IVRy Inc. All rights reserved. Lakehouse Federationとは? 8 外部データベースのデータをコピーせず に

    Unity Catalog 経由で直接クエリできる機能 メリット • データコピー不要 → ETLジョブ・ストレージコスト削減 • リアルタイム参照 → ソースDBの最新データを直接参照 • Unity Catalog でガバナンス統一 → アクセス制御・リネージを一元管理 なぜ Lakehouse Federation を導⼊したのか
  4. @IVRy Inc. All rights reserved. IVRyのデータアーキテクチャ 9 なぜ Lakehouse Federation

    を導⼊したのか https://findy-tools.io/companies/ivry/90/76
  5. @IVRy Inc. All rights reserved. 10 なぜ Lakehouse Federation を導⼊したのか

    課題:テーブルが増えるたびに 人手が必要 な運用だった Created by Nano banana
  6. @IVRy Inc. All rights reserved. アジェンダ 11 1. なぜ Lakehouse

    Federation を導入したのか 2. 導入後のアーキテクチャと View の自動作成の仕組み 3. ハマったポイント 4. まとめと今後
  7. @IVRy Inc. All rights reserved. アジェンダ 14 1. なぜ Lakehouse

    Federation を導入したのか 2. 導入後の構成と View の自動作成の仕組み 3. ハマったポイント 4. まとめと今後
  8. @IVRy Inc. All rights reserved. 15 ハマったポイント その1: NLB の

    PrivateLink 設定 PrivateLink経由の通信はSGのチェックをスルーする必要があった https://docs.databricks.com/aws/en/security/network/serverless-networ k-security/pl-to-internal-network
  9. @IVRy Inc. All rights reserved. 17 ハマったポイント その3: ServerlessとClassicで接続ルートが異なる 一部のジョブがClassicのままだったためFederationカタログを参照すると

    エラーが発生した →ServerlessはPricateLink、ClassicはVPC Pering経由に! https://docs.databricks.com/aws/en/security/network/serverless-network-security/ pl-to-internal-network
  10. @IVRy Inc. All rights reserved. アジェンダ 18 1. なぜ Lakehouse

    Federation を導入したのか 2. 導入後の構成と View の自動作成の仕組み 3. ハマったポイント 4. まとめと今後
  11. @IVRy Inc. All rights reserved. 19 まとめと今後 まとめ: 導入の成果 大規模テーブルと

    PII テーブルは Federation から除外し、 安全かつパフォーマンスの良い構成に Before After テーブルの追加 Slack申請→手動対応 自動 データ鮮度 数時間に一度 リアルタイム コスト ジョブとストレージ ゼロ 運用負荷 ジョブ監視・障害対応 ほぼゼロ
  12. @IVRy Inc. All rights reserved. 20 まとめと今後 今後 1. データ削除時の影響

    ◦ PostgreSQLのデータが削除されると後続のデータ利用に影響が出る問題 への対応 2. 大規模テーブルの対応 ◦ dltHubをLakeflow Connectを利用してCDC 更新へ移行し、 よりリアルタイムかつコスト削減した連携を目指す