Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Lakeflow Connectのご紹介

Lakeflow Connectのご紹介

Lakeflow Connectについてご説明します。

Databricks Japan

April 09, 2025
Tweet

More Decks by Databricks Japan

Other Decks in Technology

Transcript

  1. 11 Lakeflow Connect レイクハウスと統合 効率的なエンドツーエンド シンプルかつ低メンテナンス • スキーマ進化 • 観測可能性とアラート

    • リトライとエラー対応 • スキーママッピング • データサンプリング • SCD type 2 • シンプルなUIとAPI • …
  2. 13 Lakeflow Connect レイクハウスと統合 効率的なエンドツーエンド シンプルかつ低メンテナンス • Unity Catalog •

    ワークフロー • Agent Framework & Evaluation • パイプラインの単一インタフェース • 取り込みのための単一アカウント • …
  3. ©2024 Databricks Inc. — All rights reserved 16 ロードマップ アプリケーション

    Public Preview Private Preview Private Preview Private Preview データベース Private Preview … … Public Preview Public Preview 変更可能性あり | go/connectors/timelines In development Roadmap Roadmap Roadmap In Dev Roadmap In development Roadmap Roadmap Amazon DynamoDB Last updated November 2024
  4. 22

  5. 24 UCの接続 取り込みパイプライン ワークフロー DAG セキュアに資格情報を格納 効率的なデータの取り込み ETLのオーケストレーション Unity Catalog

    セキュリティ、ガバナンス、カタログ、リネージの統合 Delta Lake 外部からアクセス可能な高信頼データストレージ コネクターとは?
  6. マネージドの 取り込み処理 (サーバレスDLT) Lakeflow Connect: SaaS 取り込み 25 ストリーミング Delta

    テーブル 資格情報 (Unity Catalog) 2 1 3 Lakeflow ConnectはサーバレスコンピュートDLT パイプラインを用いて、外部ソースから ストリーミングDeltaテーブルにデータを収集します: 1. LakeflowサーバレスDLTジョブは、Unity Catalogから 資格情報を収集します。 2. ジョブは公開されているデータソースに到達 します (API、オープンOLAPポートなど)。 3. サービスはデータを変換し、ストリーミング Deltaテーブルに格納します。 サービス Lakeflow Connect
  7. Lakeflow Connect : データベース取り込み 取り込みゲートウェイ(クラ シックコンピュートDLT) 26 ユーザー Web UI,

    API & CLI マネージド取り込み処理 (サーバレスDLT) ストリーミングDelta テーブル ステージング & 状態管理 (Unity Catalogボリューム) DLT DLT 資格情報 (Unity Catalog) 従来のデータベース (オンプレミス、クラウド ) 2 1 3 Lakeflow Connect 4 Lakeflow Connectは外部データベースからストリーミング Deltaテーブルにデータを収集 します。 1. クラシックコンピュート DLTジョブがUCから資格情報を収集します 2. データベースソースに接続し、データを収集するために資格情報を使用します 3. 最新の状態とステージングデータを Unity Catalogのボリュームに保存します 4. サーバレスDLTジョブは収集したデータを処理し、ストリーミング Delta テーブルに格納します
  8. 前提条件の概要 効率的なデータ複製と同期のために、ソースのSQL Serverにおける変更トラッキング(CT)やチェンジデータキャプチャ (CDC)を有効化します。 CT/CDCの目的: - 効率的なデータ複製、同期、監査の有効化。 - 変更をインクリメンタルに追跡することで、テーブルのフルスキャンと比較してオーバーヘッドを削減。 -

    分析、レポート、その他のワークロード特性におけるリアルタイム、ニアリアルタイムのデータ取り込みをサポート。 CTのメリット: - 軽量なトラッキング: 主キーの変更のみをトラッキング。 - 最低限のストレージのインパクト: 変更を特定するために必要十分なデータを格納。 - 使いやすさ: 詳細な変更履歴なしにアプリケーションの同期を簡素化。 チェンジデータキャプチャのメリット: - 包括的なトラッキング: beforeとafterのデータを含む変更に関する詳細な情報。 - 履歴的な変更データ: 監査とデバッグのための変更を保持。 - ETLとのインテグレーション: SQL Serverインテグレーションサービスとのシームレスな連携。 SQL Server
  9. ©2024 Databricks Inc. — All rights reserved LakeFlow Connect Salesforce

    Connector Salesforce Sales Cloudとのビルトインかつ堅牢な取り込み カーソルカラムを用いたインクリメンタル取り込み 数式フィールドとカスタムオブジェクトをサポート 顧客離脱の予測、パーソナライズした顧客分析の ような様々なユースケースを解放 DatabricksにおけるSalesforce からデータ洞察を引き出すことです べてにアクセスを拡張