Databricks におけるデータエンジニアリング

©2023 Databricks Inc. — All rights reserved Databricksにおけるデータエンジニアリング 1
2023/11/29 Databricks Japan

©2023 Databricks Inc. — All rights reserved 自己紹介弥生隆明
(やよいたかあき) Databricks アカウントSA部部長 ▪ 2020年からデータブリックスジャパンにおいて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、総合電機メーカーにてデータ分析・Web サービス構築などに従事。インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 @taka_aki

©2023 Databricks Inc. — All rights reserved イベントのご案内 JEDAI 2023
X'mas/忘年会 Meetup! 日時: 2023年12月8日（金）18:30 場所: 東京コンベンションホール東京スクエアガーデン5F (https://www.tokyo.conventionhall.jp/) イベント概要: 2023年を締めくくる、X'mas & 忘年会のユーザーミートアップを開催いたします！昨年末のChatGPTの登場以来、我々が活動するData + AIの市場はこれまでに無い盛り上がりを見せてます。当日はユーザーさまのライトニングトークに加え、これまでの JEDAIにおける活動の振り返りや今後の活動方針のシェア、そして2023年度のJEDAI Certificatation Rank (Master, Knight, Padawan, Initiate)の発表をいたします！会場のキャパシティも限りがありますので、是非お早めにご登録ください！

アジェンダ • Databricksとは • データエンジニアリングとは • ETL処理 • メダリオンアーキテクチャ •
Delta Live Tables • オーケストレーション • デモ

©2023 Databricks Inc. — All rights reserved 6000+ の従業員 $1.5B+
の収益 $4B の投資レイクハウスの発明者 & 生成AIのパイオニア Gartnerに認知されるリーダー Database Management Systems Data Science and Machine Learning Platforms データ & AIカンパニーのクリエイター

©2023 Databricks Inc. — All rights reserved データ + AI
カンパニーがすべての業界で勝者に

©2023 Databricks Inc. — All rights reserved すべてのフライトのデジタルツインをモデリングするためにAI を活用
オペレーション、メンテナンス、カスタマーサービス横断で統合された意思決定を提供 AIで182Mのワイアレス利用者と 15Mの家庭ブロードバンドを保護予測アプリケーションが不正が起きる前にリアルタイムで80%の不正をストップ AIでローンアプリケーション体験をシンプルにパーソナライズされたアプリケーションを通じて40,000のスモールビジネスに対する $1.4Bのローンを促進

©2023 Databricks Inc. — All rights reserved 多くの企業はこのビジョンの実現に苦戦していますデータレイク
オーケストレーション & ETL データウェアハウスガバナンス機械学習ストリーミング BI データサイエンス生成 AI

©2023 Databricks Inc. — All rights reserved 多くの企業はこのビジョンの実現に苦戦していますデータレイク
オーケストレーション & ETL データウェアハウスガバナンス機械学習ストリーミング BI データサイエンス生成 AI サイロ化されたデータ、AI ガバナンス AIがもたらすデータプライバシー& コントロールの課題高度に技術的なスタッフへの依存

©2023 Databricks Inc. — All rights reserved データレイクハウスすべてのデータに対するオープンで統合された基盤オープンデータレイク
すべての生データ (ログ、テキスト、音声、動画、画像) Databricksがレイクハウスアーキテクチャを発明 2020 統合セキュリティ、ガバナンス、カタログ信頼性と共有のための統合データストレージ ETL & リアルタイム分析オーケストレーションデータウェアハウスデータサイエンス & AI Databricks AI Delta Live Tables Workﬂows Databricks SQL Unity Catalog Delta Lake グローバル企業の 74% がレイクハウスを導入現在 MIT Technology Review Insights, 2023

©2023 Databricks Inc. — All rights reserved すべてのデータに対するオープンで統合された基盤データレイクハウス
データとAIを容易にスケール、活用生成AI 皆様の組織全体のデータ + AIを民主化データインテリジェンスプラットフォーム

©2023 Databricks Inc. — All rights reserved すべての生データ (ログ、テキスト、音声、動画、画像) ETL
& リアルタイム分析オーケストレーションデータウェアハウスデータサイエンス & AI Databricks AI Delta Live Tables Workﬂows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog 信頼性と共有のための統合データストレージ Delta Lake Databricksデータインテリジェンスプラットフォームオープンデータレイク

©2023 Databricks Inc. — All rights reserved ETL & リアルタイム分析
オーケストレーションデータウェアハウスデータサイエンス & AI Databricks AI Delta Live Tables Workﬂows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog Databricksデータインテリジェンスプラットフォーム信頼性と共有のための統合データストレージ Delta Lake あなたのデータのセマンティクスを理解するために生成AIを活用データインテリジェンスエンジンオープンデータレイクすべての生データ (ログ、テキスト、音声、動画、画像) Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウトを最適化 Databricks SQL テキストからSQL Workﬂows 過去の処理に基づくジョブコストの最適化 Delta Live Tables データ品質の自動化 Databricks AI カスタムLLMの作成チューニング、提供

©2023 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム Databricks AI
生成AI • カスタムモデル • モデルサービング • RAG エンドツーエンドAI • MLOps (MLﬂow) • AutoML • モニタリング • ガバナンスあなたのデータのセマンティクスを理解するために生成AIを活用データインテリジェンスエンジンオープンデータレイクすべての生データ (ログ、テキスト、音声、動画、画像) Databricks SQL テキストからSQL Workﬂows 過去の処理に基づくジョブコストの最適化 Delta Live Tables データ品質の自動化 Databricks AI カスタムLLMの作成チューニング、提供 Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウトを最適化

©2023 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォームあなたのデータのセマンティクスを理解するためにデータインテリジェンスエンジ
オープンデータレイクすべての生データ (ログ、テキスト、音声、動画、画 Workﬂo 過去の処理にジョブコストの Delta Live Tables データ品質の自動化 Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウト Databricks AI カスタムLLMの作成チューニング、提供オペレーション財務マーケティングカスタマーサービスどうすれば組織の皆にデータとAIを展開できるのか？ “Project Genie” 自然言語で誰でもデータや AIを活用

©2023 Databricks Inc. — All rights reserved データインテリジェンスプラットフォームによる真のデータとAIの民主化の実現シンプル
自然言語が使いやすさと効率性を全員に提供インテリジェントあなたのデータを理解するためにE2EでAIがインテグレーションプライベートプライベートデータを用いて容易にカスタムモデルを構築

©2023 Databricks Inc. — All rights reserved レイクハウスで実現するML/BI/ETL 同じデータですべてのワークロードを実現 •
機械学習モデルの開発、運用 • 大量データに対するBI • データパイプラインの開発、運用 Delta LakeとUnity Catalogで実現するデータレイクハウス • 容量無制限かつ安価なストレージ • DWH以上のパフォーマンス • バッチ処理、ストリーム処理への対応 • トランザクション保証 • すべてのデータに対するガバナンス(権限管理/ 監査/リネージ) Unity Catalog データサイエンス/ 機械学習(ML) BI/DWH データエンジニアリング/ ETL ビジネスアナリストデータエンジニアデータサイエンティスト

©2023 Databricks Inc. — All rights reserved レイクハウスガバナンスのための Unity Catalog
すべてのデータ資産のガバナンス、管理 • ウェアハウス、テーブル、カラム • データレイク、ファイル • 機械学習モデル • ダッシュボード、ノートブック機能 • データリネージ • 属性ベースのアクセス制御 • セキュリティポリシー • テーブル、カラムレベルのタグ • 監査 • データ共有

©2023 Databricks Inc. — All rights reserved DatabricksにおけるML & データサイエンス
機械学習 • モデルレジストリ、再現性、本格運用への投入 • 再現性確保にDelta Lakeを活用 • シチズンデータサイエンティストのための AutoML データサイエンス • インタラクティブ分析向けコラボレーティブノートブック、ダッシュボード • Python、SQL、Java、R、Scalaのネイティブサポート • Delta Lakeデータのネイティブサポート

©2023 Databricks Inc. — All rights reserved Databricksにおけるデータエンジニアリング • Databricksワークフローによるデータ
オーケストレーション • Delta Live Tablesによる完全なデータパイプラインの管理 • Delta Lakeによるキュレーテッドデータレイクアプローチを通じてデータエンジニアリングをシンプルに

©2023 Databricks Inc. — All rights reserved DatabricksにおけるSQLワークロード • Delta
LakeにおけるBI、SQLワークロードの優れた性能、同時実行性 • 分析に適したネイティブSQLインタフェース • Delta Lakeの最新データに直接クエリーすることによるBIツールのサポート

©2023 Databricks Inc. — All rights reserved データエンジニアリングとは分析などでデータを活用できるようにするための営みですデータエンジニアリングとは、様々なソースや
フォーマットで提供される生のデータを収集、分析できるようにするシステムの設計、構築に関するプロセスを意味します。このようなシステムによって、ユーザーはビジネスの成長につながる実践的なデータアプリケーションを作り出すことが可能となります。 23 What Is Data Engineering?

©2023 Databricks Inc. — All rights reserved データエンジニアリングとはなぜ、データエンジニアリングが重要なのでしょうか？企業の規模に関係なく、すべての企業が重要なビジネス上の質問に回答するために調査する必
要がある膨大な量の様々なデータを所有しています。データエンジニアリングは、アナリスト、データサイエンティスト、エグゼクティブのようなデータ利用者がすべてのデータを信頼しながら、クイックかつセキュアに調査できるようにするためのプロセスをサポートすることを目的としています。データが様々テクノロジーによって管理され、多様な構造で格納されているため、データアナリストは課題に直面にしています。さらに、分析で使用するツールはデータが同じテクノロジーで管理され、同じ構造で格納されていることを前提としています。 24 What Is Data Engineering?

©2023 Databricks Inc. — All rights reserved データエンジニアリングとはなぜ、データエンジニアリングが重要なのでしょうか？例えば、あるブランドが顧客に関して収集するすべてのデータを考えてみます:
• あるシステムには請求と出荷が格納されています。 • 別のシステムでは注文履歴を保持しています。 • そして、他のシステムではカスタマーサポート、行動情報、サードパーティデータが格納されています。全体的にはこのデータは顧客の包括的なビューを提供します。しかし、これらの様々なデータセットは独立しており、「どのようなタイプの注文が最も高価なカスタマーサポートのコストにつながったのか」という特定の質問への回答が非常に困難になります。データエンジニアリングでは、これらのデータセットを統合し、あなたの質問をクイックかつ効率的に回答できるようにします。 25 What Is Data Engineering?

©2023 Databricks Inc. — All rights reserved データエンジニアリングとはデータエンジニアは何をするのでしょうか？データエンジニアリングは、需要の高まっているスキルです。データエンジニアは、データを統合
し、あなたたちがナビゲートする助けとなるシステムを設計する人たちです。データエンジニアは以下を含む様々なタスクを実行します: • 取得：ビジネスに関連するすべての様々なデータセットを特定します • クレンジング：データにおけるすべてのエラーを特定し、綺麗にします • 変換：すべてのデータに共通的なフォーマットを与えます • 曖昧性の除去：複数の方法で解釈し得るデータを解釈します • 重複排除：データの重複したコピーを排除しますこれらが完了すると、データレイクやデータレイクハウスのような中央リポジトリにデータを格納することができます。また、データエンジニアはデータのサブセットをデータウェアハウスにコピー、移動することができます。 26 What Is Data Engineering?

©2023 Databricks Inc. — All rights reserved データエンジニアリングとはデータエンジニアリングのツールとスキルデータエンジニアは以下を含む様々なツールとテクノロジーを扱います:
• ETLツール: ETL(抽出、変換、ロード)ツールはシステム間でデータを移動します。データにアクセスし、分析により適した形にするためにデータを変換します。 • SQL: 構造化クエリー言語(SQL)はリレーショナルデータベースへのクエリーにおける標準言語です。 • Python: Pythonは汎用プログラミング言語です。データエンジニアはETLタスクでPythonを使うことがあります。 • クラウドデータストレージ: Amazon S3、Azure Data Lake Storage(ADLS)、Google Cloud Storageなど • クエリーエンジン: 回答を得るためにデータに対してクエリーを実行するエンジン。データエンジニアは、Dremio Sonar、Spark、Flinkなどのエンジンを取り扱います。 27 What Is Data Engineering?

©2023 Databricks Inc. — All rights reserved ETLとは Extract(抽出)、Transform(変換)、Load(ロード)から構成される処理です 29
ソースシステムターゲット ETLプロセス

©2023 Databricks Inc. — All rights reserved Extract(抽出) ソースシステムからデータをExtract(抽出)します 30
• 最初のステップは、業務システム、API、センサーデータ、マーケティングツール、トランザクションデータベースなど、さまざまなソースからのデータの抽出を行います。これらのデータタイプには、広く使用されている構造化データであることもあれば、半構造化のJSON形式の可能性もあります。抽出には、次のような3つの手法があります。 • 更新通知：最も簡単なデータの取得方法はレコード変更時にソースシステムによって通知される場合です。 • 増分抽出：全てのシステムが更新を通知できるわけではありませんが、特定の期間に変更されたレコードを指定し、それらのレコードを抽出できます。 • 完全抽出：変更されたデータをまったく特定できないシステムがあります。この場合、完全抽出によってのみシステムからデータを抽出できる可能性があります。

©2023 Databricks Inc. — All rights reserved Transform(変換) ロードする形式にデータをTransform(変換)します 31
• 次のステップは、ソースから抽出された未加工のデータを、別のアプリケーションで使用できる形式への変換です。運用上のニーズを満たすために、データのクレンジング、マッピング、変換（多く場合、特定のデータスキーマに変換）が行われます。 • 変換プロセスでは、データの品質と整合性を確保するために、いくつかのタイプの変換が行われます。データは通常、ターゲットデータウェアハウスに直接ロードされず、ステージングデータベースにアップロードされるのが一般的です。 • このステップにより、計画どおりに処理が行われない場合の迅速なロールバックを保証します。この段階において、規制遵守に関する監査レポートを作成したり、データの問題を診断して修復したりすることができます。

©2023 Databricks Inc. — All rights reserved Load(ロード) ターゲットシステムにデータをLoad(ロード)します 32
• 最後に、ロード機能は変換されたデータをステージング領域からターゲットデータベースに書き込むプロセスです。 • ターゲットデータベースには、データが以前に存在していた場合とそうでない場合があります。アプリケーションの要件に応じて、このプロセスは非常に単純にも、複雑にもなり得ます。これらの各ステップは、ETL ツールやカスタムコードで実行可能です。

©2023 Databricks Inc. — All rights reserved データ取り込み最適化Spark
COPY INTO Auto Loader 生の取り込みデータ履歴 Bronze 整理されたデータフィルタリングクレンジング、拡張 Silver ビジネスレベルの集計データ Gold Photon ETL ストリーミング最適化Spark Python, SQL, Scala, R ジョブスケジューラ揮発性クラスターバッチ取り込みとオーケストレーションストリーミングイベントクラウドの取り込みオプションのサービングレイヤー DatabricksにおけるETL処理

©2023 Databricks Inc. — All rights reserved メダリオンアーキテクチャとは ETLパイプラインを設計・構築する際の整理学です 35
• メダリオンアーキテクチャは、レイクハウスに格納されているデータの品質を示す一連のデータレイヤーを表現します。 • 企業のデータプロダクトに対して信頼できる唯一の情報源(single source of truth)を構築するために、Databricksではマルチレイヤーのアプローチを取ることをお勧めしています。 • このアーキテクチャは、公立的な分析に最適化されたレイアウトでデータ格納される前の検証、変換を行う複数のレイヤーをデータが追加する際の、原子性、一貫性、分離性、耐久性を保証します。ブロンズ(生)、シルバー(検証済み)、ゴールド(拡張済み)という用語はそれぞれのレイヤーにおけるデータの品質を表現しています。

©2023 Databricks Inc. — All rights reserved メダリオンアーキテクチャ CSV JSON
TXT Bronze Silver Gold AIやレポートストリーミング分析データ品質 Databricks Auto Loader

©2023 Databricks Inc. — All rights reserved メダリオンアーキテクチャブロンズレイヤー通常は取り込みデータの生のコピー
従来のデータレイクを置き換え完全かつ未処理のデータ履歴に対する効率的なストレージを提供しクエリーを可能に 37 Bronze

©2023 Databricks Inc. — All rights reserved メダリオンアーキテクチャシルバーレイヤーデータストレージの複雑性、レーテンシー、冗長性を削減
ETLのスループットやクエリー性能を最適化オリジナルデータの粒度を保持 (集計なし) 重複レコードの排除プロダクションのスキーマを強制データ品質のチェック、破損データの検疫 38 Silver

©2023 Databricks Inc. — All rights reserved メダリオンアーキテクチャゴールドレイヤー MLアプリケーション、レポート、ダッシュボード、
アドホック分析を支援通常は集計を用いて洗練されたデータビューを提供プロダクションシステムの負荷を軽減ビジネス上重要なデータのクエリー性能を最適化 39 Gold

連続あるいはスケジュールによるデータ取り込み宣言型ETL パイプラインデータ品質検証およびモニタリングデータ
パイプラインの観測可能性オートスケーリングおよび耐障害性自動デプロイオペレーションパイプライン& ワークフローのオーケストレーションチェンジデータキャプチャー Databricksでデータエンジニアリングを成功させる鍵となる差別化要因

• 「どのように」を抽象化し「何を」解くのかを定義する、意図に基づく宣言型開発を使用 • 自動で高品質なリネージュを作成し、データパイプラインのテーブルの依存関係を管理 • エラー、依存関係の欠如、文法エラーを自動でチェックし、パイプラインのリカバリーを管理 /*
アカウントテーブルの一時ビューを作成 */ CREATE INCREMENTAL LIVE VIEW account_raw AS SELECT * FROM cloud_files(“/data”, “csv”); /* ステージ 1: ブロンズテーブルで不適切な行を削除 */ CREATE INCREMENTAL LIVE TABLE account_bronze AS COMMENT "適切なIDのアカウントを含むブロンズテーブル " SELECT * FROM fire_account_raw ... /* ステージ 2:シルバーに行を送信し、妥当性チェックを適用 */ CREATE INCREMENTAL LIVE TABLE account_silver AS COMMENT "妥当性チェックを行なったシルバーアカウント " SELECT * FROM fire_account_bronze ... ブロンズシルバーゴールドソース Delta Live Tablesによる宣言型ETLパイプライン

Auto Loaderによる連続、スケジュールのデータ取り込み • クラウドストレージに新規データが到着するたびに、インクリメンタルかつ効率的に処理を実施 • 自動で到着データのスキーマを推定、あるいはスキーマヒントによるスキーマ強制 • 自動のスキーマ進化
• レスキューデータカラム - 決してデータを失いません JSON CSV ✅ ✅ AVRO PARQUET スキーマ進化 ✅ ✅ Auto Loaderでスキーマ推論と進化を設定する | Databricks on AWS

ブロンズシルバー CDC経由 UPSERT CDC経由 UPSERT CDC経由 UPSERT ストリーミングソース
クラウドオブジェクトストレージ構造化データ非構造化データ準構造化データデータ移行サービスデータソース • DBR、クラウドストレージ、DBFSでサポートされている任意のデータの行レベルの変更をキャプチャー • よりシンプルなアーキテクチャ: シンプルかつインクリメンタルなパイプラインの構築 • 順序が守られていないイベントのハンドリング • スキーマ進化 • シンプルかつ宣言型の「APPLY CHANGES INTO」 APIを用いた変更レコード(insert、update、 delete)のインクリメンタルな処理 Delta Live Tablesによるチェンジデータキャプチャー(CDC)

Delta Live Tablesによるデータ品質検証およびモニタリング ▪ データエクスペクテーションでパイプラインにおけるデータ品質、完全性を定義 ▪ 柔軟なポリシーによるデータ品質エラーへの対応 (失敗、削除、警告、検疫) ▪
全てのデータパイプライン実行と品質メトリクスを記録、追跡、レポート /* ステージ 1: ブロンズテーブルで不正な行を削除 */ CREATE INCREMENTAL LIVE TABLE fire_account_bronze AS ( CONSTRAINT valid_account_open_dt EXPECT (acconut_dt is not null and (account_close_dt > account_open_dt)) ON VIOLATION DROP ROW COMMENT "適切なアカウントIDを含むブロンズテーブル" SELECT * FROM fire_account_raw ...

Delta Live Tablesにおけるデータパイプラインの観測可能性 • インパクト分析のためのデータフローに対する可視性を提供する高品質かつ高精度なリネージュダイアグラム • データパイプラインのオペレーション、ガバナンス、品質、ステータスに対する行レベルでのきめ
細かいロギング • 継続オペレーションを確実にするためのデータパイプラインジョブの連続的モニタリング • Databricks SQLを用いたメールによるアラート

©2023 Databricks Inc. — All rights reserved Databricksワークフローとは？すべてのクラウドで誰もが高信頼のデータ、分析、AIワークフローを構築できる完全マネージドのレイクハウスオーケストレーションサービス
完全マネージド完全マネージドのオーケストレーションサービスによって運用オーバーヘッドを取り除くことで、インフラストラクチャの管理ではなくワークロード自身にフォーカス。プラットフォームと密接にインテグレーションお使いのレイクハウスプラットフォーム向けに設計され組み込まれているので、すべてのワークフローに対する深いモニタリング機能と集中管理された観測能力を提供。何でもどこでもオーケストレーションすべてのクラウドで完全なデータとAIのライフサイクルにおける様々なワークロードを実行。 Delta Live Tables、SQL、 Spark、ノートブック、dbt、MLモデルなどのジョブをオーケストレーション。シンプルなワークフロー作成特殊スキルを持つ人に限らずデータチームの誰でも活用できる簡単なポイント&クリックの作成体験。データ、分析、AIのための高信頼オーケストレーション立証された信頼性 AWS、Azure、GCPで日々実行されている数千万のプロダクションワークロードで立証された信頼性に基づいて安心してワークロードを実行。 https://www.databricks.com/jp/product/workflows

©2023 Databricks Inc. — All rights reserved Databricksワークフロー - ワークフロージョブ
49 ▪ これは何？ DAGによる容易なコードの作成、スケジュール、オーケストレーション (有効非巡回グラフ) ▪ キーとなる機能 ▪ シンプルさ: UIでの容易な作成とモニタリング ▪ ワークロードに合わせた多数のタスクタイプ ▪ プラットフォームに完全にインテグレーションされており、結果の調査とデバッグを迅速に ▪ 立証されたDatabricksスケジューラの信頼性 ▪ 容易にステータスをモニタリングする観測可能性ワークフロージョブタスクの DAG

©2023 Databricks Inc. — All rights reserved Databricksジョブのサンプル Notebook、DLT、Python wheelタスクによるジョブ(DAG)
50 Power BIのデータセットのアップデート Python Wheel SQLServerから顧客データをコピーノートブックスタースキーマモデルの作成 Delta Live Tables SQLServerから注文データをコピーノートブック SQLServerから地域データをコピーノートブックカスタムライブラリを用いた Databricksクラスター

©2023 Databricks Inc. — All rights reserved Databricksジョブのサンプル 51 Databricksノートブック(Python、SQL、Scala)
Notebook、DLT、Python wheelタスクによるジョブ(DAG) Power BIのデータセットのアップデート Python Wheel SQLServerから顧客データをコピーノートブックスタースキーマモデルの作成 Delta Live Tables SQLServerから注文データをコピーノートブック SQLServerから地域データをコピーノートブック

©2023 Databricks Inc. — All rights reserved Databricksジョブのサンプル 52 Delta
Live Tablesパイプライン(Triggeredモード) Notebook、DLT、Python wheelタスクによるジョブ(DAG) Power BIのデータセットのアップデート Python Wheel SQLServerから顧客データをコピーノートブックスタースキーマモデルの作成 Delta Live Tables SQLServerから注文データをコピーノートブック SQLServerから地域データをコピーノートブック

©2023 Databricks Inc. — All rights reserved Databricksジョブのサンプル 53 dbtパイプライン
Notebook、DLT、Python wheelタスクによるジョブ(DAG) Power BIのデータセットのアップデート Python Wheel SQLServerから顧客データをコピーノートブックスタースキーマモデルの作成 Delta Live Tables SQLServerから注文データをコピーノートブック SQLServerから地域データをコピーノートブック

©2023 Databricks Inc. — All rights reserved Databricksジョブのサンプル 54 Power
BIデータセットに対するAPIコールを行うPython wheel import requests r = requests.get('https://docs.microsoft.com/en-us/ resGET https://api.powerbi.com/v1.0/myorg/groups/{grou pId}/datasets/{datasetId}/refreshes?$top={$top} ', auth=('user', 'pass')) r.status_code Notebook、DLT、Python wheelタスクによるジョブ(DAG) Power BIのデータセットのアップデート Python Wheel SQLServerから顧客データをコピーノートブックスタースキーマモデルの作成 Delta Live Tables SQLServerから注文データをコピーノートブック SQLServerから地域データをコピーノートブック

Databricks におけるデータエンジニアリング

Databricks におけるデータエンジニアリング

More Decks by Databricks Japan

Other Decks in Technology

Featured

Transcript