Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

Databricks におけるデータエンジニアリング

Databricks におけるデータエンジニアリング

Databricksにおけるデータエンジニアリングについて説明します。

Databricks Japan

April 12, 2024
Tweet

More Decks by Databricks Japan

Other Decks in Technology

Transcript

  1. ©2023 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明

    (やよい たかあき) Databricks アカウントSA部 部長 ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 @taka_aki
  2. ©2023 Databricks Inc. — All rights reserved イベントのご案内 JEDAI 2023

    X'mas/忘年会 Meetup! 日時: 2023年12月8日(金)18:30 場所: 東京コンベンションホール 東京スクエアガーデン5F (https://www.tokyo.conventionhall.jp/) イベント概要: 2023年を締めくくる、X'mas & 忘年会 のユーザーミート アップを開催いたします!昨年末のChatGPTの登場以来、我々が 活動するData + AIの市場はこれまでに無い盛り上がりを見せてま す。当日はユーザーさまのライトニングトークに加え、これまでの JEDAIにおける活動の振り返りや今後の活動方針のシェア、そし て2023年度のJEDAI Certificatation Rank (Master, Knight, Padawan, Initiate)の発表をいたします!会場のキャパシティも限 りがありますので、是非お早めにご登録ください!
  3. ©2023 Databricks Inc. — All rights reserved 6000+ の従業員 $1.5B+

    の収益 $4B の投資 レイクハウスの発明者 & 生成AIのパイオニア Gartnerに認知されるリーダー Database Management Systems Data Science and Machine Learning Platforms データ & AIカンパニー のクリエイター
  4. ©2023 Databricks Inc. — All rights reserved データ + AI

    カンパニー がすべての業界で勝者に
  5. ©2023 Databricks Inc. — All rights reserved すべてのフライトのデジタルツ インをモデリングするためにAI を活用

    オペレーション、メンテナンス、 カスタマーサービス横断で統合 された意思決定を提供 AIで182Mのワイアレス利用者と 15Mの家庭ブロードバンドを 保護 予測アプリケーションが 不正が起きる前に リアルタイムで80%の不正をス トップ AIでローンアプリケーション 体験をシンプルに パーソナライズされたアプリ ケーションを通じて40,000の スモールビジネスに対する $1.4Bのローンを促進
  6. ©2023 Databricks Inc. — All rights reserved 多くの企業はこのビジョンの 実現に苦戦しています データレイク

    オーケストレーション & ETL データ ウェアハウス ガバナンス 機械学習 ストリーミング BI データサイエンス 生成 AI
  7. ©2023 Databricks Inc. — All rights reserved 多くの企業はこのビジョンの 実現に苦戦しています データレイク

    オーケストレーション & ETL データ ウェアハウス ガバナンス 機械学習 ストリーミング BI データサイエンス 生成 AI サイロ化された データ、AI ガバナンス AIがもたらすデータ プライバシー& コントロールの課題 高度に技術的な スタッフへの依存
  8. ©2023 Databricks Inc. — All rights reserved データレイクハウス すべてのデータに対するオープンで統合された基盤 オープンデータレイク

    すべての生データ (ログ、テキスト、音声、動画、画像) Databricksが レイクハウス アーキテクチャを発明 2020 統合セキュリティ、ガバナンス、カタログ 信頼性と共有のための統合データストレージ ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Databricks AI Delta Live Tables Workflows Databricks SQL Unity Catalog Delta Lake グローバル企業の 74% がレイクハウスを導 入 現在 MIT Technology Review Insights, 2023
  9. ©2023 Databricks Inc. — All rights reserved すべてのデータに対するオープンで 統合された基盤 データレイクハウス

    データとAIを容易にスケール、活用 生成AI 皆様の組織全体のデータ + AIを民主化 データインテリジェンス プラットフォーム
  10. ©2023 Databricks Inc. — All rights reserved すべての生データ (ログ、テキスト、音声、動画、画像) ETL

    & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Databricks AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog 信頼性と共有のための統合データストレージ Delta Lake Databricksデータインテリジェンスプラットフォーム オープンデータレイク
  11. ©2023 Databricks Inc. — All rights reserved ETL & リアルタイム分析

    オーケストレーション データウェアハウス データサイエンス & AI Databricks AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog Databricksデータインテリジェンスプラットフォーム 信頼性と共有のための統合データストレージ Delta Lake あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像) Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウトを最適化 Databricks SQL テキストからSQL Workflows 過去の処理に基づく ジョブコストの最適化 Delta Live Tables データ品質の自動化 Databricks AI カスタムLLMの作成チュー ニング、提供
  12. ©2023 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム Databricks AI

    生成AI • カスタムモデル • モデルサービング • RAG エンドツーエンドAI • MLOps (MLflow) • AutoML • モニタリング • ガバナンス あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像) Databricks SQL テキストからSQL Workflows 過去の処理に基づく ジョブコストの最適化 Delta Live Tables データ品質の自動化 Databricks AI カスタムLLMの作成チュー ニング、提供 Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウトを最適化
  13. ©2023 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム あなたのデータのセマンティクスを理解するために データインテリジェンスエンジ

    オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画 Workflo 過去の処理に ジョブコストの Delta Live Tables データ品質の自動化 Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウト Databricks AI カスタムLLMの作成チュー ニング、提供 オペレーション 財務 マーケティング カスタマー サービス どうすれば 組織の皆に データとAIを展開 できるのか? “Project Genie” 自然言語で誰でもデータや AIを活用
  14. ©2023 Databricks Inc. — All rights reserved データインテリジェンスプラットフォームによる 真のデータとAIの民主化の実現 シンプル

    自然言語が使いやすさと効率性を全員に提供 インテリジェント あなたのデータを理解するためにE2EでAIがインテグレーション プライベート プライベートデータを用いて容易にカスタムモデルを構築
  15. ©2023 Databricks Inc. — All rights reserved レイクハウスで実現するML/BI/ETL 同じデータですべてのワークロードを実現 •

    機械学習モデルの開発、運用 • 大量データに対するBI • データパイプラインの開発、運用 Delta LakeとUnity Catalogで実現する データレイクハウス • 容量無制限かつ安価なストレージ • DWH以上のパフォーマンス • バッチ処理、ストリーム処理への対応 • トランザクション保証 • すべてのデータに対するガバナンス(権限管理/ 監査/リネージ) Unity Catalog データサイエンス/ 機械学習(ML) BI/DWH データ エンジニアリング/ ETL ビジネス アナリスト データ エンジニア データ サイエンティスト
  16. ©2023 Databricks Inc. — All rights reserved レイクハウスガバナンスのための Unity Catalog

    すべてのデータ資産のガバナンス、管理 • ウェアハウス、テーブル、カラム • データレイク、ファイル • 機械学習モデル • ダッシュボード、ノートブック 機能 • データリネージ • 属性ベースのアクセス制御 • セキュリティポリシー • テーブル、カラムレベルのタグ • 監査 • データ共有
  17. ©2023 Databricks Inc. — All rights reserved DatabricksにおけるML & データサイエンス

    機械学習 • モデルレジストリ、再現性、本格運用への 投入 • 再現性確保にDelta Lakeを活用 • シチズンデータサイエンティストのための AutoML データサイエンス • インタラクティブ分析向けコラボレーティブ ノートブック、ダッシュボード • Python、SQL、Java、R、Scalaの ネイティブサポート • Delta Lakeデータのネイティブサポート
  18. ©2023 Databricks Inc. — All rights reserved Databricksにおけるデータエンジニアリング • Databricksワークフローによるデータ

    オーケストレーション • Delta Live Tablesによる完全なデータパ イプラインの管理 • Delta Lakeによるキュレーテッド データレイクアプローチを通じて データエンジニアリングをシンプルに
  19. ©2023 Databricks Inc. — All rights reserved DatabricksにおけるSQLワークロード • Delta

    LakeにおけるBI、SQLワークロー ドの優れた性能、同時実行性 • 分析に適したネイティブSQLインタフェー ス • Delta Lakeの最新データに直接 クエリーすることによるBIツールの サポート
  20. ©2023 Databricks Inc. — All rights reserved データエンジニアリングとは 分析などでデータを活用できるようにするための営みです データエンジニアリングとは、様々なソースや

    フォーマットで提供される生のデータを収集、分析 できるようにするシステムの設計、構築に関するプ ロセスを意味します。このようなシステムによって、 ユーザーはビジネスの成長につながる実践的な データアプリケーションを作り出すことが可能となり ます。 23 What Is Data Engineering?
  21. ©2023 Databricks Inc. — All rights reserved データエンジニアリングとは なぜ、データエンジニアリングが重要なのでしょうか? 企業の規模に関係なく、すべての企業が重要なビジネス上の質問に回答するために調査する必

    要がある膨大な量の様々なデータを所有しています。データエンジニアリングは、 アナリスト、データサイエンティスト、エグゼクティブのようなデータ利用者がすべてのデータを信 頼しながら、クイックかつセキュアに調査できるようにするためのプロセスをサポートすることを目 的としています。 データが様々テクノロジーによって管理され、多様な構造で格納されているため、データアナリス トは課題に直面にしています。さらに、分析で使用するツールはデータが同じテクノロジーで管理 され、同じ構造で格納されていることを前提としています。 24 What Is Data Engineering?
  22. ©2023 Databricks Inc. — All rights reserved データエンジニアリングとは なぜ、データエンジニアリングが重要なのでしょうか? 例えば、あるブランドが顧客に関して収集するすべてのデータを考えてみます:

    • あるシステムには請求と出荷が格納されています。 • 別のシステムでは注文履歴を保持しています。 • そして、他のシステムではカスタマーサポート、行動情報、サードパーティデータが格納されて います。 全体的にはこのデータは顧客の包括的なビューを提供します。しかし、これらの様々なデータ セットは独立しており、「どのようなタイプの注文が最も高価なカスタマーサポートのコストにつな がったのか」という特定の質問への回答が非常に困難になります。 データエンジニアリングでは、これらのデータセットを統合し、あなたの質問をクイックかつ効率的 に回答できるようにします。 25 What Is Data Engineering?
  23. ©2023 Databricks Inc. — All rights reserved データエンジニアリングとは データエンジニアは何をするのでしょうか? データエンジニアリングは、需要の高まっているスキルです。データエンジニアは、データを統合

    し、あなたたちがナビゲートする助けとなるシステムを設計する人たちです。データエンジニアは 以下を含む様々なタスクを実行します: • 取得:ビジネスに関連するすべての様々なデータセットを特定します • クレンジング:データにおけるすべてのエラーを特定し、綺麗にします • 変換:すべてのデータに共通的なフォーマットを与えます • 曖昧性の除去:複数の方法で解釈し得るデータを解釈します • 重複排除:データの重複したコピーを排除します これらが完了すると、データレイクやデータレイクハウスのような中央リポジトリにデータを格納す ることができます。また、データエンジニアはデータのサブセットをデータウェアハウスにコピー、 移動することができます。 26 What Is Data Engineering?
  24. ©2023 Databricks Inc. — All rights reserved データエンジニアリングとは データエンジニアリングのツールとスキル データエンジニアは以下を含む様々なツールとテクノロジーを扱います:

    • ETLツール: ETL(抽出、変換、ロード)ツールはシステム間でデータを移動します。データにアク セスし、分析により適した形にするためにデータを変換します。 • SQL: 構造化クエリー言語(SQL)はリレーショナルデータベースへのクエリーにおける標準言 語です。 • Python: Pythonは汎用プログラミング言語です。データエンジニアはETLタスクでPythonを使 うことがあります。 • クラウドデータストレージ: Amazon S3、Azure Data Lake Storage(ADLS)、Google Cloud Storageなど • クエリーエンジン: 回答を得るためにデータに対してクエリーを実行するエンジン。データエンジ ニアは、Dremio Sonar、Spark、Flinkなどのエンジンを取り扱います。 27 What Is Data Engineering?
  25. ©2023 Databricks Inc. — All rights reserved Extract(抽出) ソースシステムからデータをExtract(抽出)します 30

    • 最初のステップは、業務システム、API、センサーデータ、マーケティングツール、トランザクショ ンデータベースなど、さまざまなソースからのデータの抽出を行います。これらのデータタイプ には、広く使用されている構造化データであることもあれば、半構造化のJSON形式の可能性 もあります。抽出には、次のような3つの手法があります。 • 更新通知:最も簡単なデータの取得方法はレコード変更時にソースシステムによって通知さ れる場合です。 • 増分抽出: 全てのシステムが更新を通知できるわけではありませんが、特定の期間に変 更されたレコードを指定し、それらのレコードを抽出できます。 • 完全抽出:変更されたデータをまったく特定できないシステムがあります。この場合、完全 抽出によってのみシステムからデータを抽出できる可能性があります。
  26. ©2023 Databricks Inc. — All rights reserved Transform(変換) ロードする形式にデータをTransform(変換)します 31

    • 次のステップは、ソースから抽出された未加工のデータを、別のアプリケーションで使用できる 形式への変換です。運用上のニーズを満たすために、データのクレンジング、マッピング、変 換(多く場合、特定のデータスキーマに変換)が行われます。 • 変換プロセスでは、データの品質と整合性を確保するために、いくつかのタイプの変換が行わ れます。データは通常、ターゲットデータウェアハウスに直接ロードされず、ステージングデー タベースにアップロードされるのが一般的です。 • このステップにより、計画どおりに処理が行われない場合の迅速なロールバックを保証しま す。この段階において、規制遵守に関する監査レポートを作成したり、データの問題を診断し て修復したりすることができます。
  27. ©2023 Databricks Inc. — All rights reserved Load(ロード) ターゲットシステムにデータをLoad(ロード)します 32

    • 最後に、ロード機能は変換されたデータをステージング領域からターゲットデータベースに書 き込むプロセスです。 • ターゲットデータベースには、データが以前に存在していた場合とそうでない場合があります。 アプリケーションの要件に応じて、このプロセスは非常に単純にも、複雑にもなり得ます。これ らの各ステップは、ETL ツールやカスタムコードで実行可能です。
  28. ©2023 Databricks Inc. — All rights reserved データ 取り込み 最適化Spark

    COPY INTO Auto Loader 生の取り込みデータ 履歴 Bronze 整理されたデータ フィルタリング クレンジング、拡張 Silver ビジネスレベルの 集計データ Gold Photon ETL ストリーミング 最適化Spark Python, SQL, Scala, R ジョブ スケジューラ 揮発性 クラスター バッチ取り込みと オーケストレーション ストリーミング イベント クラウドの取り込み オプションの サービング レイヤー DatabricksにおけるETL処理
  29. ©2023 Databricks Inc. — All rights reserved メダリオンアーキテクチャとは ETLパイプラインを設計・構築する際の整理学です 35

    • メダリオンアーキテクチャは、レイクハウスに格納されているデータの品質を示す一連のデー タレイヤーを表現します。 • 企業のデータプロダクトに対して信頼できる唯一の情報源(single source of truth)を構築す るために、Databricksではマルチレイヤーのアプローチを取ることをお勧めしています。 • このアーキテクチャは、公立的な分析に最適化されたレイアウトでデータ格納される前の検 証、変換を行う複数のレイヤーをデータが追加する際の、原子性、一貫性、分離性、耐久性を 保証します。ブロンズ(生)、シルバー(検証済み)、ゴールド(拡張済み)という用語はそれぞれ のレイヤーにおけるデータの品質を表現しています。
  30. ©2023 Databricks Inc. — All rights reserved メダリオンアーキテクチャ CSV JSON

    TXT Bronze Silver Gold AIやレポート ストリーミング分析 データ品質 Databricks Auto Loader
  31. ©2023 Databricks Inc. — All rights reserved メダリオンアーキテクチャ ブロンズレイヤー 通常は取り込みデータの生のコピー

    従来のデータレイクを置き換え 完全かつ未処理のデータ履歴に対する効率的なストレージを提供しクエ リーを可能に 37 Bronze
  32. ©2023 Databricks Inc. — All rights reserved メダリオンアーキテクチャ シルバーレイヤー データストレージの複雑性、レーテンシー、冗長性を削減

    ETLのスループットやクエリー性能を最適化 オリジナルデータの粒度を保持 (集計なし) 重複レコードの排除 プロダクションのスキーマを強制 データ品質のチェック、破損データの検疫 38 Silver
  33. ©2023 Databricks Inc. — All rights reserved メダリオンアーキテクチャ ゴールドレイヤー MLアプリケーション、レポート、ダッシュボード、

    アドホック分析を支援 通常は集計を用いて洗練されたデータビューを提供 プロダクションシステムの負荷を軽減 ビジネス上重要なデータのクエリー性能を最適化 39 Gold
  34. 連続あるいは スケジュールによ るデータ 取り込み 宣言型ETL パイプライン データ品質検証 および モニタリング データ

    パイプラインの観 測可能性 オートスケーリン グおよび 耐障害性 自動デプロイ オペレーション パイプライン& ワークフローの オーケストレー ション チェンジデータ キャプチャー Databricksでデータエンジニアリングを成功させる鍵となる差別 化要因
  35. • 「どのように」を抽象化し「何を」解くのかを定義す る、意図に基づく宣言型開発を使用 • 自動で高品質なリネージュを作成し、データパイプ ラインのテーブルの依存関係を管理 • エラー、依存関係の欠如、文法エラーを自動で チェックし、パイプラインのリカバリーを管理 /*

    アカウントテーブルの一時ビューを作成 */ CREATE INCREMENTAL LIVE VIEW account_raw AS SELECT * FROM cloud_files(“/data”, “csv”); /* ステージ 1: ブロンズテーブルで不適切な行を削除 */ CREATE INCREMENTAL LIVE TABLE account_bronze AS COMMENT "適切なIDのアカウントを含むブロンズテーブル " SELECT * FROM fire_account_raw ... /* ステージ 2:シルバーに行を送信し、妥当性チェックを適用 */ CREATE INCREMENTAL LIVE TABLE account_silver AS COMMENT "妥当性チェックを行なったシルバーアカウント " SELECT * FROM fire_account_bronze ... ブロンズ シルバー ゴールド ソース Delta Live Tablesによる宣言型ETLパイプライン
  36. ブロンズ シルバー CDC経由 UPSERT CDC経由 UPSERT CDC経由 UPSERT ストリーミング ソース

    クラウドオブ ジェクトスト レージ 構造化データ 非構造化 データ 準構造化 データ データ移行 サービス データソー ス • DBR、クラウドストレージ、DBFSでサポートされて いる任意のデータの行レベルの変更をキャプ チャー • よりシンプルなアーキテクチャ: シンプルかつインク リメンタルなパイプラインの構築 • 順序が守られていないイベントのハンドリング • スキーマ進化 • シンプルかつ宣言型の「APPLY CHANGES INTO」 APIを用いた変更レコード(insert、update、 delete)のインクリメンタルな処理 Delta Live Tablesによるチェンジデータキャプチャー(CDC)
  37. Delta Live Tablesによるデータ品質検証およびモニタリング ▪ データエクスペクテーションでパイプラインにおけ るデータ品質、完全性を定義 ▪ 柔軟なポリシーによるデータ品質エラーへの対応 (失敗、削除、警告、検疫) ▪

    全てのデータパイプライン実行と品質メトリクスを 記録、追跡、レポート /* ステージ 1: ブロンズテーブルで不正な行を削除 */ CREATE INCREMENTAL LIVE TABLE fire_account_bronze AS ( CONSTRAINT valid_account_open_dt EXPECT (acconut_dt is not null and (account_close_dt > account_open_dt)) ON VIOLATION DROP ROW COMMENT "適切なアカウントIDを含むブロンズテーブル" SELECT * FROM fire_account_raw ...
  38. ©2023 Databricks Inc. — All rights reserved Databricksワークフローとは? すべてのクラウドで誰もが高信頼のデータ、分析、AIワークフローを構築できる 完全マネージドのレイクハウスオーケストレーションサービス

    完全マネージド 完全マネージドのオーケストレー ションサービスによって運用オー バーヘッドを取り除くことで、イン フラストラクチャの管理ではなく ワークロード自身にフォーカス。 プラットフォームと密接に インテグレーション お使いのレイクハウスプラット フォーム向けに設計され組み込 まれているので、すべてのワー クフローに対する深いモニタリン グ機能と集中管理された観測能 力を提供。 何でもどこでも オーケストレーション すべてのクラウドで完全なデータ とAIのライフサイクルにおける 様々なワークロードを実行。 Delta Live Tables、SQL、 Spark、ノートブック、dbt、MLモ デルなどのジョブをオーケスト レーション。 シンプルなワークフロー作成 特殊スキルを持つ人に限らず データチームの誰でも活用でき る簡単なポイント&クリックの作 成体験。 データ、分析、AIのための高信頼オーケストレーション 立証された信頼性 AWS、Azure、GCPで日々実行 されている数千万のプロダクショ ンワークロードで立証された信 頼性に基づいて安心してワーク ロードを実行。 https://www.databricks.com/jp/product/workflows
  39. ©2023 Databricks Inc. — All rights reserved Databricksワークフロー - ワークフロージョブ

    49 ▪ これは何? DAGによる容易なコードの作成、スケジュール、オー ケストレーション (有効非巡回グラフ) ▪ キーとなる機能 ▪ シンプルさ: UIでの容易な作成とモニタリング ▪ ワークロードに合わせた多数のタスク タイプ ▪ プラットフォームに完全にインテグレーションされて おり、結果の調査とデバッグを迅速に ▪ 立証されたDatabricksスケジューラの信頼性 ▪ 容易にステータスをモニタリングする観測可能性 ワーク フロー ジョブ タスクの DAG
  40. ©2023 Databricks Inc. — All rights reserved Databricksジョブのサンプル Notebook、DLT、Python wheelタスクによるジョブ(DAG)

    50 Power BIのデータ セットのアップデー ト Python Wheel SQLServerから顧 客データをコピー ノートブック スタースキーマ モデルの作成 Delta Live Tables SQLServerから注 文データをコピー ノートブック SQLServerから地 域データをコピー ノートブック カスタムライブラリを用いた Databricksクラスター
  41. ©2023 Databricks Inc. — All rights reserved Databricksジョブのサンプル 51 Databricksノートブック(Python、SQL、Scala)

    Notebook、DLT、Python wheelタスクによるジョブ(DAG) Power BIのデータ セットのアップデー ト Python Wheel SQLServerから顧 客データをコピー ノートブック スタースキーマ モデルの作成 Delta Live Tables SQLServerから注 文データをコピー ノートブック SQLServerから地 域データをコピー ノートブック
  42. ©2023 Databricks Inc. — All rights reserved Databricksジョブのサンプル 52 Delta

    Live Tablesパイプライン(Triggeredモード) Notebook、DLT、Python wheelタスクによるジョブ(DAG) Power BIのデータ セットのアップデー ト Python Wheel SQLServerから顧 客データをコピー ノートブック スタースキーマ モデルの作成 Delta Live Tables SQLServerから注 文データをコピー ノートブック SQLServerから地 域データをコピー ノートブック
  43. ©2023 Databricks Inc. — All rights reserved Databricksジョブのサンプル 53 dbtパイプライン

    Notebook、DLT、Python wheelタスクによるジョブ(DAG) Power BIのデータ セットのアップデー ト Python Wheel SQLServerから顧 客データをコピー ノートブック スタースキーマ モデルの作成 Delta Live Tables SQLServerから注 文データをコピー ノートブック SQLServerから地 域データをコピー ノートブック
  44. ©2023 Databricks Inc. — All rights reserved Databricksジョブのサンプル 54 Power

    BIデータセットに対するAPIコールを 行うPython wheel import requests r = requests.get('https://docs.microsoft.com/en-us/ resGET https://api.powerbi.com/v1.0/myorg/groups/{grou pId}/datasets/{datasetId}/refreshes?$top={$top} ', auth=('user', 'pass')) r.status_code Notebook、DLT、Python wheelタスクによるジョブ(DAG) Power BIのデータ セットのアップデー ト Python Wheel SQLServerから顧 客データをコピー ノートブック スタースキーマ モデルの作成 Delta Live Tables SQLServerから注 文データをコピー ノートブック SQLServerから地 域データをコピー ノートブック
  45. ©2023 Databricks Inc. — All rights reserved 複数タスクのジョブの作成 55 タスクタイプを選択:

    • ノートブック • Jar • Spark Submit • Python • Delta Live Tables • Python Wheel • dbt • Databricks SQL