Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

コアコンセプトとノートブックサンプルを通じたDatabricksのご紹介

 コアコンセプトとノートブックサンプルを通じたDatabricksのご紹介

以下のトピックをカバーしています。

- ETL開発サイクル
- アカウントとワークスペース
- Databricksユニット
- メダリオンアーキテクチャ
- Unity Catalog
- Delta Live Tables
- Databricksワークフロー

Takaaki Yayoi

June 17, 2024
Tweet

More Decks by Takaaki Yayoi

Other Decks in Technology

Transcript

  1. ©2024 Databricks Inc. — All rights reserved 1 Databricks勉強会 データブリックス・ジャパン株式会社

    2024年6月17日 コアコンセプトとノートブックサンプルを 通じたDatabricksのご紹介
  2. ©2024 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明

    (やよい たかあき) Databricksソリューションアーキテクト ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki
  3. Learning Spark 2nd Editionの翻訳 + αの内容となっています! Apache Spark徹底入門発売中! 本書は、ビッグデータを主な対象としたデータ分析フレームワークである Apache

    Spark、MLflow、Delta Lakeの中級入門書です。「動かしてみる」だけではなく、どのような仕組みになっているのか、 どうすれば効率的な実装が行えるかまで踏み込みつつ、データ AIの実装者がApache Spark、MLflow およびDelta Lakeを使いこなすための解説を行います。 • Python、SQL、Scala、またはJavaの高レベルの構造化 APIの学習 • Spark の操作とSQLエンジンの理解 • Spark 構成とSpark UIを使用したSpark操作の検査、調整、デバッグ • JSON、Parquet、CSV、Avro、ORC、Hive、S3、またはKafkaといったデータ ソースへの接続 • 構造化ストリーミングを使用してバッチ データとストリーミング データの 分析を実施 • オープンソースの Delta LakeとSparkを使用して信頼性の高いデータ パイプラインを構築 • MLlibを使用する機械学習パイプラインの開発、 MLflowを使用するモデルの 管理、本番化 • [日本語版オリジナルコンテンツ ]pandas dataframe、spark dataframeに関する 各種データフレームの使い分け • [日本語版オリジナルコンテンツ ]LLMやEnglish SDK for SparkなどAIを活用 した新たなコーディングスタイル、 LLMの利用方法の実践
  4. アジェンダ • Databricksとは • Databricksの使い方 • Databricksのコアコンセプト ◦ ETL開発サイクル ◦

    アカウントとワークスペース ◦ Databricksユニット ◦ メダリオンアーキテクチャ ◦ Unity Catalog ◦ Delta Live Tables ◦ Databricksワークフロー • Databricksを用いたデータ分析
  5. ©2024 Databricks Inc. — All rights reserved 6000+ の従業員 $1.5B+

    の収益 $4B の投資 レイクハウスの発明者 & 生成AIのパイオニア Gartnerに認知されるリーダー Database Management Systems データ & AIカンパニー のクリエイター
  6. ©2024 Databricks Inc. — All rights reserved データレイクハウス すべてのデータに対するオープンで統合された基盤 オープンデータレイク

    すべての生データ (ログ、テキスト、音声、動画、画像) Databricksが レイクハウス アーキテクチャを発明 2020 統合セキュリティ、ガバナンス、カタログ 信頼性と共有のための統合データストレージ ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Databricks AI Delta Live Tables Workflows Databricks SQL Unity Catalog Delta Lake グローバル企業の 74% がレイクハウスを導 入 現在 MIT Technology Review Insights, 2023
  7. ©2024 Databricks Inc. — All rights reserved すべてのデータに対するオープンで 統合された基盤 データレイクハウス

    データとAIを容易にスケール、活用 生成AI 皆様の組織全体のデータ + AIを民主化 データインテリジェンス プラットフォーム
  8. ©2024 Databricks Inc. — All rights reserved すべての生データ (ログ、テキスト、音声、動画、画像 )

    ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog 信頼性と共有のための統合データストレージ Delta Lake Databricksデータインテリジェンスプラットフォーム オープンデータレイク
  9. ©2024 Databricks Inc. — All rights reserved ETL & リアルタイム分析

    オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog Databricksデータインテリジェンスプラットフォーム 信頼性と共有のための統合データストレージ Delta Lake あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 )
  10. ©2024 Databricks Inc. — All rights reserved ETL & リアルタイム分析

    オーケストレーション データウェアハウス データサイエンス & AI Databricks AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog Databricksデータインテリジェンスプラットフォーム 信頼性と共有のための統合データストレージ Delta Lake あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 ) Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウトを最適化 Databricks SQL テキストからSQL Workflows 過去の処理に基づく ジョブコストの最適化 Delta Live Tables データ品質の自動化 Mosaic AI カスタムLLMの作成チュー ニング、提供
  11. ©2024 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム Databricks AI

    生成AI • カスタムモデル • モデルサービング • RAG エンドツーエンドAI • MLOps (MLflow) • AutoML • モニタリング • ガバナンス あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 ) Databricks SQL テキストからSQL Workflows 過去の処理に基づく ジョブコストの最適化 Delta Live Tables データ品質の自動化 Mosaic AI カスタムLLMの作成チュー ニング、提供 Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウトを最適化
  12. ©2024 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム あなたのデータのセマンティクスを理解するために データインテリジェンスエンジ

    オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 Workflo 過去の処理に ジョブコストの Delta Live Tables データ品質の自動化 Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウト Mosaic AI カスタムLLMの作成チュー ニング、提供 オペレーション 財務 マーケティング カスタマー サービス どうすれば 組織の皆に データとAIを展開 できるのか? “Project Genie” 自然言語で誰でもデータや AIを活用
  13. ©2024 Databricks Inc. — All rights reserved レイクハウスで実現するML/BI/ETL 同じデータですべてのワークロードを実現 •

    機械学習モデルの開発、運用 • 大量データに対するBI • データパイプラインの開発、運用 Delta LakeとUnity Catalogで実現する データレイクハウス • 容量無制限かつ安価なストレージ • DWH以上のパフォーマンス • バッチ処理、ストリーム処理への対応 • トランザクション保証 • すべてのデータに対するガバナンス(権限管理/ 監査/リネージ) Unity Catalog データサイエンス / 機械学習(ML) BI/DWH データ エンジニアリング / ETL ビジネス アナリスト データ エンジニア データ サイエンティスト
  14. ©2024 Databricks Inc. — All rights reserved レイクハウスガバナンスのための Unity Catalog

    すべてのデータ資産のガバナンス、管理 • ウェアハウス、テーブル、カラム • データレイク、ファイル • 機械学習モデル • ダッシュボード、ノートブック 機能 • データリネージ • 属性ベースのアクセス制御 • セキュリティポリシー • テーブル、カラムレベルのタグ • 監査 • データ共有
  15. ©2024 Databricks Inc. — All rights reserved DatabricksにおけるML & データサイエンス

    機械学習 • モデルレジストリ、再現性、本格運用への 投入 • 再現性確保にDelta Lakeを活用 • シチズンデータサイエンティストのための AutoML データサイエンス • インタラクティブ分析向けコラボレーティブ ノートブック、ダッシュボード • Python、R、SQL、Scalaのネイティブサ ポート • Delta Lakeデータのネイティブサポート
  16. ©2024 Databricks Inc. — All rights reserved Databricksにおけるデータエンジニアリング • Databricksワークフローによるデータ

    オーケストレーション • Delta Live Tablesによる完全なデータパ イプラインの管理 • Delta Lakeによるキュレーテッド データレイクアプローチを通じて データエンジニアリングをシンプルに
  17. ©2024 Databricks Inc. — All rights reserved DatabricksにおけるSQLワークロード • Delta

    LakeにおけるBI、SQLワークロー ドの優れた性能、同時実行性 • 分析に適したネイティブSQLインタフェー ス • Delta Lakeの最新データに直接 クエリーすることによるBIツールの サポート
  18. アジェンダ • Databricksとは • Databricksの使い方 • Databricksのコアコンセプト ◦ ETL開発サイクル ◦

    アカウントとワークスペース ◦ Databricksユニット ◦ メダリオンアーキテクチャ ◦ Unity Catalog ◦ Delta Live Tables ◦ Databricksワークフロー • Databricksを用いたデータ分析
  19. ©2024 Databricks Inc. — All rights reserved Databricksクラスター Best Practice

    Databricksにおける一番無駄なコストは「使っていな いクラスターを起動しておく」ことです。 自動停止の設定を活用しましょう。
  20. ©2024 Databricks Inc. — All rights reserved ノートブックをクラスターにアタッチ Best Practice

    プログラムを実行する際にのみクラスターが必要と なります。プログラムの修正を行う際はクラスター は不要です。
  21. アジェンダ • Databricksとは • Databricksの使い方 • Databricksのコアコンセプト ◦ ETL開発サイクル ◦

    アカウントとワークスペース ◦ Databricksユニット ◦ メダリオンアーキテクチャ ◦ Unity Catalog ◦ Delta Live Tables ◦ Databricksワークフロー • Databricksを用いたデータ分析
  22. ©2024 Databricks Inc. — All rights reserved ETL開発サイクル データ 取り込み

    最適化Spark COPY INTO Auto Loader 生の取り込みデータ 履歴 Bronze フィルタリング クレンジング、拡張 Silver ビジネスレベルの 集計データ Gold Databricksワークフロー ETL ストリーミング 最適化Spark Photon Python, SQL, Scala, R ジョブ スケジューラ 揮発性 クラスター バッチ取り込みと オーケストレーション ストリーミング イベント クラウドの取り込み サービング レイヤー(オプション) ガバナンス 計算リソース メダリオン アーキテクチャ Unity Catalog
  23. ©2024 Databricks Inc. — All rights reserved Databricks - プラットフォーム製品とコンピュート

    Databricks製品 クラウド コンピュート • Databricksプラットフォー ム製品を起動する際、 お 客様のクラウド アカウント内に コンピュートのインフラを 配備します。 • クラウドコンピュートのコス トはDatabricksのコストと は別であり Databricksの 価格*の 要素ではありません (サー バレス製品は除く) * サーバレスのDBUにおいては、クラウドコンピュートは Databricksのアカウントに存在し、このコストをお客様に請求します。 Databricks サーバレス 製品 Databricksアカウント クラウドコンピュート 非サーバレス サーバレス
  24. ©2024 Databricks Inc. — All rights reserved DBUとは? ▪ Databrick

    Unit (DBU)は処理能力に対して正規化された単位です ▪ Databricks製品のほとんどがDBUで課金されます ▪ Databricksの消費量/使用量を計測するために DBUを使用しています ▪ 消費されるDBUの数は、使用された計算リソースによって決定されます ▪ $DBU/hourは特定の製品の時間あたりの価格です 注意事項: よりパワフルなクラウドコンピュートほど、 時間あたりのDBUが増加します
  25. ©2024 Databricks Inc. — All rights reserved Databricks Unit (DBU)は時間あたりの処理能力の単位であり、秒単位で課金されます

    ▪ Databricksクラスターの起動で課金 ▪ アイドル状態のプールインスタンスではDBU課金されません (AzureのVMコストは発生します) ドライバー DS3_v2 ワーカー DS3_v2 ワーカー DS3_v2 ワーカー DS3_v2 2時間 4ノード (1ドライバー + 3ワーカー) x 2時間 = 8 DBU 合計コスト = 8 DBUのコスト + DS3_v2の8 インスタンス時間のAzureコスト Azure Databricksのコスト - DBU
  26. ©2024 Databricks Inc. — All rights reserved 課金モデル • 使用量に応じてスケールする課金モデルに基づく柔軟な消費が可能に。

    • Databricks Unit (DBU)を消費するクラスターやSQLウェアハウスを用いる際に コストが発生します。 • DBUあたりの金額はワークスペースの課金プラン(スタンダートやプレミアム)と コンピュートの選択肢(インタラクティブ、ジョブ、SQLウェアハウスなど)に 依存します。 • 他のAzureサービスと一緒に請求されます。 • コンピュートのインスタンスが実行されていない際にはDBUは課金されません。
  27. ©2024 Databricks Inc. — All rights reserved ETL開発サイクル データ 取り込み

    最適化Spark COPY INTO Auto Loader 生の取り込みデータ 履歴 Bronze フィルタリング クレンジング、拡張 Silver ビジネスレベルの 集計データ Gold Databricksワークフロー ETL ストリーミング 最適化Spark Photon Python, SQL, Scala, R ジョブ スケジューラ 揮発性 クラスター バッチ取り込みと オーケストレーション ストリーミング イベント クラウドの取り込み サービング レイヤー(オプション) ガバナンス 計算リソース メダリオン アーキテクチャ Unity Catalog
  28. ©2024 Databricks Inc. — All rights reserved レイクハウスにおけるマルチホップ CSV JSON

    TXT Bronze Silver Gold AIやレポート ストリーミング分析 データ品質 Databricks Auto Loader
  29. ©2024 Databricks Inc. — All rights reserved レイクハウスにおけるマルチホップ ブロンズレイヤー 通常は取り込みデータの生のコピー

    従来のデータレイクを置き換え 完全かつ未処理のデータ履歴に対する効率的なストレージを提供しクエ リーを可能に 40 Bronze
  30. ©2024 Databricks Inc. — All rights reserved レイクハウスにおけるマルチホップ シルバーレイヤー データストレージの複雑性、レーテンシー、冗長性を削減

    ETLのスループットやクエリー性能を最適化 オリジナルデータの粒度を保持 (集計なし) 重複レコードの排除 プロダクションのスキーマを強制 データ品質のチェック、破損データの検疫 41 Silver
  31. ©2024 Databricks Inc. — All rights reserved レイクハウスにおけるマルチホップ ゴールドレイヤー MLアプリケーション、レポート、ダッシュボード、

    アドホック分析を支援 通常は集計を用いて洗練されたデータビューを提供 プロダクションシステムの負荷を軽減 ビジネス上重要なデータのクエリー性能を最適化 42 Gold
  32. ©2024 Databricks Inc. — All rights reserved ファイルに対する権限 テーブル、ビューに対する権限 テーブル、カラム、行に対する権限

    行列レベルの権限の不在 ポリシー変更時の柔軟性の欠如 データとの同期のずれ 異なるガバナンスモデル さらに異なるガバナンスモデル データレイク メタデータ データウェアハウス MLモデル ダッシュボード データとAIのガバナンスは複雑です MLモデル、ダッシュボード、特徴量など に対する権限 データ アナリスト データ エンジニア データ サイエンティスト 44
  33. ©2024 Databricks Inc. — All rights reserved Databricks Unity Catalog

    Unity Catalog データレイク メタデータ データウェアハウス MLモデル ダッシュボード データ アナリスト データ エンジニア データ サイエンティスト 45 データ、分析、AIに対する統合ガバナンス
  34. ©2024 Databricks Inc. — All rights reserved 46 Lakehouse Platform

    Data Warehousing Data Engineering Data Science and ML Data Streaming All structured and unstructured data Cloud Data Lake Unity Catalog Fine-grained governance for data and AI Delta Lake Data reliability and performance Databricks Unity Catalog データ、分析、AIに対する統合ガバナンス • クラウド横断のデータマッピング、保護、監査 • オープンなデータ共有とコラボレーション • シームレスなデータ観測性と品質 • 生産性や発見可能性の改善 • 最適化パフォーマンスとコスト削減
  35. ©2024 Databricks Inc. — All rights reserved 47 Unity Catalog

    - キーとなる機能 • 集中管理のメタデータとユーザー • 集中管理のデータアクセスコントロール • データリネージ • データアクセス監査 • データ検索と発見 • Delta Sharingによるセキュアなデータ共有 Databricks Workspace Databricks Workspace Unity Catalog GRANT … ON … TO … REVOKE … ON … FROM … Catalogs, Databases (schemas), Tables, Views, Storage credentials, External locations
  36. ©2024 Databricks Inc. — All rights reserved Databricks ワークスペース2 集中管理のメタデータとユーザー

    48 Unity Catalogなし Unity Catalogあり ご自身のデータ領域における統合ビューの構築 Databricks ワークスペース 1 Databricks ワークスペース Databricks ワークスペース Unity Catalog ユーザー管理 メタストア ユーザー管理 メタストア クラスター SQLウェアハウス アクセス コントロール アクセス コントロール ユーザー管理 メタストア クラスター SQLウェアハウス アクセス コントロール クラスター SQLウェアハウス クラスター SQLウェアハウス
  37. ©2024 Databricks Inc. — All rights reserved 49 3レベルの名前空間 SELECT

    * FROM main.paul.red_wine; -- <catalog>.<database>.<table> SELECT * FROM hive_metastore.default.customers; Unity Catalog Catalog 2 Catalog 1 Database 2 Database 1 External Table ビュー 外部 テーブル マネージド テーブル hive_metastore (レガシー) default (データベース) customers (テーブル) 既存メタストアへのシームレスなアクセス
  38. ©2024 Databricks Inc. — All rights reserved 50 集中管理のアクセスコントロール GRANT

    <privilege> ON <securable_type> <securable_name> TO `<principal>` GRANT SELECT ON iot.events TO engineers 権限レベルの 選択 お使いのIDプロバイ ダーとグループ を同期 ‘テーブル’= S3/ADLSの ファイルのコレクション ANSI SQL DCLの使用 UIの使用 ワークロード横断のアクセス権を集中的に許可、管理
  39. ©2024 Databricks Inc. — All rights reserved 51 すべてのワークロードに対する自動リネージ •

    Databricksクラスター、SQLウェア ハウスにおける実行時データリネージ自 動キャプチャ • テーブル、カラムレベルのリネージ • Unity Catalogの共通権限モデルの活用 • テーブル、ダッシュボード、ワークフロー、 ノートブック、特徴量テーブル、ファイル、 DLTのリネージ 組織におけるデータフロー、データ活用に対するエンドツーエンドの可視性
  40. 連続あるいは スケジュールによ るデータ 取り込み 宣言型ETL パイプライン データ品質検証お よび モニタリング データ

    パイプラインの観 測可能性 オートスケーリン グおよび 耐障害性 自動デプロイ オペレーション パイプライン& ワークフローの オーケストレー ション チェンジデータ キャプチャー Databricksでデータエンジニアリングを成功させる鍵となる差別 化要因 Apache Spark、Delta Lakeを組み合わせることでもこれらを実現できますが、開発 工数が膨大なものとなります ...
  41. • 「どのように」を抽象化し「何を」解くのかを定義す る、意図に基づく宣言型開発を使用 • 自動で高品質なリネージュを作成し、データパイ プラインのテーブルの依存関係を管理 • エラー、依存関係の欠如、文法エラーを自動で チェックし、パイプラインのリカバリーを管理 /*

    アカウントテーブルの一時ビューを作成 */ CREATE INCREMENTAL LIVE VIEW account_raw AS SELECT * FROM cloud_files(“/data”, “csv”); /* ステージ 1: ブロンズテーブルで不適切な行を削除 */ CREATE INCREMENTAL LIVE TABLE account_bronze AS COMMENT "適切なIDのアカウントを含むブロンズテーブル " SELECT * FROM fire_account_raw ... /* ステージ 2:シルバーに行を送信し、妥当性チェックを適用 */ CREATE INCREMENTAL LIVE TABLE account_silver AS COMMENT "妥当性チェックを行なったシルバーアカウント " SELECT * FROM fire_account_bronze ... ブロンズ シルバー ゴールド ソース Delta Live Tablesによる宣言型ETLパイプライン
  42. ブロンズ シルバー CDC経由 UPSERT CDC経由 UPSERT CDC経由 UPSERT ストリーミング ソース

    クラウドオブ ジェクトストレー ジ 構造化データ 非構造化 データ 準構造化 データ データ移行 サービス データソー ス • DBR、クラウドストレージ、 DBFSでサポートされて いる任意のデータの行レベルの変更をキャプ チャー • よりシンプルなアーキテクチャ : シンプルかつイン クリメンタルなパイプラインの構築 • 順序が守られていないイベントのハンドリング • スキーマ進化 • シンプルかつ宣言型の「 APPLY CHANGES INTO」 APIを用いた変更レコード (insert、update、 delete)のインクリメンタルな処理 Delta Live Tablesによるチェンジデータキャプチャー(CDC)
  43. Delta Live Tablesによるデータ品質検証およびモニタリング ▪ データエクスペクテーションでパイプラインにおけ るデータ品質、完全性を定義 ▪ 柔軟なポリシーによるデータ品質エラーへの対応 (失敗、削除、警告、検疫 )

    ▪ 全てのデータパイプライン実行と品質メトリクスを 記録、追跡、レポート /* ステージ 1: ブロンズテーブルで不正な行を削除 */ CREATE INCREMENTAL LIVE TABLE fire_account_bronze AS ( CONSTRAINT valid_account_open_dt EXPECT (acconut_dt is not null and (account_close_dt > account_open_dt)) ON VIOLATION DROP ROW COMMENT "適切なアカウント IDを含むブロンズテーブル " SELECT * FROM fire_account_raw ...
  44. Delta Lives Tableにおけるデータパイプラインの観測可能性 • インパクト分析のためのデータフローに対する可 視性を提供する高品質かつ高精度なリネージュ ダイアグラム • データパイプラインの オペレーション、ガバナン

    ス、品質、ステータス に対する行レベルでのきめ 細かいロギング • 継続オペレーションを確実にするためのデータ パイプラインジョブの連続的モニタリング • Databricks SQLを用いたメールによる アラート
  45. • バックログ認知のスケーリング意思決定によるストリー ミングSLOの達成 - スケールアップ、スケールダウンす るために、バックログメトリクスとクラスター利用率 の両 方をモニタリング • 自動エラーハンドリングと容易な際実行による

    ダウンタイムの削減 • すべてのDelta Liveテーブルの自動最適化による メンテナンスの排除 • ジョブを並列化しデータ移動を最小化する弾力性のある Apache Spark™ベースの計算クラスターを 自動で配備 し、データパイプラインワークロードを処理 Streaming source Spark executors No/Small backlog & low utilization Backlog monitoring Utilization monitoring Scale down Delta Live Tablesによるオートスケーリング、耐障害性
  46. ©2024 Databricks Inc. — All rights reserved ETL開発サイクル データ 取り込み

    最適化Spark COPY INTO Auto Loader 生の取り込みデータ 履歴 Bronze フィルタリング クレンジング、拡張 Silver ビジネスレベルの 集計データ Gold Databricksワークフロー ETL ストリーミング 最適化Spark Photon Python, SQL, Scala, R ジョブ スケジューラ 揮発性 クラスター バッチ取り込みと オーケストレーション ストリーミング イベント クラウドの取り込み サービング レイヤー(オプション) ガバナンス 計算リソース メダリオン アーキテクチャ Unity Catalog
  47. ©2024 Databricks Inc. — All rights reserved Databricksワークフローとは? すべてのクラウドで誰もが高信頼のデータ、分析、 AIワークフローを構築できる

    完全マネージドのレイクハウスオーケストレーションサービス 完全マネージド 完全マネージドのオーケストレー ションサービスによって運用オー バーヘッドを取り除くことで、イン フラストラクチャの管理ではなく ワークロード自身にフォーカス。 プラットフォームと密接に インテグレーション お使いのレイクハウスプラット フォーム向けに設計され組み込 まれているので、すべてのワー クフローに対する深いモニタリン グ機能と集中管理された観測能 力を提供。 何でもどこでも オーケストレーション すべてのクラウドで完全なデータ とAIのライフサイクルにおける 様々なワークロードを実行。 Delta Live Tables、SQL、 Spark、ノートブック、dbt、MLモ デルなどのジョブをオーケスト レーション。 シンプルなワークフロー作成 特殊スキルを持つ人に限らず データチームの誰でも活用でき る簡単なポイント&クリックの作 成体験。 データ、分析、AIのための高信頼オーケストレーション 立証された信頼性 AWS、Azure、GCPで日々実行 されている数千万のプロダクショ ンワークロードで立証された信 頼性に基づいて安心してワーク ロードを実行。 https://www.databricks.com/jp/product/workflows
  48. ©2024 Databricks Inc. — All rights reserved 63 ジョブ すべてのタスクに対するワークフロー

    (DAG)。ノート ブック、Python、Databricks SQL、DLT、dbt、MLなど Delta Live Tables 自動化データパイプライン、 Delta Lakeの品質、 リネージ。 Databricksレイクハウスの オーケストレーション Lakehouse Platform Data Warehousing Data Engineering Data Science and ML Data Streaming すべての構造化データ、非構造化データ クラウドデータレイク Unity Catalog データ、AIに対するきめ細かいガバナンス Delta Lake データの信頼性とパフォーマンス Databricksワークフロー
  49. ©2024 Databricks Inc. — All rights reserved Databricksワークフロー - ワークフロージョブ

    64 ▪ これは何? DAGによる容易なコードの作成、スケジュール、オー ケストレーション (有効非巡回グラフ) ▪ キーとなる機能 ▪ シンプルさ: UIでの容易な作成とモニタリング ▪ ワークロードに合わせた多数のタスク タイプ ▪ プラットフォームに完全にインテグレーションされて おり、結果の調査とデバッグを迅速に ▪ 立証されたDatabricksスケジューラの信頼性 ▪ 容易にステータスをモニタリングする観測可能性 ワーク フロー ジョブ タスクの DAG
  50. ©2024 Databricks Inc. — All rights reserved Databricksジョブのサンプル Notebook、DLT、Python wheelタスクによるジョブ(DAG)

    65 Power BIのデー タセットのアップ デート Python Wheel SQLServerから 顧客データをコ ピー ノートブック スタースキーマ モデルの作成 Delta Live Tables SQLServerから 注文データをコ ピー ノートブック SQLServerから 地域データをコ ピー ノートブック カスタムライブラリを用いた Databricksクラスター
  51. ©2024 Databricks Inc. — All rights reserved Databricksジョブのサンプル 66 Databricksノートブック(Python、SQL、Scala)

    Notebook、DLT、Python wheelタスクによるジョブ(DAG) Power BIのデー タセットのアップ デート Python Wheel SQLServerから 顧客データをコ ピー ノートブック スタースキーマ モデルの作成 Delta Live Tables SQLServerから 注文データをコ ピー ノートブック SQLServerから 地域データをコ ピー ノートブック
  52. ©2024 Databricks Inc. — All rights reserved Databricksジョブのサンプル 67 Delta

    Live Tablesパイプライン(Triggeredモード) Notebook、DLT、Python wheelタスクによるジョブ(DAG) Power BIのデー タセットのアップ デート Python Wheel SQLServerから 顧客データをコ ピー ノートブック スタースキーマ モデルの作成 Delta Live Tables SQLServerから 注文データをコ ピー ノートブック SQLServerから 地域データをコ ピー ノートブック
  53. ©2024 Databricks Inc. — All rights reserved Databricksジョブのサンプル 68 dbtパイプライン

    Notebook、DLT、Python wheelタスクによるジョブ(DAG) Power BIのデー タセットのアップ デート Python Wheel SQLServerから 顧客データをコ ピー ノートブック スタースキーマ モデルの作成 Delta Live Tables SQLServerから 注文データをコ ピー ノートブック SQLServerから 地域データをコ ピー ノートブック
  54. ©2024 Databricks Inc. — All rights reserved Databricksジョブのサンプル 69 Power

    BIデータセットに対するAPIコールを 行うPython wheel import requests r = requests.get('https://docs.microsoft.com/en-us/ resGET https://api.powerbi.com/v1.0/myorg/groups/{grou pId}/datasets/{datasetId}/refreshes?$top={$top} ', auth=('user', 'pass')) r.status_code Notebook、DLT、Python wheelタスクによるジョブ(DAG) Power BIのデー タセットのアップ デート Python Wheel SQLServerから 顧客データをコ ピー ノートブック スタースキーマ モデルの作成 Delta Live Tables SQLServerから 注文データをコ ピー ノートブック SQLServerから 地域データをコ ピー ノートブック
  55. ©2024 Databricks Inc. — All rights reserved 複数タスクのジョブの作成 70 タスクタイプを選択:

    • ノートブック • Jar • Spark Submit • Python • Delta Live Tables • Python Wheel • dbt • Databricks SQL
  56. アジェンダ • Databricksとは • Databricksの使い方 • Databricksのコアコンセプト ◦ ETL開発サイクル ◦

    アカウントとワークスペース ◦ Databricksユニット ◦ メダリオンアーキテクチャ ◦ Unity Catalog ◦ Delta Live Tables ◦ Databricksワークフロー • Databricksを用いたデータ分析