databricks,dbt,AWS S3を使ったデータパイプラインレシピ

databricks,dbt,AWS S3 を使ったデータパイプラインレシピ Ryuto Yoda

1. 概要 AWS S3をUnity Catalogに接続する 2. データ取り込み設計 3. データパイプラインの構築 4.
CONTENTS 質問タイム 5.

概要 01

AWS S3、Databricks、dbtを使ってデータパイプラインの概要 AWS S3をデータレイクとして利用し、データの保存を行います。 Databricksでは Sparkを活用して、大規模データのETL 処理や解析を高速に実行します。 dbtはSQLベースでデータの変換・モデリングを行い、クリーンで高品質なデータを提供します。
この組み合わせにより、効率的なデータ処理と再現性のあるパイプラインが実現できます。

AWS S3をUnity Catalog に接続する 02

Unity Catalogとは？ Unity Catalogは、Databricksにおけるデータガバナンスと管理を統合するメタストアです。データやテーブル、メタデータを一元的に管理できます。

必要な準備 DatabricksアカウントIDの確認 Databricksアカウントコンソール(アカウントを管理)から取得 AWS IAMロールの作成と設定 DatabricksがS3にアクセスできるようにIAMロールを作成し、IAMポリシーとの信頼ポリシーを設定します。 IAMポリシーを設定
必要なS3アクセス権をIAMロールに付与します。

Databricksでの設定 Databricksの「外部ロケーションを追加」画面で、S3バケットとIAMロールのARNを指定します。設定を保存し、Unity Catalogの外部ストレージとしてS3を登録します。

データ取り込み設計 03

ノートブックを使った外部ロケーションからのテーブル取り込みノートブックから取り込みコードでワークスペースとスキーマを定義して、S3の外部ロケーションからCSVを読み込み、テーブルに書き込みます。 df = spark.read.csv( "/Volumes/workspace_aws/default/test_s3_csv/custo mers/raw_customers.csv",
header=True ) df.write.mode( "overwrite").saveAsTable("default.raw_customers" ) コード例(PySpark)

データパイプラインの構築（Databricks + dbt） 04

S3からのデータを活用し、Databricksとdbtを使ってデータトランスフォーメーションを行います。 dbtモデルの開発をスキップしたい場合は以下のリポジトリを利用することでdbt on databricksを簡単にテストすることもできます。デモ用のGithubリポジトリ：https://github.com/olyalukashina/jaffle_shop.git 使用の注意点として、dbt seedから初期ファイルが読み取られるようになっているため、profiles.ymlの追加と環境変数の追加を行う必要性があります。 Databricks と
dbt連携

Databricksジョブで自動化 Databricksジョブの作成 Databricksの「ワークフロー」セクションで新しいジョブを作成して保存しますノートブックをフローに追加これによりS3の外部ロケーションから databricksのテーブルへのロードも自動化されます。またこの処理が終わった後にdbtが走るようになります。トリガーの設定
スケジュールとトリガーのタブで、S3の到着をトリガーに設定します。

実際にS3にデータを入れてみてフローが動くか確認します。成功と表示され、すべてのdbtモデルがPASSされていれば成功となります。動作チェックまたUnity Data Catalogか作られたテーブルのリネージを確認することもできます。

質問タイム 05

databricks,dbt,AWS S3を使ったデータパイプラインレシピ

databricks,dbt,AWS S3を使ったデータパイプラインレシピ

RyutoYoda

More Decks by RyutoYoda

Featured

Transcript