dbt v1.8で追加された単体テストを触ってみた

自己紹介名前香村貴之(こうむらたかゆき) 所属 STORES株式会社テクノロジー部門データ本部職種
アナリティクスエンジニア

本日のゴール dbt の単体テストの振る舞いを理解した上で、「こういうケースで使えそう」というイメージを掴んでもらうこと

目次 dbt で利用できる3つのテスト機能の比較実際に動かしてみた自社で単体テストを導入するとしたら 01 02 03

• dbt v1.7までのテスト ◦ Generic Test ▪ dbt がはじめから用意してくれているテスト機能 ▪
unique や not null などを検証できる ▪ modelsディレクトリ配下の.ymlで定義する ◦ Singular Test ▪ SELECT文をもとに想定しないケースが発生しているかを検証するテスト機能 ▪ testsディレクトリ配下に.sqlを用意する • dbt v1.8で追加された単体テスト(Unit Test) ◦ モデル(SQL)のロジックに対する検証を行える ◦ Generic Test 同様、modelsディレクトリ配下の.ymlで定義する dbt で利用できる3つのテスト機能の比較 https://docs.getdbt.com/docs/build/unit-tests

• 実行環境 ◦ dbt-core:1.8.0 ◦ dbt-bigquery:1.8.1 実際に動かしてみた

実際に動かしてみた / 単一モデルに対する単体テスト sample.users id integer email string staging.users id
integer email string is_valid_email_address boolean

実際に動かしてみた / 単一モデルに対する単体テストデータソースとして渡すレコード期待する結果

実際に動かしてみた / 単一モデルに対する単体テスト期待する値実際の値

実際に動かしてみた / 単一モデルに対する単体テスト sample.users id integer email string staging.users id
integer email string is_valid_email_address boolean

実際に動かしてみた / 単一モデルに対する単体テスト

実際に動かしてみた / 発行されるクエリ① input で指定した静的レコードモデルのクエリ

実際に動かしてみた / 発行されるクエリ② input で指定した静的レコード input で指定した静的レコードをもとに、モデルのロジックを通した結果 expect で指定した静的レコード
input と expect の結果を結合して出力

実際に動かしてみた / 複数モデルを参照するモデルに対する単体テスト sample.orders order_id integer sample.order_items order_id integer product_id
integer status string staging.orders order_id integer quantity integer shipped_quantity integer fulfilled boolean

実際に動かしてみた / 複数モデルを参照するモデルに対する単体テスト参照するモデルごとに input を定義するだけ

実際に動かしてみた / incrementalモデルを参照するモデルに対する単体テスト events event_id integer event_date date https://docs.getdbt.com/docs/build/unit-tests#unit-test ing-incremental-models

実際に動かしてみた / incrementalモデルを参照するモデルに対する単体テストマクロの振る舞いを指定して実行することができる正しくINSERT/MERGEできたかどうかは検証できない。が、検討はされている↓ https://github.com/dbt-labs/dbt-core /issues/8664

実際に動かしてみた / ephemeralモデルを参照するモデルに対する単体テスト複数モデルの例で出したCTE部分を ephemeral モデルで切り出した

実際に動かしてみた / ephemeralモデルを参照するモデルに対する単体テスト接続先のDWHからスキーマを読み込めないため、直接SELECT文を書いている https://docs.getdbt.com/docs/build/unit-tests#unit-testing -a-model-that-depend-on-ephemeral-models

• Q：input に対して expect のレコード数が不足している場合どうなる？ • A：エラーになる。実際に動かしてみた / Q&A

• Q：input に対して expect のレコード数が不足している場合どうなる？ • A：エラーになる。実際に動かしてみた / Q&A
期待に対してこのレコードが不足しているためエラー

• Q：rows の順序には意味がある？ • A：特に意味はない。実際に動かしてみた / Q&A 順序を入れ替えてもPASSする

input をデータソースとしたときに得られる結果に、 expectのレコードが過不足なく含まれていればPASSする • Q：rows にはスキーマの全カラムを指定する必要がある？ • A：全カラムを指定する必要はない。
実際に動かしてみた / Q&A expect から email を削除

• Q：$ dbt buildを実行した場合の処理順序は？ • A：先に単体テストが実行され、その後モデルがデプロイされる。実際に動かしてみた / Q&A

1. GoogleAnalytics4 のデータをもとにしたリファラー判定処理 a. 複雑なロジックを組んでリファラーの判定を行っている b. 近々リファクタリングを検討している 2. 複数プロダクトの実績を加算している処理 a.
過去にカラムの選択ミスにより間違った数値を算出してしまった b. 変数のぬけもれや、カラムの選択ミスを検出したい 3. 正規表現を含むCASE式 a. GA4のページビューのデータを元に、カテゴライズしている b. 新しいパターンを加えた際に、判定処理順序の兼ね合いで今までとは異なる判定がされてしまった自社で単体テストを導入するとしたら

本日のゴール dbt の単体テストの振る舞いを理解した上で、「こういうケースで使えそう」というイメージを掴んでもらうこと

dbt v1.8で追加された単体テストを触ってみた

dbt v1.8で追加された単体テストを触ってみた

k_data_analyst

More Decks by k_data_analyst

Other Decks in Programming

Featured

Transcript

Tokyo dbt Meetup #9 dbt v1.8で追加された単体テストを触ってみた ©STORES,Inc. All Rights Reserved.

自己紹介名前香村貴之(こうむらたかゆき) 所属 STORES株式会社テクノロジー部門データ本部職種

本日のゴール dbt の単体テストの振る舞いを理解した上で、「こういうケースで使えそう」というイメージを掴んでもらうこと

目次 dbt で利用できる3つのテスト機能の比較実際に動かしてみた自社で単体テストを導入するとしたら 01 02 03

• dbt v1.7までのテスト ◦ Generic Test ▪ dbt がはじめから用意してくれているテスト機能 ▪

• 実行環境 ◦ dbt-core:1.8.0 ◦ dbt-bigquery:1.8.1 実際に動かしてみた

実際に動かしてみた / 単一モデルに対する単体テスト sample.users id integer email string staging.users id

実際に動かしてみた / 単一モデルに対する単体テストデータソースとして渡すレコード期待する結果

実際に動かしてみた / 単一モデルに対する単体テスト期待する値実際の値

実際に動かしてみた / 単一モデルに対する単体テスト sample.users id integer email string staging.users id

実際に動かしてみた / 単一モデルに対する単体テスト

実際に動かしてみた / 発行されるクエリ① input で指定した静的レコードモデルのクエリ

実際に動かしてみた / 発行されるクエリ② input で指定した静的レコード input で指定した静的レコードをもとに、モデルのロジックを通した結果 expect で指定した静的レコード

実際に動かしてみた / 複数モデルを参照するモデルに対する単体テスト sample.orders order_id integer sample.order_items order_id integer product_id

実際に動かしてみた / 複数モデルを参照するモデルに対する単体テスト参照するモデルごとに input を定義するだけ

実際に動かしてみた / incrementalモデルを参照するモデルに対する単体テスト events event_id integer event_date date https://docs.getdbt.com/docs/build/unit-tests#unit-test ing-incremental-models

実際に動かしてみた / ephemeralモデルを参照するモデルに対する単体テスト複数モデルの例で出したCTE部分を ephemeral モデルで切り出した

実際に動かしてみた / ephemeralモデルを参照するモデルに対する単体テスト接続先のDWHからスキーマを読み込めないため、直接SELECT文を書いている https://docs.getdbt.com/docs/build/unit-tests#unit-testing -a-model-that-depend-on-ephemeral-models

• Q：input に対して expect のレコード数が不足している場合どうなる？ • A：エラーになる。実際に動かしてみた / Q&A

• Q：input に対して expect のレコード数が不足している場合どうなる？ • A：エラーになる。実際に動かしてみた / Q&A

• Q：rows の順序には意味がある？ • A：特に意味はない。実際に動かしてみた / Q&A 順序を入れ替えてもPASSする

input をデータソースとしたときに得られる結果に、 expectのレコードが過不足なく含まれていればPASSする • Q：rows にはスキーマの全カラムを指定する必要がある？ • A：全カラムを指定する必要はない。

• Q：$ dbt buildを実行した場合の処理順序は？ • A：先に単体テストが実行され、その後モデルがデプロイされる。実際に動かしてみた / Q&A

1. GoogleAnalytics4 のデータをもとにしたリファラー判定処理 a. 複雑なロジックを組んでリファラーの判定を行っている b. 近々リファクタリングを検討している 2. 複数プロダクトの実績を加算している処理 a.

本日のゴール dbt の単体テストの振る舞いを理解した上で、「こういうケースで使えそう」というイメージを掴んでもらうこと