Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ぼくのかんがえる最高のレポーティング基盤 @AWSで実践!Analytics mode...

ぼくのかんがえる最高のレポーティング基盤 @AWSで実践!Analytics modernization

VOYAGE GROUP Zucks DSPレポーティング基盤をどのようにして作ったかの話。
https://pages.awscloud.com/JAPAN-event-OE-20210624-AnalyticsModernization-reg-event.html

ディメンションモデリング
https://zenn.dev/pei0804/articles/dimensional-modeling

スタースキーマ(基礎)
https://zenn.dev/pei0804/articles/star-schema-design

複数スタースキーマ
https://zenn.dev/pei0804/articles/multiple-star-schema

ファン・トラップ
https://zenn.dev/pei0804/articles/datawarehouse-fan-trap

コンフォームド・ディメンション
https://zenn.dev/pei0804/articles/conformed-dimensions

スロー・チェンジ・ディメンション
https://zenn.dev/pei0804/articles/slowly-changing-dimensions

スノーフレークスキーマ
https://zenn.dev/pei0804/articles/snowflake-schema

pei0804

June 08, 2021
Tweet

More Decks by pei0804

Other Decks in Technology

Transcript

  1. StepFunctions(SFN)の所感 • 機能面で困ったことはない。 ◦ リトライ、エラーハンドリング、並列処理、SFN->SFN。 • 安い。 ◦ 毎時で動かしてるけど、1日1ドルもかからない。 •

    ワークフローは、CDKで書けば書き味は悪くない。 ◦ ベタで書くのは地獄になると思う。 • サーバーレス。 ◦ フルマネージド最高。
  2. Redshiftの所感 • レポートと相性が良い。 ◦ 集計のパフォーマンスが高い。 ◦ キャッシュが強力(レポートは定形クエリ) ▪ 今後AQUAで更に高速化されそう。 •

    COPYを使えば、簡単に大量のログを取り込めて便利。 ◦ S3にさえ上げてしまえば、ほとんど困らない。 • 自動テーブル最適化で、大体いい感じになる。 • フェデレーテッドクエリを使えば、AuroraのデータとJOINが出来る。 ◦ データを移動させなくていい。
  3. 多様なデータとの戦い方 軸 • 日付 • 広告主ID • キャンペーンID • 代理店ID

    • etc... 指標 • 広告表示回数 • クリック数 • コンバージョン数 • 広告単価 • etc...
  4. 多様なデータとの戦い方 軸 • 日付 • 広告主ID • キャンペーンID • 代理店ID

    • etc... 指標 • 広告表示回数 • クリック数 • コンバージョン数 • 広告単価 • etc...
  5. 軸 • 日付 • 広告主ID • キャンペーンID • 代理店ID •

    etc... 指標 • 広告表示回数 • クリック数 • コンバージョン数 • 広告単価 • etc... 多様なデータとの戦い方 今月の広告の表示回数とクリック数を 広告主IDとキャンペーンIDごとに見たい。
  6. こんな経験はありませんか? • SELECTするのに、ドメイン知識が必要。 ◦ 「クリック?typeカラムを3にしたら取れるよ!」 • JOINの順番を工夫しないとだめ。 ◦ 間違えると、数字が爆増する。 •

    SQLによる計算がそこら中にハードコードされている。 ◦ 同じ指標がそこら中で計算されてる。(ロジックの分散) 上記の様なことが絡み合って、クエリが辛くなる。
  7. こんな経験はありませんか? • SELECTするのに、ドメイン知識が必要。 ◦ 「クリック?typeカラムを3にしたら取れるよ!」 • JOINの順番を工夫しないとだめ。 ◦ 間違えると、数字が爆増する。 •

    SQLによる計算がそこら中にハードコードされている。 ◦ 計算によって導かれるのは分かるけど・・・。 上記の様なことが絡み合って、クエリが辛くなる。 少なくとも、こういうことは防げる。
  8. 良いモデリングはクエリもシンプルに SELECT SUM(amount) FROM 実績 WHERE type = 3 SELECT

    SUM(click_count) FROM クリック クエリでビジネスプロセスを表現するのではなく、 テーブルでビジネスプロセスを表現する。
  9. スタースキーマの所感 • クエリとテーブルのパターン化が出来る。 ◦ 秩序を生み出せる。 • 業務システムのテーブル設計(正規化)とは考え方が全く違う。 • 様々な設計パターンを知る必要がある。 ◦

    これは業務システムのテーブル設計でもそうかな。 • BIツールにそのまま読み込ませれるテーブルになる。 • 静的に構造を決定できるレポートとは相性が良い。
  10. おすすめの読む順番 1. ディメンションモデリング https://zenn.dev/pei0804/articles/dimensional-modeling 2. スタースキーマ(基礎) https://zenn.dev/pei0804/articles/star-schema-design 3. 複数スタースキーマ https://zenn.dev/pei0804/articles/multiple-star-schema

    4. ファン・トラップ https://zenn.dev/pei0804/articles/datawarehouse-fan-trap 5. コンフォームド・ディメンション https://zenn.dev/pei0804/articles/conformed-dimensions 6. スロー・チェンジ・ディメンション https://zenn.dev/pei0804/articles/slowly-changing-dimensions 7. スノーフレークスキーマ https://zenn.dev/pei0804/articles/snowflake-schema
  11. 気合があるならここらへんを読む 1. The Data Warehouse Toolkit: The Definitive Guide to

    Dimensional Modeling 2. Star Schema The Complete Reference 3. The Unified Star Schema: An Agile and Resilient Approach to Data Warehouse and Analytics Design
  12. ソースと成果物を 比較する 集計前テーブルのクリック数。 select count(*) from logs.clicks where ? <=

    request_time and request_time < ? 集計済みテーブルのクリック数。 select sum(click_count) from scores.fact_click where ? <= scored_at and scored_at < ? クリックログが100クリックであるなら、 そこから作られた集計済みクリックテーブルの 結果も100クリックであるはず。 この結果を比較する。大きくズレてれば 何かが起きていると言える。 ※弊社では、ファクトを集計してます。