Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ディメンショナルモデリングのすすめ
Search
Ojima Hikaru
July 27, 2018
Technology
7
4.7k
ディメンショナルモデリングのすすめ
Developer Summit 2018 Summer
Ojima Hikaru
July 27, 2018
Tweet
Share
More Decks by Ojima Hikaru
See All by Ojima Hikaru
Podのオートスケーリングに苦戦し続けている話
ojima_h
1
310
モンスターストライクを支えるデータ分析基盤と準リアルタイム集計
ojima_h
6
5.7k
データ分析基盤の変遷とデータレイクの作り方
ojima_h
1
1.9k
Other Decks in Technology
See All in Technology
ユーザーのプロフィールデータを活用した推薦精度向上の取り組み
yudai00
0
470
CI/CDとタスク共有で加速するVibe Coding
tnbe21
0
230
CSS、JSをHTMLテンプレートにまとめるフロントエンド戦略
d120145
0
210
讓測試不再 BB! 從 BDD 到 CI/CD, 不靠人力也能 MVP
line_developers_tw
PRO
0
1.1k
CIでのgolangci-lintの実行を約90%削減した話
kazukihayase
0
340
Oracle Audit Vault and Database Firewall 20 概要
oracle4engineer
PRO
2
1.6k
Prox Industries株式会社 会社紹介資料
proxindustries
0
190
Agentic DevOps時代の生存戦略
kkamegawa
0
950
Абьюзим random_bytes(). Фёдор Кулаков, разработчик Lamoda Tech
lamodatech
0
270
Model Mondays S2E02: Model Context Protocol
nitya
0
180
本部長の代わりに提案書レビュー! KDDI営業が毎日使うAIエージェント「A-BOSS」開発秘話
minorun365
PRO
14
2.3k
監視のこれまでとこれから/sakura monitoring seminar 2025
fujiwara3
10
2.9k
Featured
See All Featured
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.9k
Unsuck your backbone
ammeep
671
58k
Music & Morning Musume
bryan
46
6.6k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
920
The Pragmatic Product Professional
lauravandoore
35
6.7k
Build The Right Thing And Hit Your Dates
maggiecrowley
36
2.8k
Building an army of robots
kneath
306
45k
Site-Speed That Sticks
csswizardry
10
650
VelocityConf: Rendering Performance Case Studies
addyosmani
330
24k
Art, The Web, and Tiny UX
lynnandtonic
299
21k
How to train your dragon (web standard)
notwaldorf
92
6.1k
Transcript
©XFLAG ディメンショナル モデリングの勧め
©XFLAG About Me 生島 光 株式会社ミクシィ XFLAG スタジオ 解析グループ データ分析基盤の開発・運用
GitHub: ojima-h Twitter: @ojima_h Facebook: hikaru.ojima
©XFLAG © XFLAG
©XFLAG 今日話すこと 使いやすいデータウェアハウス を手に入れるために ディメンショナル・モデリング を取り入れてみたお話
©XFLAG Why Dimensional Modeling?
©XFLAG BEFORE DB App Redshift APIログ 抽出 そのまま 分析チーム 依頼
作業待ち
©XFLAG BEFORE DB App Redshift APIログ 抽出 そのまま 分析チーム Zeppelin
©XFLAG ステージのクリア数を数え たいんだけど それなら striker_stages っていうテーブルの state が 2 になってる行を数え
ればいいですよ なにそれ意味わかんない state の詳しい説明は サーバーの仕様書に書い てありますよ
©XFLAG PROBLEM • 仕様書を読まないと分析できない
©XFLAG ステージのカテゴリごとの プレイ数を数えたいんだ けど それなら stage_flag って いうカラムの 1ビット目を見たらわかり ますよ
なにそれ意味わかんない 詳しいことは サーバーのコード読めば わかるんですけどね
©XFLAG PROBLEM • 仕様書を読まないと分析できない • コードを読まないと分析できない
©XFLAG マルチプレイ数を数えたい んだけど それなら striker_stages テーブルを使えばいい ですね。 このテーブルは自己参 照テーブルになっている のでこのカラムで
Group By して自分自身 に結合クァwせdrftgyふ じこlp; ・・・
©XFLAG PROBLEM • 仕様書を読まないと分析できない • コードを読まないと分析できない • 複雑なテーブル構造
©XFLAG キャンペーン施策のROI の算出に必要な値が欲し い 結構大変そうなので、ク エリのテンプレート作って 後で調整できるようにして おきますね
©XFLAG 300行くらいの SQL
©XFLAG PROBLEM • 仕様書を読まないと分析できない • コードを読まないと分析できない • 複雑なテーブル構造 • 長すぎる
SQL
©XFLAG そうだ! サマリテーブルを作ろう!
©XFLAG 〇〇っていう分析がしたい わかりましたサマリテーブ ル作ります △△っていう分析がしたい この前作ったサマリテー ブルは使えなさそうです ね。 わかりましたサマリテーブ ル作ります
〜〜っていう分析がしたい この前作ったサマリテーブ ルは使えな(以下略
©XFLAG PROBLEM • 仕様書を読まないと分析できない • コードを読まないと分析できない • 複雑なテーブル構造 • 長すぎる
SQL • 乱立する謎のサマリデータ
©XFLAG BI ツールは 助けてくれない
©XFLAG PROBLEM • 仕様書を読まないと分析できない • コードを読まないと分析できない • 長すぎる SQL •
複雑なテーブル構造 • 乱立する謎のサマリデータ Dimensional Modeling が 解決してくれるかも
©XFLAG Introduction to Dimensional Modeling
©XFLAG データ分析の流れ ETL 整形 ロード 要件定義 目的 分析手法 ゴール データ収集
サーバーログ DB 分析 Σ 自動化 Data Warehouse Data Lake
©XFLAG Data Warehouse ◦ すぐに分析に取りかかれるデータ ◦ どんな分析にも使える柔軟性 業務用データベースとは求められるも のが違う (e.g.
正規化 )
©XFLAG Dimensional Modeling Data Warehouse の要件に合わせたテーブル設計
©XFLAG Dimensional Modeling is... ◦ Ralph Kimball さんが 20年以上前に提唱した DWH
の設計手法
©XFLAG FACT DIMENSIONS DIMENSIONS DIMENSIONS DIMENSIONS イベント 状態 e.g. ゲームのプレイログ
FACTに対する 説明 e.g プレイした ステージに関する情報 DIMENSIONS Star Schema
©XFLAG 現実世界 FACT DIMENSIONS DIMENSIONS DIMENSIONS DIMENSIONS Dimensional Modeling
©XFLAG 設計の手順
©XFLAG 1. ビジネスプロセスを選ぶ 2. 粒度を決める 3. Dimensionテーブルを決める 4. Factテーブルを決める 4
Steps
©XFLAG 1. ビジネスプロセスを選ぶ 2. 粒度を決める 3. Dimensionテーブルを決める 4. Factテーブルを決める 4
Steps
©XFLAG ビジネスプロセス = お客さんに提供しているサービス・機能(仮) 例)「ゲームをプレイする」 ◦ ビジネスプロセスの内容を言語化 ◦ 使えるデータを確認
©XFLAG 1. ビジネスプロセスを選ぶ 2. 粒度を決める 3. Dimensionテーブルを決める 4. Factテーブルを決める 4
Steps
©XFLAG 粒度 対象のビジネスプロセスをどこまで詳細 なレベルで分析するのか ビジネスの言葉で表現 イベント ファクトテーブルの1行 ?
©XFLAG 粒度の例 1人のユーザーが 1回ゲームをプレイした
©XFLAG 粒度の例 マルチプレイの場合 vs. 3レコード ユーザー に関する分析 1レコード ゲームプレイ に関する分析
©XFLAG 粒度 粒度の決め方によって 分析できる事柄も、その後の設計も 全然変わってくる
©XFLAG 1. ビジネスプロセスを選ぶ 2. 粒度を決める 3. Dimensionテーブルを決める 4. Factテーブルを決める 4
Steps
©XFLAG Dimensions WHEN WHERE WHO WHAT WHY HOW about Facts
ビジネスの 言葉で
©XFLAG 1. ビジネスプロセスを選ぶ 2. 粒度を決める 3. Dimensionテーブルを決める 4. Factテーブルを決める 4
Steps
©XFLAG Facts イベントに対する計測値 e.g. ◦ ゲームのクリア時間 ◦ ゲームのスコア ◦ 購入した商品の値段
足したり掛けたりできるもの
©XFLAG 1. ビジネスプロセスを選ぶ 2. 粒度を決める 3. Dimensionテーブルを決める 4. Factテーブルを決める 4
Steps
©XFLAG メリット
©XFLAG Good Points ◦ クエリのパフォーマンスが向上 ◦ JOIN が少なくなるため ◦ 分析軸を柔軟に追加できる
◦ Dimension テーブルを好きなだけ拡張 ◦ データを理解しやすい ◦ ビジネスプロセスを反映したテーブル設計
©XFLAG ディメンションテーブルが充実 分析がパワーアップ
©XFLAG Good Points ◦ クエリのパフォーマンスが向上 ◦ JOIN が少なくなるため ◦ 分析軸を柔軟に追加できる
◦ Dimension テーブルを好きなだけ拡張 ◦ データを理解しやすい ◦ ビジネスプロセスを反映したテーブル設計
©XFLAG データの理解 業務システム システムの実装を表現 データウェアハウス ビジネスプロセスを表現 ステージ ステージ グループ 1
N ステージ 非正規化 ゲーム開始 ゲーム終了 LEFT JOIN ゲームプレイ
©XFLAG やってみた
©XFLAG 課題 ◦ データを理解するのが難しい ◦ 汎用的のないサマリテーブルたち
©XFLAG 作戦 できるところからちょっとずつ 重要なビジネスプロセスから順番に着手していっ た
©XFLAG 大事だったこと ビジネスプロセスの分析や 粒度をきちんと決めたこと Data Warehouse 全体の整合性を保つ ことができた
©XFLAG (参考) ◦ Enterprise Bus Matrix ◦ Confirmed Dimensions
©XFLAG 結果 ◦ シンプルなテーブル構造 ◦ 汎用的なサマリテーブル ◦ セルフサービスなデータ分析
©XFLAG 体感では ½ 〜 ⅓ くらい
©XFLAG 結果 ◦ シンプルなテーブル構造 ◦ 汎用的なサマリテーブル ◦ セルフサービスなデータ分析
©XFLAG つらかったこと
©XFLAG つらかったこと ◦ 設計するの大変 ◦ 時間がかかりすぎるリスク ⇒ 設計コストと得られるメリットの比較 生データとの併用も
©XFLAG つらかったこと ◦ Hive や Redshift などでは難しい部分も ◦ データ更新 ◦
実行効率 ⇒ 妥協も大事
©XFLAG 美味しいところだけ いただくの精神
©XFLAG https://www.amazon.co.jp/dp/B00DRZX6XS 参考
©XFLAG テーブル設計は基礎体力 日々の分析業務や 機械学習プロジェクトを 加速させる
©XFLAG Thank You
©XFLAG Credits Special thanks to all the people who made
and released these awesome resources for free: ◦ Icon made by Freepik from flaticon ◦ Photographs by Unsplash