Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Eurekaの DataPlatform開発状況と再現性の実現
Search
t-kurimura
February 06, 2020
Technology
4.7k
3
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Eurekaの DataPlatform開発状況と再現性の実現
t-kurimura
February 06, 2020
More Decks by t-kurimura
See All by t-kurimura
LUUP の事業を支える AI Agent 活用
t_kurimura
0
240
アプリデータの分析を楽に効果的に!FirebaseAnalyticsとお友達になると良い3つの理由
t_kurimura
1
2k
Other Decks in Technology
See All in Technology
Zenoh on Zephyr on LiteX
takasehideki
2
110
Deep Data Security 機能解説
oracle4engineer
PRO
2
110
OTel × Datadog で 「AI活用」を計測し、改善に繋げる
shihochan
2
630
AI時代のコスト管理を考えよう〜明日から使える実践AWSノウハウ~
yoshimi0227
0
860
いまさら聞けない「仕様駆動開発入門」 〜AI活用時代の開発プロセスを考える〜
findy_eventslides
2
200
本当の”仕事”を手放せる未来が見えた
mu7889yoon
0
130
「勝手に広まる」人気 AI エージェントを爆速で作ろう!(AWS Summit Japan 2026講演資料)
minorun365
PRO
10
2.5k
GitHub Copilot app最速の発信の裏側
tomokusaba
1
260
コミュニティの有益性 ~JAWS Days 2026 での体験を通して~ / The Benefits of a Community ~Through My Experience at JAWS Days 2026~
seike460
PRO
0
270
秘密度ラベル初心者が第1歩でつまづかないための「設計・運用」ポイント
seafay
PRO
1
480
「軸足」は 固定しなくていい - 熱量と強みで描く、しなやかなキャリアの形
kakehashi
PRO
1
260
PostgreSQL 19 新機能概要 OSC Hokkaido 2026
nori_shinoda
0
240
Featured
See All Featured
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
780
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.5k
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
860
Become a Pro
speakerdeck
PRO
31
6k
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
610
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
280
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.5k
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
210
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
620
30 Presentation Tips
portentint
PRO
1
330
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
66
55k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
Transcript
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
1
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
2 Slide Uploaded Ask on Twitter #前向きデータ整備人 で探してみてください 懇親会にもいるのでそちらでも
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
3 自己紹介 Takahisa Kurimura - Eureka Inc. - BI (Business intelligence) チーム所属 - Mobile apps/ Matching / SharingEconomy - Football (主にJリーグ) / Motorbike t-kurimura t_kurimura
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
4
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
5
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
6
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
7
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
8
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
9 Eurekaの DataPlatform開発状況と"再現性"の実現 第二回 データアーキテクト(データ整備人) を“前向き”に考える会 /2020.02.06
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
10 DataPlatform基盤の全体概要 データ基盤の全体構成図
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
11 Third Party tools DataPlatform基盤の全体概要 その他Adhocな分析 BigQuery
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
12 Third Party tools DataPlatform基盤の全体概要 Data Platform その他Adhocな分析 BigQuery CloudComposer Airflow
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
13 DataPlatform基盤の全体概要 Apache Airflow を基に構築された、 フルマネージドのワークフロー オーケストレー ション サービス スケジュール管理・ワークフロー管理に特化し たオープンソースソフトウェア
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
14 Third Party tools DataPlatform基盤の全体概要 Data Platform DataLake Data WareHouse DataMart 生ログをほぼ そのまま保存 しているDB 分析用の下処 理を施したDB ビジネス 観点で整備し たDB その他Adhocな分析
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
15 DataPlatformの変遷 DataPlatformの発足期 Redash/Spreadsheet乱立期 DataPlatform開発繁栄期 - DP開発メンバーの増加 - Tableau上ので公式DSの拡充 - DP定例会の実施 - RedashAPIをGasで利用 - Spreadsheetに データを連携し可視化 - Tableau導入 - CloudComposer導入 - 基本データの拡充 - View Queryの乱立 DataPlatform管理レポジトリのコード量の推移
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
16 DataPlatformの変遷 DataPlatformの発足期 Redash/Spreadsheet乱立期 DataPlatform開発繁栄期 - DP開発メンバーの増加 - Tableau上ので公式DSの拡充 - DP定例会の実施 - RedashAPIをGasで利用 - Spreadsheetに データを連携し可視化 - Tableau導入 - CloudComposer導入 - 基本データの拡充 - View Queryの乱立 DataPlatform管理レポジトリのコード量の推移
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
17 DataPlatformにのせる “公式化”のメリット View Table / Scheduled Query Airflowでの管理 - コードレビューによるデータの妥当性の担保 - 依存関係の定義によるデータの信頼性の担保 - データ・分析の再現性を支える ✔
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
18 DataPlatformにおける“再現性”とは - データに対するドメインナレッジの蓄積 データの定義における解釈が統一される - 必要なデータが必要なときにすぐに取り出せること どこに何があるかが明確で、すぐにアクセス可能
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
19 DataPlatformの開発状況 Pairs Project A 担当 Pairs Project B 担当 Engage 担当 Tableauによるデータの可視化・意思決定のサポート BigQueryでのデータソースの作成 Airflowでのワークフローの作成 CloudComposerの基盤管理 SRE Team Project Owner & member 経営レポート・中長期分析・ マーケティング関連 Adhoc分析 Boards, Bland, MarketingTeam
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
20 DataPlatformの開発フロー 依頼者 ProductManager ProductOwner Team meber etc. BI Team View TableやScheduled Queryを利用して簡易的に提供 目的・背景・見たい指標等の落とし込み
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
21 DataPlatformの開発フロー 依頼者 BI Team 当該Dashboardの運用の知見を踏まえて AirflowでDWH・DMを実装
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
22 DataPlatformの開発フロー 一度、ViewTableなどで簡易的にDataMartを作成し可視化する。 その後、成果物の改善点などを踏まえてDWH/DMを実装する。 - 運用が安定したDashboardを元にDWH/DMを実装すれば過不足なく設計できる。 - 突発的な依頼に対応しやすい - 担当者の強い意志依存なので、 ViewQueryの放置、DWH・DMが充実していかない可能性 メリット デメリット
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
23 DWH構築のためのログ・メタデータの活用 すべてのクエリ発行や操作のログが集積 データセット内のテーブルの最終更新などの情報
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
24 DataPlatformでの監査データの活用 あらゆるツールを介して実行されているクエリをまとめて確認できる
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
25 DataPlatformでの監査データの活用 2つのテーブルがJOINして実行されているクエリを DWH化
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
26 DataPlatformでの監査データの活用 DWH・DMにどういったものが必要・不必要かの判断材料に • 利用頻度の多いテーブル • 同時に使われていることが多いテーブル • 全く利用されてないテーブル 監査ログ・Information_schemaを利用することで、
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
27 DataPlatformでの永続UDFの活用 特定のDatasetに関数のみを、定義できる
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
28 異なるクエリからでも同じ関数を参照できる DataPlatformでの永続UDFの活用
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
29 永続UDFに関してもコード管理 DataPlatformでの永続UDFの活用
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
30 コード管理によって、定義の統一と知見の集約を高める - 知見の属人化を排除 - クエリの可読性向上 - 類似クエリ作成のスピード向上 永続UDFの活用で、 DataPlatformでの永続UDFの活用
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
31 DataPlatformの知見共有 • 各種ツールのエラーログの確認 • リファクタリングの方針相談・進捗共有 • 開発上困ったことの解決 • 現状の課題の整理 • 今後のルール・戦略の共通認識 週に1回関連するメンバーで30分定例MTGを実施
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
32 まとめ - 過去の分析や整形されたデータの再現性を重要視する Airflowでのクエリのコード管理・関数の共通化 (永続UDF) - MVPなDMから可視化し改善点を明確にしたえで、 DM・DWHを設計 最初は、Scheduled QueryやView Tableを利用し柔軟にDMを設計 - 巻き込みやすい、巻き込まれやすいような環境 CI等の整備、Github操作のみにするなど開発への障壁下げる。定例会での情報共有
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
33
CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy
34 Appendix Apache Airflow Cloud Composer Cloud Audit Logging | Stackdriver Logging ドキュメント Introduction to BigQuery INFORMATION_SCHEMA | BigQuery Standard SQL User-Defined Functions | BigQuery BigQueryとAirflowを活用したDataPlatform運用の10のケース・スタディ 1年間のDataPlatformプロジェクトから見えてきた「 DataWarehouseの作りかた」