Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ファインディにおける Dataform ブランチ戦略
Search
Noriaki Hiraki
July 25, 2025
Technology
490
1
Share
ファインディにおける Dataform ブランチ戦略
Dataform Meetup #1
https://dataform-jp.connpass.com/event/359348/
Noriaki Hiraki
July 25, 2025
More Decks by Noriaki Hiraki
See All by Noriaki Hiraki
ファインディの事業拡大を支える 拡張可能なデータ基盤へのリアーキテクチャ
hiracky16
0
1.5k
ADK + toolbox を使ってデータマネジメントやってみた話
hiracky16
1
92
マルチプロダクトのデータ基盤設計 〜データメッシュを運用して見えた課題と伸びしろ〜
hiracky16
0
1.8k
マルチプロダクトのデータ基盤設計〜データメッシュへのリアーキテクチャで見えた課題と伸びしろ〜
hiracky16
0
640
Dataform を使った GAS によるデータ運用からの脱却
hiracky16
4
2.4k
Other Decks in Technology
See All in Technology
速さだけじゃない! VoidZero ツールが移行先に選ばれる理由
mizdra
PRO
6
730
Javaコミュニティをもっと楽しむための9箇条
takasyou
0
1.2k
Sony_KMP_Journey_KotlinConf2026
sony
2
210
OCI Oracle AI Database Services新機能アップデート(2026/03-2026/05)
oracle4engineer
PRO
0
180
先取りMaven4 ~16年ぶりのメジャーアップデート、その進化とは?~
ogiwarat
0
140
oracle-to-databricks-migration-with-llm-and-dbt
casek
1
430
Terraformモジュールは、なぜ「魔境」化するのか
hayama17
1
180
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development with AI-DLC
yoshidashingo
0
110
生成 AI × MCP で切り拓く次世代 SRE!自律型運用への挑戦と開発者体験の進化
_awache
0
130
製造業のクラウド活用最適解〜AI,DXを加速するデータ基盤の作り方〜
hamadakoji
0
330
Ruby::Boxでできること、Refinementsでできること
joker1007
3
380
ChatworkとBPaaS 異なる特性で学んだAI機能開発の ベストプラクティス
kubell_hr
2
2.4k
Featured
See All Featured
Accessibility Awareness
sabderemane
1
130
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.5k
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.5k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Practical Orchestrator
shlominoach
191
11k
Testing 201, or: Great Expectations
jmmastey
46
8.2k
Code Review Best Practice
trishagee
74
20k
Building Flexible Design Systems
yeseniaperezcruz
330
40k
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
260
The Language of Interfaces
destraynor
162
27k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
210
Believing is Seeing
oripsolob
1
140
Transcript
ファインディにおける Dataform ブランチ戦略 Dataform Meetup #1 ファインディ株式会社 CTO 室データソリューションチーム 開
功昂(hiracky16)
自己紹介
3 自己紹介 Findy / データエンジニア / マネージャ 開 功昂 /
Noriaki Hiraki / @hiracky16 • 2023 年 11 月にファインディの CTO 室データソ リューションチームにジョイン🙌 • データエンジニアとしてマルチプロダクトのデータ 基盤を設計・開発をリード💪 • サッカー⚽とポッドキャスト🎙と子育て👦が趣味 • Dataform 歴 4 年
今日話すこと • Dataform を使ったデータパイプラインの話をします • ファインディでの Dataform 導入の効果と課題 • Dataform
ブランチ戦略、リリース手順の見直し • まとめと今後の展望 • 宣伝 4
Dataform の好きなところ
Dataform の好きなところ(≒ 採用理由) • やすい … BigQuery の利用料金以外は基本無料 • はやい
… 環境構築不要、ワークフロー設定が手軽 • うまい … Git 連携やデータリネージ, テストなど最低限の機能 6 =
データ基盤のアーキテクチャ 7
• データエンジニア以外のコントリビュータが 10 名に増えた • データマートつまり利活用先が 4 倍に増えた • SQL
のレビュー体制を構築することができた ◦ PR 数では社内で一番活発に動いているデータプロジェクトへ 🎉 導入後の良い効果 8
• SQL 構文ミスで実行不可 • 不規則なファイルやテーブルの命名 • SQL の書き方に統一性がない • フォルダ構成やレイヤーを無視したクエリが生まれる
• タグ、ワークフロー追加忘れなどのオペミスが発生 • ほぼ毎日何かしらのアラートが鳴る🚨 😭 導入後の悪い効果 9
⭕ Dataform はデータ活用の裾野を広げた ❌ 裾野が広がると同時にガバナンスの難しさが顕在化
開発からリリースまでの 運用・戦略を見直し
1. 確実に動く SQL を本番環境に提供しエラー件数を 0 に近づけること 2. オペミスによるデータパイプラインの失敗は最小限に留めること 3. データ基盤の設計思想や
SQL の書き方や命名規則を利用者間で決め機械 的にチェックできること 4. 高コストなクエリや使用されていないテーブルが定期的に見直されている こと これらを達成すべくブランチ戦略やリリース手順を見直し💪 🎯 改善目標 12
git-flow 採用 & 複数の Dataform 実行環境 13 develop ⇔ 開発環境
Dataform main ⇔ 本番環境 Dataform
様々な開発スタイルに対応 14
様々な開発スタイルに対応 15 • Google Cloud Console ◦ 主に非エンジニア(データアナリストやマーケ)が使用 ◦ ボタンで
Git 操作が可能 • VSCode ◦ 主にデータエンジニアや機械学習エンジニアが使用 ◦ GitHub や BigQuery MCP + Claude Code で効率化 • Devin ◦ 複数リポジトリ間で開発が必要な場合に使用 ◦ 例1) Rails の db/schema.rb から source, staging 層のクエリを作成 ◦ 例2) datamart テーブル作成、変更時に LookML を編集
GitHub Actions + SQLFluff によるリファクタ 16 develop への push で発火
sqlfluff fix でフォーマット ↓ スターお待ちしてます☆
Dataform のレビュー体制 17
コーディング規約の作成 18 GitHub Pull Request のテンプレート • 使用可能な略語の定義 • js
ブロックを避ける ◦ JavaScript が不得意なメンバーもい るため ◦ SQL と JavaScript の責務が曖昧にな りがち ◦ dbt への乗り換えを見据えて
19 Dataform のレビュー体制 # GitHub Actions name: validate-sql on: pull_request:
branches: - develop jobs: steps: - name: check-hoge - name: check-fuga - name: dataform-run select skill, count(1) from `project_a.dataset_b.users` where created_at >= '2025-01-01' push review review review
Dataform のリリース & デプロイ 20 データエンジニア複数人で作業 本番環境にも同様の参照先テーブルが存 在するかなどのチェック項目を確認
• カスタムアサートを用いて利用状況をモニタリング • 前日のデータスキャンや使われなくなったテーブルを検知 Dataform を使ったモニタリング config { type: ‘assertions’
tags: [‘monitoring’] } select table_id, count(1) as job_count from INFORMATION_SCHEMA.JOBS having count(1) = 0 21 config { type: ‘assertions’ tags: [‘monitoring’] } select user_email, query, billed_giga_bytes from INFORMATION_SCHEMA.JOBS where billed_giga_bytes > 10
ブランチ戦略見直しの効果
• ワークフローのエラー発生率は昨対比で 85% 減 ◦ スプレッドシートを使った外部テーブルの入力ミス • ワークフロー追加などのオペレーションミスは 0 件
• テーブルの棚卸しやジョブの監視によりコスト削減 ◦ 導入後 1 年で 200 近くのテーブルを削除 堅牢な Dataform を作ることができた🛡 ブランチ戦略見直しの効果 23
質とスピード 24 2024/06 2025/06
まとめ & 今後の展望
• Dataform は手軽に始められデータ活用の裾野を広げることが可能 • 利用者の増加とガバナンスの難しさは比例 • Dataform のブランチ戦略を見直すとパイプラインの品質が向上 • 堅牢さによって
“やすい、はやい” が失われない仕組みが必要 ◦ モニタリング、レビューと CI の高速化 • 利用者のやりたいことを先回りし、運用を見越したテーブルやパイプライ ンの設計・開発 まとめ 26
ファインディでは データエンジニア 絶賛募集中です!! 複数プロダクトのデータ基盤を設計・開発している最中です! 興味ある方はご応募、カジュアル面談お待ちしています→
Findy Tools にて Dataform のレビューお待ちしてます!!! 🟢先日マイベストさんに も書いていただきました 🙏
ご清聴 ありがとうございました 🙏