Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
マルチデータプロダクトの開発を支えるデータの民主化の仕組み
Search
Kosaku Ono
September 25, 2025
Technology
1
400
マルチデータプロダクトの開発を支えるデータの民主化の仕組み
NIKKEI Tech Talk #37
マルチデータプロダクトの開発を支えるデータの民主化の仕組み
https://nikkei.connpass.com/event/364257/
Kosaku Ono
September 25, 2025
Tweet
Share
More Decks by Kosaku Ono
See All by Kosaku Ono
Snowflake Intelligence × Document AIで“使いにくいデータ”を“使えるデータ”に
kevinrobot34
1
850
情報セキュリティ入門
kevinrobot34
0
180
Snowflakeデータ基盤の複数環境構成
kevinrobot34
1
600
マルチデータプロダクト基盤としての Snowflake の権限管理とコスト管理
kevinrobot34
3
3.5k
Apache Iceberg The Definitive Guide 輪読会 - 4章前半
kevinrobot34
1
830
Snowflake 第1回 金融ユーザー会
kevinrobot34
1
440
Snowflake x dbt x Terraform マルチデータプロダクト基盤 [DataOps Night #4]
kevinrobot34
1
2.5k
Apache Iceberg The Definitive Guide 輪読会 - 1章後半
kevinrobot34
1
840
認証認可の基礎からはじめる AWS IAM 徹底入門
kevinrobot34
1
870
Other Decks in Technology
See All in Technology
管理者向けGitHub Enterpriseの運用Tips紹介: 人にもAIにも優しいプラットフォームづくり
yuriemori
0
160
生成AIの利用とセキュリティ /gen-ai-and-security
mizutani
1
1.4k
Serverless Agent Architecture on Azure / serverless-agent-on-azure
miyake
1
160
ヘルシーSRE
tk3fftk
2
240
「ヒットする」+「近い」を同時にかなえるスマートサジェストの作り方.pdf
nakasho
0
140
Shifting from MCP to Skills / ベストプラクティスの変遷を辿る
yamanoku
4
640
AWS DevOps Agent vs SRE俺 / AWS DevOps Agent vs me, the SRE
sms_tech
3
330
Oracle Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
4
1.1k
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
6
72k
Oracle Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
5
1.1k
メタデータ同期に潜んでいた問題 〜 Cache Stampede 時の Cycle Wait を⾒つけた話
lycorptech_jp
PRO
0
150
ブラックボックス観測に基づくAI支援のプロトコルのリバースエンジニアリングと再現~AIを用いたリバースエンジニアリング~ @ SECCON 14 電脳会議 / Reverse Engineering and Reproduction of an AI-Assisted Protocol Based on Black-Box Observation @ SECCON 14 DENNO-KAIGI
chibiegg
0
150
Featured
See All Featured
Believing is Seeing
oripsolob
1
72
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
110
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
88
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
400
Discover your Explorer Soul
emna__ayadi
2
1.1k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.1k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
130
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.8k
Reality Check: Gamification 10 Years Later
codingconduct
0
2k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
130
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1.1k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
290
Transcript
© 2024 Finatext Holdings Ltd. マルチデータプロダクトの開発を 支えるデータの民主化の仕組み 2025/09/25 株式会社ナウキャスト 大野巧作
/ @Kevinrobot34 NIKKEI Tech Talk #37
© 2024 Finatext Holdings Ltd. アジェンダ 1. イントロダクション 2. ナウキャストのデータ基盤
3. ナウキャストにおけるデータの民主化 4. 今後の課題 1
© 2024 Finatext Holdings Ltd. 1. イントロダクション 自己紹介 • 名前:大野巧作
◦ 大体けびんと呼ばれています ◦ X / GitHub / Zenn / SpeakerDeck などは @Kevinrobot34 • 役職:Data Engineer / Data Platform Engineer @ Nowcast ◦ 2020年新卒入社 ◦ POSデータのパイプライン作成・運用、分析 ◦ Snowflake x dbt x Terraform な社内データ基盤構築・運用 2
© 2024 Finatext Holdings Ltd. 1. イントロダクション 会社紹介 データの保有側・利用側の双方に価値を提供するオルタナティブデータの Two-Sided
Platformを展開します 3
© 2024 Finatext Holdings Ltd. 1. イントロダクション NowcastがSnowflakeで扱う多様なデータ 4 決済データ
(POS、クレジットカード) マスタデータ (住所、企業、商業施設) 人流データ (位置情報) 労働市場データ (求人情報) 広告データ (TV広告) 財務データ (決算・有価証券報告書) これらの様々なデータを迅速に加工・分析していくために、 セルフサービスなデータ基盤が必須だった
© 2024 Finatext Holdings Ltd. 2. ナウキャストのデータ基盤 ナウキャストのデータ基盤 Datahub 一つの
Snowflake アカウントの中で様々なデータの ELT パイプライン (dbt) が動いている。 インフラは Terraform で管理されており、Airflow でタスクのオーケストレーションをしている。 5
© 2024 Finatext Holdings Ltd. 2. ナウキャストのデータ基盤 ナウキャストのデータ基盤 Datahub このようなデータ基盤に至る経緯や、最近の非構造化データの活用などについては以下の資料もご覧ください。
6 Snowflake x dbt x Terraform マルチデータプロダクト基盤 DataOps Night #4 資料 Snowflake Intelligence × Document AI で “使いにくいデータ”を“使えるデータ”に Snowflake World Tour Tokyo 2025 資料
© 2024 Finatext Holdings Ltd. 2. ナウキャストのデータ基盤 データ基盤の利用状況 7 100TB+
データ保存量 30+ データソース数 20TB+ データスキャン量 / 日 100+ 社内ユーザー数 200K+ クエリ数 / 日 70%+ アクティブ率
© 2024 Finatext Holdings Ltd. 3. ナウキャストにおけるデータの民主化 データの民主化の施策 8 組織構造
Platform Team と Stream Aligned Team による 役割分担 CI/CD等の整備 適切なCI/CDの整備、 そして GitHub の環境の整備により 開発体験を向上 横展開を見据えた設計 モジュール化・テンプレート化を 適切に行い、開発を迅速にし 知見も展開しやすく 知見共有の文化づくり 仕組みで横展開しやすくするだけでなく 知見を共有する文化を作り 社内での開発の効率向上を目指す
© 2024 Finatext Holdings Ltd. 3. ナウキャストにおけるデータの民主化 組織構造 Platform Team
と Stream Aligned Team • Platform Team ◦ データ基盤の設計・構築・運用やCCoE的な役割 ◦ 中央集権型になるとスケールできないので、 セルフサービスなデータ基盤となるように設計 ◦ 具体例(後述) ▪ Snowflake や dbt の モジュール・テンプレートの開発 ▪ CI/CDの整備 ▪ 知見の共有の文化づくり • Stream Aligned Team ◦ 各データソース・データプロダクトに 関する開発・保守に注力 9
© 2024 Finatext Holdings Ltd. 3. ナウキャストにおけるデータの民主化 横展開を見据えた設計 • 各チームがよく使うインフラについては
Terraform でモジュールを作り、 それを利用すれば以下のアーキテクチャがサクッと作れるような形に。 • dbt や Python 環境、Dockerfile などもまとめて作れるテンプレートも。 • これらのモジュールやテンプレートは社内だけでなく、 ソリューション事業でも同様なものが使えるようになっている ◦ SnowCast としてリリース ◦ 社内外の活用を踏まえ、日々改善が行われている 10
© 2024 Finatext Holdings Ltd. 3. ナウキャストにおけるデータの民主化 CI/CDの整備 • GitHub
Repo の整備 ◦ なるべくブランチ戦略は GitHub flow などシンプルに ▪ masterブランチ一本であれば誰でも気軽に作業しやすいように ◦ branch rule set を適切に入れて、ミスがないように ▪ master branch の保護 ▪ CIの強制 ▪ CODEOWNERSによる特定ファイル・フォルダの保護 ▪ merge 方法の指定(squashのみにするなど) ◦ 全社的な仕組み ▪ Secrets Scan の仕組みで間違って API キーなどをコミットしても気付けるように 11 Efficient Platform for Security and Compliance https://speakerdeck.com/taiki45/efficient-platf orm-for-security-and-compliance-89d1ad22-14 d6-44df-ab7e-dc4ca7fb470c
© 2024 Finatext Holdings Ltd. 3. ナウキャストにおけるデータの民主化 CI/CDの整備 • CI/CDの対象
◦ Terraform ◦ dbt や Python コード ▪ SQLやPython の Linter / Formatter ▪ Image を ECR に push ◦ Airflow の dag のデプロイ ◦ Streamlit 12
© 2024 Finatext Holdings Ltd. 3. ナウキャストにおけるデータの民主化 知見共有の文化づくり • 各プロダクトで見つけた課題や知見を共有するようにしている
• 課題についてはなるべく早めに現象を解明し、CIやモジュールに反映することで仕組みで解決しそれを展開 • パフォーマンス改善などの知見については気軽に共有できる勉強会を週次で開催 ◦ また内容によってはそれをまとめてテックブログにも 13 ナウキャスト含むFinatextグループのZenn : https://zenn.dev/p/finatext
© 2024 Finatext Holdings Ltd. 4. 今後の課題 更なるセルフサービス化 • 権限管理を適切に行うために、多くのロールが作られている
◦ Terraform Module で作成しているので、 一定のルールで作られてはいるものの、 数が多くなってきているため管理が大変 ◦ またこの Snowflake アカウントの強めの権限を 渡すわけにはいかない • より data mesh 的なアプローチも検討し得る ◦ プロダクトなどごとに Snowflake アカウントを分け、社内で共有するためには Snowflake の Internal Marketplace を利用して データを共有 ◦ また Iceberg を使うことで、 Snowflake 外でもデータ提供しやすい 14 https://medium.com/snowflake/how-snowflake-powers-data-mesh-arc hitecture-with-an-internal-marketplace-6f2368ae0d8d より
© 2024 Finatext Holdings Ltd. 4. 今後の課題 更なるデータ基盤の進化 • メタデータ管理の高度化
◦ OpenMetadata など、メタデータ管理をよりやりやすくしていく ◦ エンジニア・ビジネスメンバー・AIそれぞれ皆が使いやすいメタデータ管理方法の模索 • 非構造化データの更なる活用 ◦ データ抽出の自動化と Human-in-the-loop による精度の担保 ◦ テキストデータも含めた活用 15 Snowflake Intelligence × Document AI で “使いにくいデータ”を“使えるデータ”に Snowflake World Tour Tokyo 2025 資料
© 2024 Finatext Holdings Ltd. 今日のまとめ • ナウキャストではマルチデータプロダクトの開発を迅速に行うために、 セルフサービスなデータ基盤を構築し、運用している ◦
組織構造 ◦ モジュール化・テンプレート化による横展開 ◦ CI/CD の整備 ◦ 知見共有の文化づくり • 更なるセルフサービス化やメタデータ管理、 非構造データの活用など、データ基盤の進化の余地はまだまだある • 一緒にデータの民主化を進め、 データプロダクトを作っていくメンバー募集中! ◦ データエンジニア ◦ アナリティクスエンジニア ◦ サーバーサイドエンジニア ◦ など幅広く募集中です! 16 Finatext グループ採用サイト https://finatext.com/recruit
None