Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Azure SynapseからAzure Databricksへ 移行してわかった新時代のコス...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Databricks Japan
September 30, 2025
Technology
1
770
Azure SynapseからAzure Databricksへ 移行してわかった新時代のコスト問題!?
「第2回 Youは何しにDatabricksへ!?」でお話いただいたアドインテ様の資料です
Databricks Japan
September 30, 2025
Tweet
Share
More Decks by Databricks Japan
See All by Databricks Japan
DatabricksホストモデルでAIコーディング環境を構築する
databricksjapan
0
350
[Iceberg Meetup #4] ゼロからはじめる: Apache Icebergとはなにか? / Apache Iceberg for Beginners
databricksjapan
0
610
Microsoft Tech Brief : Microsoft Fabric × Databricks × Microsoft Foundry が切り拓く Agentic Analytics 革命 ― Microsoft Ignite & Databricks 社 主催 DATA+AI World Tour Tokyo 最新アップデート総括
databricksjapan
1
190
Money Forwardにおける Databricks利⽤の現状と今後の展望
databricksjapan
0
130
Databricks Lakeflow クイックワークショップ / lakeflow-workshop
databricksjapan
0
240
NEXT弥⽣を⽀えるAI‧データ基盤構想 とシルバー構築について
databricksjapan
0
72
世界をつなぐ、SEGAのグローバルデータメッシュ 〜Databricksで進化する基盤とゲーム運営〜
databricksjapan
0
200
JEDAI認定プログラム JEDAI Order 2026 エントリーのご案内 / JEDAI Order 2026 Entry
databricksjapan
0
300
評価駆動開発で不確実性を制御する - MLflow 3が支えるエージェント開発
databricksjapan
2
390
Other Decks in Technology
See All in Technology
会社紹介資料 / Sansan Company Profile
sansan33
PRO
15
400k
予期せぬコストの急増を障害のように扱う――「コスト版ポストモーテム」の導入とその後の改善
muziyoshiz
1
2k
SRE Enabling戦記 - 急成長する組織にSREを浸透させる戦いの歴史
markie1009
0
140
Amazon Bedrock Knowledge Basesチャンキング解説!
aoinoguchi
0
160
Cosmos World Foundation Model Platform for Physical AI
takmin
0
950
日本の85%が使う公共SaaSは、どう育ったのか
taketakekaho
1
230
Agile Leadership Summit Keynote 2026
m_seki
1
650
20260208_第66回 コンピュータビジョン勉強会
keiichiito1978
0
190
【Ubie】AIを活用した広告アセット「爆速」生成事例 | AI_Ops_Community_Vol.2
yoshiki_0316
1
110
登壇駆動学習のすすめ — CfPのネタの見つけ方と書くときに意識していること
bicstone
3
120
プロダクト成長を支える開発基盤とスケールに伴う課題
yuu26
4
1.4k
AIと新時代を切り拓く。これからのSREとメルカリIBISの挑戦
0gm
2
3k
Featured
See All Featured
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
100
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.7k
Optimizing for Happiness
mojombo
379
71k
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
330
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
130
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
1
100
Amusing Abliteration
ianozsvald
0
100
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
100
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
67
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
3.9k
Deep Space Network (abreviated)
tonyrice
0
64
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
83
Transcript
Confidential Retail media Data Management Platform AI Beacon Agriculture Digital
Transformation Online to Offline Digital Marketing Data Source 第2回 Youは何しにDatabricksへ!? 株式会社アドインテ 分析オペレーションDiv. シニアマネージャー 髙松 築 Azure SynapseからAzure Databricksへ 移行してわかった新時代のコスト問題!? @2025 AdInte Co., Ltd. All Rights Reserved. 1
Confidential Retail media Data Management Platform AI Beacon Agriculture Digital
Transformation Online to Offline Digital Marketing Data Source Agenda • 登壇者・会社紹介 • Synapse時代 • Databricks時代 • 新時代のコスト問題!? • AI時代の挑戦 @2025 AdInte Co., Ltd. All Rights Reserved. 2
Confidential Confidential 自己紹介 @2025 AdInte Co., Ltd. All Rights Reserved.
3
Confidential 自己紹介 4 ➢ 2022年、株式会社アドインテに入社。弱冠28歳。 ➢ 初めて触れるデータ基盤がDatabricksであったため、生粋のPySparkネイ ティブエンジニアとして爆誕。 ➢ 主に小売業のID-POSデータを活用したCDP・分析基盤構築を行う。
➢ 現在はデータエンジニアリングマネージャーとして、Azure Databricksを 用いたデータプラットフォームやGenAIプロダクトの開発に従事。 ➢ DatabricksやMicrosoftのコミュニティで幹事をやってます! ➢ Jedai Masterです! 分析オペレーションDiv. シニアマネージャー 髙松 築|Kizuku Takamatsu @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential Confidential 会社紹介 @2025 AdInte Co., Ltd. All Rights Reserved.
6
Confidential 会社概要 株式会社ベクトル 株式会社三越伊勢丹イノベーションズ 株式会社ビジョン 株式会社博報堂DYホールディングス 株式会社ファミマデジタルワン 株式会社クロスベンチャーズ 三井物産株式会社 株式会社東京ドーム
株式会社新生銀行 株式会社ヒト・コミュニケーションズ・ホールディングス 株式会社丸井グループ グローリー株式会社 株式会社オリエンタルランド・イノベーションズ 大日本印刷株式会社 Sony Innovation Fund 【メディア掲載】 RETAIL AI TECHNOLOGY アジア太平洋地域TOP10社 【受賞】 社名 : 株式会社アドインテ 設立 : 2009年4月 代表者 : 代表取締役 十河 慎治 資本金 : 1億円 従業員数 : 186名(2024年10月時点) オフィス : 京都(本社)/東京/大阪/高知/韓国/上海 主要株主 : Japan Partner of the Year 2024 リテールアワード受賞 7 @2025 AdInte Co., Ltd. All Rights Reserved. 7
Confidential 事業領域 8 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential C o p y r i g h t
© 2 0 2 5 A d I n t e c o . , l t d A l l R i g h t s R e s e r v e d . Retail Media Summit 2025 公式Webサイト https://www.retailmedia-japan.com/ リテールメディアサミット
Confidential Confidential お仕事紹介 @2025 AdInte Co., Ltd. All Rights Reserved.
10
Confidential 主な業務 リテールメディアで使用するデータに関わる業務全般 具体的には • データ分析基盤の構築 • データの管理・運用 • 広告配信用データの抽出
• 購買分析レポート用データの抽出 • 速度改善や業務効率化の検討、対応 • 新ツールの導入検討、対応 • リテールメディア関連のデータ連携 • その他データに関わるすべてのアプリケーション開発 など、多岐にわたる業務を分担して行っているチーム @2024 AdInte Co., Ltd. All Rights Reserved. 11
Confidential リテールメディアで主に使用するデータ • 各リテールのID-POSデータ 実店舗、EC、その他CRMデータ • AIBeaconで取得したデータ アドインテで収集しているデータ • 各種広告媒体の配信ログデータ
12 @2024 AdInte Co., Ltd. All Rights Reserved.
Confidential Confidential Synapse時代 @2025 AdInte Co., Ltd. All Rights Reserved.
13
Confidential アドインテのシステム構成 14 @2024 AdInte Co., Ltd. All Rights Reserved.
AWS S3 FTP Google Cloud Storage 対向先クラウド or サーバ 生データコピー Azure Blob Storage DMP・CDP構築 ※ 分析資料作成 ETL クレンジング マッチング Azure Blob Storage Power BI ※補足 DMP:アドインテデータについてのプラットフォーム CDP:お客様データについてのプラットフォーム 各リテールで 管理・運用を行っている範囲 アドインテで管理・運用を行っている範囲
Confidential アドインテのシステム構成 15 @2024 AdInte Co., Ltd. All Rights Reserved.
AWS S3 FTP Google Cloud Storage 対向先クラウド or サーバ 生データコピー Azure Blob Storage DMP・CDP構築 ※ 分析資料作成 ETL クレンジング マッチング Azure Blob Storage Power BI ※補足 DMP:アドインテデータについてのプラットフォーム CDP:お客様データについてのプラットフォーム 各リテールで 管理・運用を行っている範囲 アドインテで管理・運用を行っている範囲 • Functions • Databricks • EventGrid • Event Hubs • Datafactry
Confidential なぜAzure Synapseにしたのか 分散アーキテクチャで大規 模データ処理がとても早く 行え • 既存のDatabricksでの処 理だと一つのjobに2時間 くらいかかる
SQLベースで分析メンバー も使いやすい!(Pythonを 覚えなくていい!) • Python=エンジニア ユ ーザーはエンジニアでは ない ウェアハウスのスケーリン グが無限! • 日中の使用と夜間バッチ でサイズを任意に変更で きてコスパがいい
Confidential なぜAzure Synapseにしたのか 分散アーキテクチャで大規 模データ処理がとても早く 行え • 既存のDatabricksでの処 理だと一つのjobに2時間 くらいかかる
SQLベースで分析メンバー も使いやすい!(Pythonを 覚えなくていい!) • Python=エンジニア ユ ーザーはエンジニアでは ない ウェアハウスのスケーリン グが無限! • 日中の使用と夜間バッチ でサイズを任意に変更で きてコスパがいい そもそもApache Sparkなので、 Databricksがプロバイダー Migration前に SQLウェアハウスがGA VMサイズで無限に拡張可能
Confidential Confidential Azure Synapseで困ったこと @2025 AdInte Co., Ltd. All Rights
Reserved. 18
Confidential Synapseにして困ったこと • DWU100cで動く想定 → 最終DWU3000cでもきびしい($54/1hour) • 並列でバッチを組むと並列でパフォーマンスが下がる • スケーリングのたびに10分の待機時間、今までの処理はすべて吹っ飛ぶ
• SQLしか使えないのでETL、クレンジングがめちゃくちゃ大変 • 環境分離ができない(高すぎてリソース共有以外の選択肢がない) • ストレージレイヤーは分離しているが、Synapseでマネージドされるので他のウェアハウスにア クセスできない • 復元という概念がほぼない(トラブったら地獄) • エラーが読みづらい • みれるログがExplainかポータルの簡易オペレーションのみ • クレンジングかアドホックのデータ抽出か、どちらか一方しか最適化ができない • ガバナンスがSQLコードベースでしか設定できない • 1年分のデータをリカバリするのに1ヶ月かかる • データの出力方法が60個のtxtファイルのみ • 例外処理書きづらい • 型指定きつい • めちゃくちゃ高い • つらい • むずい @2025 AdInte Co., Ltd. All Rights Reserved. 19
Confidential Synapseのお勉強 @2025 AdInte Co., Ltd. All Rights Reserved. 20
Azure Synapse Analytics : Optimize for Distributions (Dedicated SQL Pools) Azure Synapse Analytics : Choose Right Index and Partition (Dedicated SQL Pools) Azure Synapse Analytics : How Statistics and Cache Works (Dedicated SQL Pools) ア ー キ テ ク チ ャ と は Azure Synapse SQL Distribution戦略(Azure Synapse Analytics : Optimize for Distributions (Dedicated SQL Pools)) Index,Partition戦略(Azure Synapse Analytics : Choose Right Index and Partition (Dedicated SQL Pools)) Statistics戦略(Azure Synapse Analytics : How Statistics and Cache Works (Dedicated SQL Pools)) Synapseアーキテクチャ(Azure Synapse SQL アーキテクチャとは)
Confidential @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential 22
Confidential
Confidential Synapseきびしい 24 @2025 AdInte Co., Ltd. All Rights Reserved.
むずくね?
Confidential ポストSynapse 25 @2025 AdInte Co., Ltd. All Rights Reserved.
ETL、クレンジングとアドホック処理の完全分離 • 一切のリソース共有を行わない • 個別に最適化されたリソース • 即時起動、即時実行、即時削除
Confidential データ階層と環境分離 26 @2025 AdInte Co., Ltd. All Rights Reserved.
基盤データ層 = 実データを置く 場所、ETL・クレンジングを行う環 境 作業ゾーン = プロジェクトや部 署ごとで作業する環境 開発と商用は物理分離したいが データは本番データを使いたい! コストはプロジェクト、部署ごとで管理したい!
Confidential Confidential Databricks時代 27 @2025 AdInte Co., Ltd. All Rights
Reserved.
Confidential データ階層と環境分離のアーキテクチャ 28 Adinte Data Extra Data AI Agent Retail
CDP 1 Retail CDP 2 AI・Data Apps Central Workspace @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential
Confidential Databricksもむずい 31 @2025 AdInte Co., Ltd. All Rights Reserved.
むずくね?
Confidential Databricksもむずい 32 @2025 AdInte Co., Ltd. All Rights Reserved.
安心してください 必須科目は全部マネージドになりました
Confidential Databricksもむずい? • サーバレスでクラスタ管理不要 • エージェントブリックス、Genieなどなどいい感じに やってくれます • ガバナンス周りがGUIで完結します •
アシスタントに聞いてください @2025 AdInte Co., Ltd. All Rights Reserved. 33
Confidential Databricksもむずい 34 @2025 AdInte Co., Ltd. All Rights Reserved.
Databricksの熱いサポートと一緒に 学んでいきましょう! きっと幸せになれます
Confidential Synapseにして困ったこと • DWU100cで動く想定 → 最終DWU3000cでもきびしい($54/1hour) • 並列でバッチを組むと並列でパフォーマンスが下がる • スケーリングのたびに10分の待機時間、今までの処理はすべて吹っ飛ぶ
• SQLしか使えないのでETL、クレンジングがめちゃくちゃ大変 • 環境分離ができない(高すぎてリソース共有以外の選択肢がない) • ストレージレイヤーは分離しているが、Synapseでマネージドされるので他のウェアハウ スにアクセスできない • 復元という概念がほぼない(トラブったら地獄) • エラーが読みづらい • みれるログがExplainかポータルの簡易オペレーションのみ • クレンジングかアドホックのデータ抽出か、どちらか一方しか最適化ができない • ガバナンスがSQLコードベースでしか設定できない • 1年分のデータをリカバリするのに1ヶ月かかる • データの出力方法が60個のtxtファイルのみ • 例外処理下記づらい • めちゃくちゃ高い • つらい • むずい @2025 AdInte Co., Ltd. All Rights Reserved. 35
Confidential Databricksにして解決したこと • DWU100cで動く想定 → 最終DWU3000cでもきびしい ($54/1hour) → サーバレスで解決 •
並列でバッチを組むと並列でパフォーマンスが下がる → 各処理が完全独立 • スケーリングのたびに10分の待機時間、今までの処理はすべて 吹っ飛ぶ → サーバレスで解決、完全独立なので他の処理に影響なし • SQLしか使えないのでETL、クレンジングがめちゃくちゃ大変 → Pysparkですべて解決、ML、データ、LLM、APIなんでもOK • 環境分離ができない(高すぎてリソース共有以外の選択肢がな い) → SQLウェアハウスもクラスターも可能、用途に合わせて共有と 分離の共存 @2025 AdInte Co., Ltd. All Rights Reserved. 36 • ストレージレイヤーは分離しているが、Synapseでマネージドさ れるので他のウェアハウスにアクセスできない → ワークスペース、サブスクリプションが分かれても同一メタス トアで解決、Lakehouseフェデレーション、DCR、デルタシェアリン グで環境間連携が容易 • 復元という概念がほぼない(トラブったら地獄) → テーブルのバージョン管理が標準搭載、コマンド一つで高速リ カバリ • エラーが読みづらい → アシスタントで解決、SQLの何も情報がないエラーより常によ い • みれるログがExplainかポータルの簡易オペレーションのみ → クエリプロファイルが標準搭載(ガングリアは返して欲しい) 以下省略
Confidential 付随して得られたこと 37 @2025 AdInte Co., Ltd. All Rights Reserved.
• データ:Lakehouse/LakeBase、OLAPとOLTPの共存 • 外部連携:フェデレーション、DCR、Deltasharing • 実行:SQL Warehouse、Photon/Spark、notebook/Jobs (サーバレス) • AI:Vector Search、Model Serving(任意モデル) • アプリ:Databricks Apps(Next.js/React=商用品質UI) • 統治:Unity Catalog(権限・メタ・Lineage・監査) MLflow(実験→登録→Serving) AI・データアプリケーションに必要な RDB/DWH/Apps/Vector/Serving/Job をすべて同じUXで完結! データをいかに扱うか=データとアプ リケーションを近い距離に配置! データ屋さんが語るアプリケーション の世界線へ 詳しくはみんつよ第5回を参照くださ い!
Confidential Confidential 新時代のコスト問題!? 38 @2025 AdInte Co., Ltd. All Rights
Reserved.
Confidential コストを下げるとコストが上がる!? @2025 AdInte Co., Ltd. All Rights Reserved. 39
処理速度 ≠ 人間の労働時間 人間の無尽蔵の 欲求
Confidential ビジネスの加速、コストの加速 40 1時間で6処理可能!! 1処理1時間から10分に短縮 もっと複雑で重い処理をしてもよい!!! コストは1/6に圧縮 @2025 AdInte Co.,
Ltd. All Rights Reserved.
Confidential より一層コスト管理が重要に @2025 AdInte Co., Ltd. All Rights Reserved. 41
処理コストとそれによって発生する売り上げの紐付けが重要 「なんでもできる」はビジネス的にはメリットにもデメリットにもなり得る 管理コストは数字に表れない
Confidential Confidential AI時代の挑戦〜ビッグデータ解析エージェント〜 42 @2025 AdInte Co., Ltd. All Rights
Reserved.
Confidential 43 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential 44 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential 45 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential Confidential AI時代の挑戦〜データ駆動型アプリケーション〜 46 @2025 AdInte Co., Ltd. All Rights
Reserved.
Confidential @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential Confidential AI時代の挑戦〜VibeDataEngineering〜 48 @2025 AdInte Co., Ltd. All Rights
Reserved.
Confidential エージェント用の環境 • ジョブ作成→実行までエージェントが自走 • Notebook/Python/SQLを任意生成・即時実行できる試行環境 • 安全を考えるとセレクト権限のみにしたいが、真価を発揮させるためにはすべての権限を渡す必要がある • データソースはクレンジング後の大きなテーブルをセレクト権限のみで渡し、作業用のカタログとして
Read write可能なものを用意する 49 @2025 AdInte Co., Ltd. All Rights Reserved. Agentごとにワークスペースを切り出す Agent用のEntraアカウントの発行と管理
Confidential VibeDataEngineering 50 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential VibeDataEngineering 51 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential VibeDataEngineering 52 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential VibeDataEngineering 53 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential 最後に Databricksコミュニティやデータ系コミュニティ たくさんあります! Cross Data Platforms Meetup datatech-jp JEDAI
- The Data & AI Meetup ぜひいろいろご参加ください!!! 54 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential