Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Azure SynapseからAzure Databricksへ 移行してわかった新時代のコス...
Search
Databricks Japan
September 30, 2025
Technology
1
670
Azure SynapseからAzure Databricksへ 移行してわかった新時代のコスト問題!?
「第2回 Youは何しにDatabricksへ!?」でお話いただいたアドインテ様の資料です
Databricks Japan
September 30, 2025
Tweet
Share
More Decks by Databricks Japan
See All by Databricks Japan
[Iceberg Meetup #4] ゼロからはじめる: Apache Icebergとはなにか? / Apache Iceberg for Beginners
databricksjapan
0
190
Microsoft Tech Brief : Microsoft Fabric × Databricks × Microsoft Foundry が切り拓く Agentic Analytics 革命 ― Microsoft Ignite & Databricks 社 主催 DATA+AI World Tour Tokyo 最新アップデート総括
databricksjapan
0
110
Money Forwardにおける Databricks利⽤の現状と今後の展望
databricksjapan
0
81
Databricks Lakeflow クイックワークショップ / lakeflow-workshop
databricksjapan
0
150
NEXT弥⽣を⽀えるAI‧データ基盤構想 とシルバー構築について
databricksjapan
0
60
世界をつなぐ、SEGAのグローバルデータメッシュ 〜Databricksで進化する基盤とゲーム運営〜
databricksjapan
0
160
JEDAI認定プログラム JEDAI Order 2026 エントリーのご案内 / JEDAI Order 2026 Entry
databricksjapan
0
240
評価駆動開発で不確実性を制御する - MLflow 3が支えるエージェント開発
databricksjapan
2
350
MLflowで始めるプロンプト管理、評価、最適化
databricksjapan
1
400
Other Decks in Technology
See All in Technology
CodeRabbit CLI + Claude Codeの連携について
oikon48
0
470
AI Agent Standards and Protocols: a Walkthrough of MCP, A2A, and more...
glaforge
0
420
コミュニティが持つ「学びと成長の場」としての作用 / RSGT2026
ama_ch
2
400
たかがボタン、されどボタン ~button要素から深ぼるボタンUIの定義について~ / BuriKaigi 2026
yamanoku
1
290
Digitization部 紹介資料
sansan33
PRO
1
6.6k
かわいい身体と声を持つ そういうものに私はなりたい
yoshimura_datam
0
200
善意の活動は、なぜ続かなくなるのか ーふりかえりが"構造を変える判断"になった半年間ー
matsukurou
0
620
Models vs Bounded Contexts for Domain Modularizati...
ewolff
0
210
AWS Network Firewall Proxyで脱Squid運用⁈
nnydtmg
1
120
Java 25に至る道
skrb
3
230
Oracle Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
3
410
サラリーマンソフトウェアエンジニアのキャリア
yuheinakasaka
42
19k
Featured
See All Featured
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1k
HDC tutorial
michielstock
1
330
Six Lessons from altMBA
skipperchong
29
4.1k
Abbi's Birthday
coloredviolet
0
4.4k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
54k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
140
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
9.4k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
65
36k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.3k
Paper Plane
katiecoart
PRO
0
45k
A designer walks into a library…
pauljervisheath
210
24k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
1
38
Transcript
Confidential Retail media Data Management Platform AI Beacon Agriculture Digital
Transformation Online to Offline Digital Marketing Data Source 第2回 Youは何しにDatabricksへ!? 株式会社アドインテ 分析オペレーションDiv. シニアマネージャー 髙松 築 Azure SynapseからAzure Databricksへ 移行してわかった新時代のコスト問題!? @2025 AdInte Co., Ltd. All Rights Reserved. 1
Confidential Retail media Data Management Platform AI Beacon Agriculture Digital
Transformation Online to Offline Digital Marketing Data Source Agenda • 登壇者・会社紹介 • Synapse時代 • Databricks時代 • 新時代のコスト問題!? • AI時代の挑戦 @2025 AdInte Co., Ltd. All Rights Reserved. 2
Confidential Confidential 自己紹介 @2025 AdInte Co., Ltd. All Rights Reserved.
3
Confidential 自己紹介 4 ➢ 2022年、株式会社アドインテに入社。弱冠28歳。 ➢ 初めて触れるデータ基盤がDatabricksであったため、生粋のPySparkネイ ティブエンジニアとして爆誕。 ➢ 主に小売業のID-POSデータを活用したCDP・分析基盤構築を行う。
➢ 現在はデータエンジニアリングマネージャーとして、Azure Databricksを 用いたデータプラットフォームやGenAIプロダクトの開発に従事。 ➢ DatabricksやMicrosoftのコミュニティで幹事をやってます! ➢ Jedai Masterです! 分析オペレーションDiv. シニアマネージャー 髙松 築|Kizuku Takamatsu @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential Confidential 会社紹介 @2025 AdInte Co., Ltd. All Rights Reserved.
6
Confidential 会社概要 株式会社ベクトル 株式会社三越伊勢丹イノベーションズ 株式会社ビジョン 株式会社博報堂DYホールディングス 株式会社ファミマデジタルワン 株式会社クロスベンチャーズ 三井物産株式会社 株式会社東京ドーム
株式会社新生銀行 株式会社ヒト・コミュニケーションズ・ホールディングス 株式会社丸井グループ グローリー株式会社 株式会社オリエンタルランド・イノベーションズ 大日本印刷株式会社 Sony Innovation Fund 【メディア掲載】 RETAIL AI TECHNOLOGY アジア太平洋地域TOP10社 【受賞】 社名 : 株式会社アドインテ 設立 : 2009年4月 代表者 : 代表取締役 十河 慎治 資本金 : 1億円 従業員数 : 186名(2024年10月時点) オフィス : 京都(本社)/東京/大阪/高知/韓国/上海 主要株主 : Japan Partner of the Year 2024 リテールアワード受賞 7 @2025 AdInte Co., Ltd. All Rights Reserved. 7
Confidential 事業領域 8 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential C o p y r i g h t
© 2 0 2 5 A d I n t e c o . , l t d A l l R i g h t s R e s e r v e d . Retail Media Summit 2025 公式Webサイト https://www.retailmedia-japan.com/ リテールメディアサミット
Confidential Confidential お仕事紹介 @2025 AdInte Co., Ltd. All Rights Reserved.
10
Confidential 主な業務 リテールメディアで使用するデータに関わる業務全般 具体的には • データ分析基盤の構築 • データの管理・運用 • 広告配信用データの抽出
• 購買分析レポート用データの抽出 • 速度改善や業務効率化の検討、対応 • 新ツールの導入検討、対応 • リテールメディア関連のデータ連携 • その他データに関わるすべてのアプリケーション開発 など、多岐にわたる業務を分担して行っているチーム @2024 AdInte Co., Ltd. All Rights Reserved. 11
Confidential リテールメディアで主に使用するデータ • 各リテールのID-POSデータ 実店舗、EC、その他CRMデータ • AIBeaconで取得したデータ アドインテで収集しているデータ • 各種広告媒体の配信ログデータ
12 @2024 AdInte Co., Ltd. All Rights Reserved.
Confidential Confidential Synapse時代 @2025 AdInte Co., Ltd. All Rights Reserved.
13
Confidential アドインテのシステム構成 14 @2024 AdInte Co., Ltd. All Rights Reserved.
AWS S3 FTP Google Cloud Storage 対向先クラウド or サーバ 生データコピー Azure Blob Storage DMP・CDP構築 ※ 分析資料作成 ETL クレンジング マッチング Azure Blob Storage Power BI ※補足 DMP:アドインテデータについてのプラットフォーム CDP:お客様データについてのプラットフォーム 各リテールで 管理・運用を行っている範囲 アドインテで管理・運用を行っている範囲
Confidential アドインテのシステム構成 15 @2024 AdInte Co., Ltd. All Rights Reserved.
AWS S3 FTP Google Cloud Storage 対向先クラウド or サーバ 生データコピー Azure Blob Storage DMP・CDP構築 ※ 分析資料作成 ETL クレンジング マッチング Azure Blob Storage Power BI ※補足 DMP:アドインテデータについてのプラットフォーム CDP:お客様データについてのプラットフォーム 各リテールで 管理・運用を行っている範囲 アドインテで管理・運用を行っている範囲 • Functions • Databricks • EventGrid • Event Hubs • Datafactry
Confidential なぜAzure Synapseにしたのか 分散アーキテクチャで大規 模データ処理がとても早く 行え • 既存のDatabricksでの処 理だと一つのjobに2時間 くらいかかる
SQLベースで分析メンバー も使いやすい!(Pythonを 覚えなくていい!) • Python=エンジニア ユ ーザーはエンジニアでは ない ウェアハウスのスケーリン グが無限! • 日中の使用と夜間バッチ でサイズを任意に変更で きてコスパがいい
Confidential なぜAzure Synapseにしたのか 分散アーキテクチャで大規 模データ処理がとても早く 行え • 既存のDatabricksでの処 理だと一つのjobに2時間 くらいかかる
SQLベースで分析メンバー も使いやすい!(Pythonを 覚えなくていい!) • Python=エンジニア ユ ーザーはエンジニアでは ない ウェアハウスのスケーリン グが無限! • 日中の使用と夜間バッチ でサイズを任意に変更で きてコスパがいい そもそもApache Sparkなので、 Databricksがプロバイダー Migration前に SQLウェアハウスがGA VMサイズで無限に拡張可能
Confidential Confidential Azure Synapseで困ったこと @2025 AdInte Co., Ltd. All Rights
Reserved. 18
Confidential Synapseにして困ったこと • DWU100cで動く想定 → 最終DWU3000cでもきびしい($54/1hour) • 並列でバッチを組むと並列でパフォーマンスが下がる • スケーリングのたびに10分の待機時間、今までの処理はすべて吹っ飛ぶ
• SQLしか使えないのでETL、クレンジングがめちゃくちゃ大変 • 環境分離ができない(高すぎてリソース共有以外の選択肢がない) • ストレージレイヤーは分離しているが、Synapseでマネージドされるので他のウェアハウスにア クセスできない • 復元という概念がほぼない(トラブったら地獄) • エラーが読みづらい • みれるログがExplainかポータルの簡易オペレーションのみ • クレンジングかアドホックのデータ抽出か、どちらか一方しか最適化ができない • ガバナンスがSQLコードベースでしか設定できない • 1年分のデータをリカバリするのに1ヶ月かかる • データの出力方法が60個のtxtファイルのみ • 例外処理書きづらい • 型指定きつい • めちゃくちゃ高い • つらい • むずい @2025 AdInte Co., Ltd. All Rights Reserved. 19
Confidential Synapseのお勉強 @2025 AdInte Co., Ltd. All Rights Reserved. 20
Azure Synapse Analytics : Optimize for Distributions (Dedicated SQL Pools) Azure Synapse Analytics : Choose Right Index and Partition (Dedicated SQL Pools) Azure Synapse Analytics : How Statistics and Cache Works (Dedicated SQL Pools) ア ー キ テ ク チ ャ と は Azure Synapse SQL Distribution戦略(Azure Synapse Analytics : Optimize for Distributions (Dedicated SQL Pools)) Index,Partition戦略(Azure Synapse Analytics : Choose Right Index and Partition (Dedicated SQL Pools)) Statistics戦略(Azure Synapse Analytics : How Statistics and Cache Works (Dedicated SQL Pools)) Synapseアーキテクチャ(Azure Synapse SQL アーキテクチャとは)
Confidential @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential 22
Confidential
Confidential Synapseきびしい 24 @2025 AdInte Co., Ltd. All Rights Reserved.
むずくね?
Confidential ポストSynapse 25 @2025 AdInte Co., Ltd. All Rights Reserved.
ETL、クレンジングとアドホック処理の完全分離 • 一切のリソース共有を行わない • 個別に最適化されたリソース • 即時起動、即時実行、即時削除
Confidential データ階層と環境分離 26 @2025 AdInte Co., Ltd. All Rights Reserved.
基盤データ層 = 実データを置く 場所、ETL・クレンジングを行う環 境 作業ゾーン = プロジェクトや部 署ごとで作業する環境 開発と商用は物理分離したいが データは本番データを使いたい! コストはプロジェクト、部署ごとで管理したい!
Confidential Confidential Databricks時代 27 @2025 AdInte Co., Ltd. All Rights
Reserved.
Confidential データ階層と環境分離のアーキテクチャ 28 Adinte Data Extra Data AI Agent Retail
CDP 1 Retail CDP 2 AI・Data Apps Central Workspace @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential
Confidential Databricksもむずい 31 @2025 AdInte Co., Ltd. All Rights Reserved.
むずくね?
Confidential Databricksもむずい 32 @2025 AdInte Co., Ltd. All Rights Reserved.
安心してください 必須科目は全部マネージドになりました
Confidential Databricksもむずい? • サーバレスでクラスタ管理不要 • エージェントブリックス、Genieなどなどいい感じに やってくれます • ガバナンス周りがGUIで完結します •
アシスタントに聞いてください @2025 AdInte Co., Ltd. All Rights Reserved. 33
Confidential Databricksもむずい 34 @2025 AdInte Co., Ltd. All Rights Reserved.
Databricksの熱いサポートと一緒に 学んでいきましょう! きっと幸せになれます
Confidential Synapseにして困ったこと • DWU100cで動く想定 → 最終DWU3000cでもきびしい($54/1hour) • 並列でバッチを組むと並列でパフォーマンスが下がる • スケーリングのたびに10分の待機時間、今までの処理はすべて吹っ飛ぶ
• SQLしか使えないのでETL、クレンジングがめちゃくちゃ大変 • 環境分離ができない(高すぎてリソース共有以外の選択肢がない) • ストレージレイヤーは分離しているが、Synapseでマネージドされるので他のウェアハウ スにアクセスできない • 復元という概念がほぼない(トラブったら地獄) • エラーが読みづらい • みれるログがExplainかポータルの簡易オペレーションのみ • クレンジングかアドホックのデータ抽出か、どちらか一方しか最適化ができない • ガバナンスがSQLコードベースでしか設定できない • 1年分のデータをリカバリするのに1ヶ月かかる • データの出力方法が60個のtxtファイルのみ • 例外処理下記づらい • めちゃくちゃ高い • つらい • むずい @2025 AdInte Co., Ltd. All Rights Reserved. 35
Confidential Databricksにして解決したこと • DWU100cで動く想定 → 最終DWU3000cでもきびしい ($54/1hour) → サーバレスで解決 •
並列でバッチを組むと並列でパフォーマンスが下がる → 各処理が完全独立 • スケーリングのたびに10分の待機時間、今までの処理はすべて 吹っ飛ぶ → サーバレスで解決、完全独立なので他の処理に影響なし • SQLしか使えないのでETL、クレンジングがめちゃくちゃ大変 → Pysparkですべて解決、ML、データ、LLM、APIなんでもOK • 環境分離ができない(高すぎてリソース共有以外の選択肢がな い) → SQLウェアハウスもクラスターも可能、用途に合わせて共有と 分離の共存 @2025 AdInte Co., Ltd. All Rights Reserved. 36 • ストレージレイヤーは分離しているが、Synapseでマネージドさ れるので他のウェアハウスにアクセスできない → ワークスペース、サブスクリプションが分かれても同一メタス トアで解決、Lakehouseフェデレーション、DCR、デルタシェアリン グで環境間連携が容易 • 復元という概念がほぼない(トラブったら地獄) → テーブルのバージョン管理が標準搭載、コマンド一つで高速リ カバリ • エラーが読みづらい → アシスタントで解決、SQLの何も情報がないエラーより常によ い • みれるログがExplainかポータルの簡易オペレーションのみ → クエリプロファイルが標準搭載(ガングリアは返して欲しい) 以下省略
Confidential 付随して得られたこと 37 @2025 AdInte Co., Ltd. All Rights Reserved.
• データ:Lakehouse/LakeBase、OLAPとOLTPの共存 • 外部連携:フェデレーション、DCR、Deltasharing • 実行:SQL Warehouse、Photon/Spark、notebook/Jobs (サーバレス) • AI:Vector Search、Model Serving(任意モデル) • アプリ:Databricks Apps(Next.js/React=商用品質UI) • 統治:Unity Catalog(権限・メタ・Lineage・監査) MLflow(実験→登録→Serving) AI・データアプリケーションに必要な RDB/DWH/Apps/Vector/Serving/Job をすべて同じUXで完結! データをいかに扱うか=データとアプ リケーションを近い距離に配置! データ屋さんが語るアプリケーション の世界線へ 詳しくはみんつよ第5回を参照くださ い!
Confidential Confidential 新時代のコスト問題!? 38 @2025 AdInte Co., Ltd. All Rights
Reserved.
Confidential コストを下げるとコストが上がる!? @2025 AdInte Co., Ltd. All Rights Reserved. 39
処理速度 ≠ 人間の労働時間 人間の無尽蔵の 欲求
Confidential ビジネスの加速、コストの加速 40 1時間で6処理可能!! 1処理1時間から10分に短縮 もっと複雑で重い処理をしてもよい!!! コストは1/6に圧縮 @2025 AdInte Co.,
Ltd. All Rights Reserved.
Confidential より一層コスト管理が重要に @2025 AdInte Co., Ltd. All Rights Reserved. 41
処理コストとそれによって発生する売り上げの紐付けが重要 「なんでもできる」はビジネス的にはメリットにもデメリットにもなり得る 管理コストは数字に表れない
Confidential Confidential AI時代の挑戦〜ビッグデータ解析エージェント〜 42 @2025 AdInte Co., Ltd. All Rights
Reserved.
Confidential 43 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential 44 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential 45 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential Confidential AI時代の挑戦〜データ駆動型アプリケーション〜 46 @2025 AdInte Co., Ltd. All Rights
Reserved.
Confidential @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential Confidential AI時代の挑戦〜VibeDataEngineering〜 48 @2025 AdInte Co., Ltd. All Rights
Reserved.
Confidential エージェント用の環境 • ジョブ作成→実行までエージェントが自走 • Notebook/Python/SQLを任意生成・即時実行できる試行環境 • 安全を考えるとセレクト権限のみにしたいが、真価を発揮させるためにはすべての権限を渡す必要がある • データソースはクレンジング後の大きなテーブルをセレクト権限のみで渡し、作業用のカタログとして
Read write可能なものを用意する 49 @2025 AdInte Co., Ltd. All Rights Reserved. Agentごとにワークスペースを切り出す Agent用のEntraアカウントの発行と管理
Confidential VibeDataEngineering 50 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential VibeDataEngineering 51 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential VibeDataEngineering 52 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential VibeDataEngineering 53 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential 最後に Databricksコミュニティやデータ系コミュニティ たくさんあります! Cross Data Platforms Meetup datatech-jp JEDAI
- The Data & AI Meetup ぜひいろいろご参加ください!!! 54 @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential @2025 AdInte Co., Ltd. All Rights Reserved.
Confidential