Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OTFSG勉強会 / Introduction to the History of Delta...
Search
Databricks Japan
June 18, 2025
Technology
0
340
OTFSG勉強会 / Introduction to the History of Delta Lake + Iceberg
6月17日に大阪で開催されたオープンテーブルフォーマット勉強会での発表資料になります。
Delta Lakeの歴史から、最新のIcebergへの対応について詳しく説明します。
Databricks Japan
June 18, 2025
Tweet
Share
More Decks by Databricks Japan
See All by Databricks Japan
[2025年10月版] AI/BI 最新機能アップデート / AIBI update on Oct
databricksjapan
1
150
[2025年10月版] Databricks Data + AI Boot Camp
databricksjapan
2
380
Microsoft Tech Brief 【2025年10月最新版!】 Fabric & Databricks が導く "未来型 AI Agentic Analytics" の最新アップデートを徹底解説!
databricksjapan
1
350
動画データのポテンシャルを引き出す! Databricks と AI活用への奮闘記(現在進行形)
databricksjapan
2
270
RedshiftからDatabricksに引っ越してみたら、 想像以上に良かった話
databricksjapan
1
280
Azure SynapseからAzure Databricksへ 移行してわかった新時代のコスト問題!?
databricksjapan
1
380
Databricks連携で実現する DWHモダナイゼーション
databricksjapan
1
220
[2025年7月版] AI/BI 最新機能アップデート / AIBI update on July
databricksjapan
0
200
AIもデータも、もっと身近に。Databricksで広がる金融業界の可能性 / FDUA-Study
databricksjapan
0
310
Other Decks in Technology
See All in Technology
Digitization部 紹介資料
sansan33
PRO
1
6.1k
Data Hubグループ 紹介資料
sansan33
PRO
0
2.3k
ブラウザ拡張のセキュリティの話 / Browser Extension Security
flatt_security
0
240
【保存版】「ガチャ」からの脱却:Gemini × Veoで作る、意図を反映するAI動画制作ワークフロー
nekoailab
0
120
"なるべくスケジューリングしない" を実現する "PreferNoSchedule" taint
superbrothers
0
130
Modern Data Stack大好きマンが語るSnowflakeの魅力
sagara
0
230
Capture Checking / Separation Checking 入門
tanishiking
0
110
Eight Engineering Unit 紹介資料
sansan33
PRO
0
5.7k
命名から始めるSpec Driven
kuruwic
3
780
DGX SparkでローカルLLMをLangChainで動かした話
ruzia
1
210
TypeScript 6.0で非推奨化されるオプションたち
uhyo
15
5.8k
Product Engineer
resilire
0
100
Featured
See All Featured
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.6k
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
The Cult of Friendly URLs
andyhume
79
6.7k
Thoughts on Productivity
jonyablonski
73
4.9k
Side Projects
sachag
455
43k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.8k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
37
2.6k
Done Done
chrislema
186
16k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
Transcript
Delta Lake の 過去-現在-未来 Shotaro Kotani, Senior Partner Solutions Architect
+少しDatabricksの話
PSA@Databricks 2022年~ SIerさんの技術支援、製品のキャッチアップのお 手伝いをしています R&D@Deloitte 会計不正検知システムの研究開発 Databricks歴 = Spark歴 =
Delta Lake歴 最近 Iceberg 始めました Who am I 小谷 尚太郎 先日のDatabricks Summitにて
本日お話しすること Delta Lake 今昔 + Databricks と Iceberg ❤
Delta Lake の起源 Spark Summit 2018 での会話がきっかけ Dominique Brezinski Distinguished
Engineer@Apple Michael Armbrust Distinguished Engineer@Databricks Apple Payのネットワークの脅威検知した いんやけど、Parquetやったらトランザクショ ン効かへんし、DWHやったら機械学習モデ ルで推論できひんねん なんとかならへんかな? いけるんちゃう?ほなやってみよや → Spark+AI Summit 2019 でOSS化
Delta Lake の機能追加の歴史 最新は Ver 4.0.0 バージョン 0.x(2019年) • オープンソース化(2019年)
• ACIDトランザクション、スキーマエンフォースメント、タイムトラベル などの 基本機能 バージョン 1.0.x(2021年) • プロダクションレディとしての安定化 • Spark 3.1.xとの互換性 バージョン 2.x(2022年〜2023年) • Spark 3.2.x〜3.4.xとの互換性拡大 • Z Ordering のサポート • RESTOREコマンドの強化 バージョン 3.0.0(2023年10月) • UniForm (iceberg互換メタデータ) プレビュー開始 • Checkpoint V2(新しいチェックポイントフォーマット)導入 • ログコンパクションファイルのサポート • UPDATE/MERGE時のセーフキャスト強化 バージョン 3.1.0(2024年1月) • Deletion Vector によるMERGEの高速化 • メタデータ活用によるmin/max集計の高速化 • Delta Sharing経由のテーブルクエリ対応 • 統計情報によるMERGEの高速化 • Iceberg互換(UniForm)強化(MAP/LIST型対応) バージョン 3.2.x(2024年9月) • Liquid Clustering 対応 • クラスタリングテーブルのRESTORE対応 バージョン 3.3.x(2024年12月) • Identity Column(自動採番カラム)サポート • VACUUM LITE(高速VACUUM) • UniForm ALTER(既存テーブルへのUniForm有効化) • Type Widening(型拡張)サポート バージョン 4.0.x(2025年6月) • Spark 4.0.x対応 • Catalog Managed Table のサポート
Deletion Vector 削除、アップデート時にファイルの書き換えが不要に Before After
7 Iceberg v3
8 • Deletion Vectors • Row Lineage • Semi-Structured Data
and Geospatial Types • Delta Lake, Apache Parquet, and Apache Sparkとの相互互換性 Iceberg v3 の主な新機能
Catalog-managed Tables Delta Lake 4.0.0 から Preview, RFS 9 Catalog-managed
Tables, Commits トランザクション管理がObject Storageの Put-if-absense特性に依存 (トランザクションが単一テーブルスコープ) ~ Delta 4.0 カタログがトランザクションを仲介 (複数テーブルスコープへ拡張可能) エンジン (e.g. Spark) エンジン (e.g. Spark)
Multi Statement Transaction (Prpr) Catalog-managed Tables により、複数テーブルのトランザクションが... 掲載せず
Databricks ❤ Iceberg Public Preview - Managed Iceberg Tables
Unity Catalog エコシステム Salesforce Starburst Kafka PyIceberg Fabric Apache Spark
Flink Trino Tableau PowerBI Snowflake Atlassian HMS Glue SAP Iceberg Engines ✅ Data Sharing ✅ Delta Engines ✅ EMR Clickhouse Unity REST APIs Federation Delta Sharing Iceberg REST APIs Other Catalogs ✅ Iceberg REST Snowflake
Demo: Snowflake から UC Table へクエリ Salesforce Starburst Kafka PyIceberg
Fabric Apache Spark Flink Trino Tableau PowerBI Snowflake Atlassian HMS Glue SAP Iceberg Engines ✅ Data Sharing ✅ Delta Engines ✅ EMR Clickhouse Unity REST APIs Federation Delta Sharing Other Catalogs ✅ Iceberg REST Snowflake Iceberg REST APIs
今後は Snowflake からの Write Support も...
【本書の概要】 本書は、高い信頼性とハイパフォーマンスを両立する、OSSの ストレージレイヤソフトウェアであるDelta Lakeの入門書です。 セットアップから実際の操作手順、実行例まで、データ分析に 携わる方が迷わずDelta Lakeを使いこなせるよう丁寧に解説 を行います。 Delta Lake
徹底入門 Delta Lake Up and Running の翻訳書です https://amzn.asia/d/3AOIsWg
None