Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OTFSG勉強会 / Introduction to the History of Delta...
Search
Databricks Japan
June 18, 2025
Technology
0
14
OTFSG勉強会 / Introduction to the History of Delta Lake + Iceberg
6月17日に大阪で開催されたオープンテーブルフォーマット勉強会での発表資料になります。
Delta Lakeの歴史から、最新のIcebergへの対応について詳しく説明します。
Databricks Japan
June 18, 2025
Tweet
Share
More Decks by Databricks Japan
See All by Databricks Japan
[2025年5月版] Azure Databricks最新機能アップデート / 202505 Azure Databricks Latest Updates
databricksjapan
0
170
DatabricksとPower BIの連携メリット / Databricks PowerBI Integration Merits
databricksjapan
1
170
[2025年4月版] Databricks Academy ラボ環境 利用開始手順 / Databricks Academy Labs Onboarding
databricksjapan
2
340
Lakeflow Connectのご紹介
databricksjapan
1
180
MLflowの現在と未来 / MLflow Present and Future
databricksjapan
1
550
Iceberg Meetup Japan #1 : Iceberg and Databricks
databricksjapan
0
820
JEDAI Meetup! Databricks AI/BI概要
databricksjapan
0
600
Databricks AI/BIクイックワークショップ 環境セットアップガイド
databricksjapan
2
430
Databricks AI/BIクイックワークショップ
databricksjapan
1
1.7k
Other Decks in Technology
See All in Technology
AWS と定理証明 〜ポリシー言語 Cedar 開発の舞台裏〜 #fp_matsuri / FP Matsuri 2025
ytaka23
9
2.3k
研究開発部メンバーの働き⽅ / Sansan R&D Profile
sansan33
PRO
3
17k
今からでも間に合う! 生成AI「RAG」再入門 / Re-introduction to RAG in Generative AI
hideakiaoyagi
1
150
Introduction to Sansan, inc / Sansan Global Development Center, Inc.
sansan33
PRO
0
2.6k
技術職じゃない私がVibe Codingで感じた、AGIが身近になる未来
blueb
0
120
AI Engineering Summit Pre Event LT #10
okaru
2
560
生成AIをテストプロセスに活用し"よう"としている話 #jasstnano
makky_tyuyan
0
120
Introduction to Bill One Development Engineer
sansan33
PRO
0
250
メルカリにおけるデータアナリティクス AI エージェント「Socrates」と ADK 活用事例
na0
16
8.9k
やさしい認証認可
minorun365
PRO
29
12k
Securing your Lambda 101
chillzprezi
0
230
New Cache Hierarchy for Container Images and OCI Artifacts in Kubernetes Clusters using Containerd / KubeCon + CloudNativeCon Japan
pfn
PRO
0
140
Featured
See All Featured
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.3k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Gamification - CAS2011
davidbonilla
81
5.3k
Become a Pro
speakerdeck
PRO
28
5.4k
The Power of CSS Pseudo Elements
geoffreycrofte
77
5.8k
Art, The Web, and Tiny UX
lynnandtonic
299
21k
Rails Girls Zürich Keynote
gr2m
94
14k
How STYLIGHT went responsive
nonsquared
100
5.6k
What's in a price? How to price your products and services
michaelherold
245
12k
The World Runs on Bad Software
bkeepers
PRO
68
11k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
The Language of Interfaces
destraynor
158
25k
Transcript
Delta Lake の 過去-現在-未来 Shotaro Kotani, Senior Partner Solutions Architect
+少しDatabricksの話
PSA@Databricks 2022年~ SIerさんの技術支援、製品のキャッチアップのお 手伝いをしています R&D@Deloitte 会計不正検知システムの研究開発 Databricks歴 = Spark歴 =
Delta Lake歴 最近 Iceberg 始めました Who am I 小谷 尚太郎 先日のDatabricks Summitにて
本日お話しすること Delta Lake 今昔 + Databricks と Iceberg ❤
Delta Lake の起源 Spark Summit 2018 での会話がきっかけ Dominique Brezinski Distinguished
Engineer@Apple Michael Armbrust Distinguished Engineer@Databricks Apple Payのネットワークの脅威検知した いんやけど、Parquetやったらトランザクショ ン効かへんし、DWHやったら機械学習モデ ルで推論できひんねん なんとかならへんかな? いけるんちゃう?ほなやってみよや → Spark+AI Summit 2019 でOSS化
Delta Lake の機能追加の歴史 最新は Ver 4.0.0 バージョン 0.x(2019年) • オープンソース化(2019年)
• ACIDトランザクション、スキーマエンフォースメント、タイムトラベル などの 基本機能 バージョン 1.0.x(2021年) • プロダクションレディとしての安定化 • Spark 3.1.xとの互換性 バージョン 2.x(2022年〜2023年) • Spark 3.2.x〜3.4.xとの互換性拡大 • Z Ordering のサポート • RESTOREコマンドの強化 バージョン 3.0.0(2023年10月) • UniForm (iceberg互換メタデータ) プレビュー開始 • Checkpoint V2(新しいチェックポイントフォーマット)導入 • ログコンパクションファイルのサポート • UPDATE/MERGE時のセーフキャスト強化 バージョン 3.1.0(2024年1月) • Deletion Vector によるMERGEの高速化 • メタデータ活用によるmin/max集計の高速化 • Delta Sharing経由のテーブルクエリ対応 • 統計情報によるMERGEの高速化 • Iceberg互換(UniForm)強化(MAP/LIST型対応) バージョン 3.2.x(2024年9月) • Liquid Clustering 対応 • クラスタリングテーブルのRESTORE対応 バージョン 3.3.x(2024年12月) • Identity Column(自動採番カラム)サポート • VACUUM LITE(高速VACUUM) • UniForm ALTER(既存テーブルへのUniForm有効化) • Type Widening(型拡張)サポート バージョン 4.0.x(2025年6月) • Spark 4.0.x対応 • Catalog Managed Table のサポート
Deletion Vector 削除、アップデート時にファイルの書き換えが不要に Before After
7 Iceberg v3
8 • Deletion Vectors • Row Lineage • Semi-Structured Data
and Geospatial Types • Delta Lake, Apache Parquet, and Apache Sparkとの相互互換性 Iceberg v3 の主な新機能
Catalog-managed Tables Delta Lake 4.0.0 から Preview, RFS 9 Catalog-managed
Tables, Commits トランザクション管理がObject Storageの Put-if-absense特性に依存 (トランザクションが単一テーブルスコープ) ~ Delta 4.0 カタログがトランザクションを仲介 (複数テーブルスコープへ拡張可能) エンジン (e.g. Spark) エンジン (e.g. Spark)
Multi Statement Transaction (Prpr) Catalog-managed Tables により、複数テーブルのトランザクションが... 掲載せず
Databricks ❤ Iceberg Public Preview - Managed Iceberg Tables
Unity Catalog エコシステム Salesforce Starburst Kafka PyIceberg Fabric Apache Spark
Flink Trino Tableau PowerBI Snowflake Atlassian HMS Glue SAP Iceberg Engines ✅ Data Sharing ✅ Delta Engines ✅ EMR Clickhouse Unity REST APIs Federation Delta Sharing Iceberg REST APIs Other Catalogs ✅ Iceberg REST Snowflake
Demo: Snowflake から UC Table へクエリ Salesforce Starburst Kafka PyIceberg
Fabric Apache Spark Flink Trino Tableau PowerBI Snowflake Atlassian HMS Glue SAP Iceberg Engines ✅ Data Sharing ✅ Delta Engines ✅ EMR Clickhouse Unity REST APIs Federation Delta Sharing Other Catalogs ✅ Iceberg REST Snowflake Iceberg REST APIs
今後は Snowflake からの Write Support も...
【本書の概要】 本書は、高い信頼性とハイパフォーマンスを両立する、OSSの ストレージレイヤソフトウェアであるDelta Lakeの入門書です。 セットアップから実際の操作手順、実行例まで、データ分析に 携わる方が迷わずDelta Lakeを使いこなせるよう丁寧に解説 を行います。 Delta Lake
徹底入門 Delta Lake Up and Running の翻訳書です https://amzn.asia/d/3AOIsWg
None