Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OTFSG勉強会 / Introduction to the History of Delta...
Search
Databricks Japan
June 18, 2025
Technology
0
190
OTFSG勉強会 / Introduction to the History of Delta Lake + Iceberg
6月17日に大阪で開催されたオープンテーブルフォーマット勉強会での発表資料になります。
Delta Lakeの歴史から、最新のIcebergへの対応について詳しく説明します。
Databricks Japan
June 18, 2025
Tweet
Share
More Decks by Databricks Japan
See All by Databricks Japan
AIもデータも、もっと身近に。Databricksで広がる金融業界の可能性 / FDUA-Study
databricksjapan
0
130
[2025年5月版] Azure Databricks最新機能アップデート / 202505 Azure Databricks Latest Updates
databricksjapan
0
230
DatabricksとPower BIの連携メリット / Databricks PowerBI Integration Merits
databricksjapan
1
240
[2025年4月版] Databricks Academy ラボ環境 利用開始手順 / Databricks Academy Labs Onboarding
databricksjapan
2
460
Lakeflow Connectのご紹介
databricksjapan
1
270
MLflowの現在と未来 / MLflow Present and Future
databricksjapan
1
740
Iceberg Meetup Japan #1 : Iceberg and Databricks
databricksjapan
0
880
JEDAI Meetup! Databricks AI/BI概要
databricksjapan
0
670
Databricks AI/BIクイックワークショップ 環境セットアップガイド
databricksjapan
2
500
Other Decks in Technology
See All in Technology
2025-07-25 NOT A HOTEL TECH TALK ━ スマートホーム開発の最前線 ━ SOFTWARE
wakinchan
0
180
株式会社島津製作所_研究開発(集団協業と知的生産)の現場を支える、OSS知識基盤システムの導入
akahane92
1
1.3k
MCPと認可まわりの話 / mcp_and_authorization
convto
2
310
モバイルゲームの開発を支える基盤の歩み ~再現性のある開発ラインを量産する秘訣~
qualiarts
0
740
Amazon CloudWatchのメトリクスインターバルについて / Metrics interval matters
ymotongpoo
3
290
2025/07/22_家族アルバム みてねのCRE における生成AI活用事例
masartz
2
150
M365アカウント侵害時の初動対応
lhazy
7
5.2k
複数のGemini CLIが同時開発する狂気 - Jujutsuが実現するAIエージェント協調の新世界
gunta
13
3.8k
Kiroから考える AIコーディングツールの潮流
s4yuba
1
450
自分がLinc’wellで提供しているプロダクトを理解するためにやったこと
murabayashi
1
170
AI によるドキュメント処理を加速するためのOCR 結果の永続化と再利用戦略
tomoaki25
0
160
Vision Language Modelと自動運転AIの最前線_20250730
yuyamaguchi
2
770
Featured
See All Featured
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
The Cult of Friendly URLs
andyhume
79
6.5k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
1k
Being A Developer After 40
akosma
90
590k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
How STYLIGHT went responsive
nonsquared
100
5.7k
Optimizing for Happiness
mojombo
379
70k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.8k
Rails Girls Zürich Keynote
gr2m
95
14k
Making Projects Easy
brettharned
117
6.3k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.4k
Transcript
Delta Lake の 過去-現在-未来 Shotaro Kotani, Senior Partner Solutions Architect
+少しDatabricksの話
PSA@Databricks 2022年~ SIerさんの技術支援、製品のキャッチアップのお 手伝いをしています R&D@Deloitte 会計不正検知システムの研究開発 Databricks歴 = Spark歴 =
Delta Lake歴 最近 Iceberg 始めました Who am I 小谷 尚太郎 先日のDatabricks Summitにて
本日お話しすること Delta Lake 今昔 + Databricks と Iceberg ❤
Delta Lake の起源 Spark Summit 2018 での会話がきっかけ Dominique Brezinski Distinguished
Engineer@Apple Michael Armbrust Distinguished Engineer@Databricks Apple Payのネットワークの脅威検知した いんやけど、Parquetやったらトランザクショ ン効かへんし、DWHやったら機械学習モデ ルで推論できひんねん なんとかならへんかな? いけるんちゃう?ほなやってみよや → Spark+AI Summit 2019 でOSS化
Delta Lake の機能追加の歴史 最新は Ver 4.0.0 バージョン 0.x(2019年) • オープンソース化(2019年)
• ACIDトランザクション、スキーマエンフォースメント、タイムトラベル などの 基本機能 バージョン 1.0.x(2021年) • プロダクションレディとしての安定化 • Spark 3.1.xとの互換性 バージョン 2.x(2022年〜2023年) • Spark 3.2.x〜3.4.xとの互換性拡大 • Z Ordering のサポート • RESTOREコマンドの強化 バージョン 3.0.0(2023年10月) • UniForm (iceberg互換メタデータ) プレビュー開始 • Checkpoint V2(新しいチェックポイントフォーマット)導入 • ログコンパクションファイルのサポート • UPDATE/MERGE時のセーフキャスト強化 バージョン 3.1.0(2024年1月) • Deletion Vector によるMERGEの高速化 • メタデータ活用によるmin/max集計の高速化 • Delta Sharing経由のテーブルクエリ対応 • 統計情報によるMERGEの高速化 • Iceberg互換(UniForm)強化(MAP/LIST型対応) バージョン 3.2.x(2024年9月) • Liquid Clustering 対応 • クラスタリングテーブルのRESTORE対応 バージョン 3.3.x(2024年12月) • Identity Column(自動採番カラム)サポート • VACUUM LITE(高速VACUUM) • UniForm ALTER(既存テーブルへのUniForm有効化) • Type Widening(型拡張)サポート バージョン 4.0.x(2025年6月) • Spark 4.0.x対応 • Catalog Managed Table のサポート
Deletion Vector 削除、アップデート時にファイルの書き換えが不要に Before After
7 Iceberg v3
8 • Deletion Vectors • Row Lineage • Semi-Structured Data
and Geospatial Types • Delta Lake, Apache Parquet, and Apache Sparkとの相互互換性 Iceberg v3 の主な新機能
Catalog-managed Tables Delta Lake 4.0.0 から Preview, RFS 9 Catalog-managed
Tables, Commits トランザクション管理がObject Storageの Put-if-absense特性に依存 (トランザクションが単一テーブルスコープ) ~ Delta 4.0 カタログがトランザクションを仲介 (複数テーブルスコープへ拡張可能) エンジン (e.g. Spark) エンジン (e.g. Spark)
Multi Statement Transaction (Prpr) Catalog-managed Tables により、複数テーブルのトランザクションが... 掲載せず
Databricks ❤ Iceberg Public Preview - Managed Iceberg Tables
Unity Catalog エコシステム Salesforce Starburst Kafka PyIceberg Fabric Apache Spark
Flink Trino Tableau PowerBI Snowflake Atlassian HMS Glue SAP Iceberg Engines ✅ Data Sharing ✅ Delta Engines ✅ EMR Clickhouse Unity REST APIs Federation Delta Sharing Iceberg REST APIs Other Catalogs ✅ Iceberg REST Snowflake
Demo: Snowflake から UC Table へクエリ Salesforce Starburst Kafka PyIceberg
Fabric Apache Spark Flink Trino Tableau PowerBI Snowflake Atlassian HMS Glue SAP Iceberg Engines ✅ Data Sharing ✅ Delta Engines ✅ EMR Clickhouse Unity REST APIs Federation Delta Sharing Other Catalogs ✅ Iceberg REST Snowflake Iceberg REST APIs
今後は Snowflake からの Write Support も...
【本書の概要】 本書は、高い信頼性とハイパフォーマンスを両立する、OSSの ストレージレイヤソフトウェアであるDelta Lakeの入門書です。 セットアップから実際の操作手順、実行例まで、データ分析に 携わる方が迷わずDelta Lakeを使いこなせるよう丁寧に解説 を行います。 Delta Lake
徹底入門 Delta Lake Up and Running の翻訳書です https://amzn.asia/d/3AOIsWg
None