Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DatabricksにおけるIcebergとDelta Lakeの現在と未来 / The Pr...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Databricks Japan Databricks Japan
May 20, 2026
53

DatabricksにおけるIcebergとDelta Lakeの現在と未来 / The Present and Future of Iceberg and Delta Lake in Databricks

Apache Iceberg Meetup Japan #5 (2026/05/20開催) の発表資料
https://iceberg.connpass.com/event/390178/

Avatar for Databricks Japan

Databricks Japan

May 20, 2026

More Decks by Databricks Japan

Transcript

  1. ©2026 Databricks, Inc. — All rights reserved Apache Iceberg Meetup

    Japan #5 Databricksにおける IcebergとDelta Lakeの 現在と未来 2026/5/20 Hiroyuki Nakazato, Sr. Specialist SA, Databricks Japan
  2. ©2026 Databricks, Inc. — All rights reserved スピーカー Hiroyuki Nakazato

    / 中里 浩之 経歴 • SIerでビッグデータ案件を中心に担当 • 通信事業者のサーバーサイド & データエンジニア • Azureのデータ & 分析のソリューションアーキテクト • 2023年11月より現職 データブリックス・ジャパン株式会社 Sr. Specialist Solutions Architect @hiroyuki-nakazato @nakazax
  3. ©2026 Databricks, Inc. — All rights reserved IcebergとDatabricksの歴史 2017 Ryan

    BlueがNetflixで Icebergを開発 2018 Apache Software Foundationに寄贈 2021 Tabular設立 (Ryan Blueら) 2023 Databricksが UniFormを発表 2024 Databricksが Tabularを買収 2025 Unity Catalogで Icebergフルサポート 2026 Iceberg v3 Public Preview Iceberg 単体 Databricks 関連
  4. ©2026 Databricks, Inc. — All rights reserved IcebergとDatabricksの歴史 2017 Ryan

    BlueがNetflixで Icebergを開発 2018 Apache Software Foundationに寄贈 2021 Tabular設立 (Ryan Blueら) 2023 Databricksが UniFormを発表 2024 Databricksが Tabularを買収 2025 Unity Catalogで Icebergフルサポート 2026 Iceberg v3 Public Preview Iceberg 単体 Databricks 関連 2017年 Ryan BlueがNetflixでIceberg を開発 RyanがNetflixのデータインフラチームで大規模テー ブルのメタデータ管理を刷新するプロジェクトとして スタート。 Ryan Blue氏写真
  5. ©2026 Databricks, Inc. — All rights reserved IcebergとDatabricksの歴史 2017 Ryan

    BlueがNetflixで Icebergを開発 2018 Apache Software Foundationに寄贈 2021 Tabular設立 (Ryan Blueら) 2023 Databricksが UniFormを発表 2024 Databricksが Tabularを買収 2025 Unity Catalogで Icebergフルサポート 2026 Iceberg v3 Public Preview Iceberg 単体 Databricks 関連 2021年 Tabular設立 Ryan BlueらがNetflixから独立、Tabularを設立。 Icebergの商用サポートとエコシステムの拡大を推 進。 Tabular社ロゴ
  6. ©2026 Databricks, Inc. — All rights reserved IcebergとDatabricksの歴史 2017 Ryan

    BlueがNetflixで Icebergを開発 2018 Apache Software Foundationに寄贈 2021 Tabular設立 (Ryan Blueら) 2023 Databricksが UniFormを発表 2024 Databricksが Tabularを買収 2025 Unity Catalogで Icebergフルサポート 2026 Iceberg v3 Public Preview Iceberg 単体 Databricks 関連 2023年 DatabricksがUniFormを発表 Delta Lakeへの書き込み時にIcebergメタデータを 自動生成。DatabricksのIcebergエコシステムへの 本格参入の第一歩。
  7. ©2026 Databricks, Inc. — All rights reserved IcebergとDatabricksの歴史 2017 Ryan

    BlueがNetflixで Icebergを開発 2018 Apache Software Foundationに寄贈 2021 Tabular設立 (Ryan Blueら) 2023 Databricksが UniFormを発表 2024 Databricksが Tabularを買収 2025 Unity Catalogで Icebergフルサポート 2026 Iceberg v3 Public Preview Iceberg 単体 Databricks 関連 2024年 DatabricksがTabularを買収 Icebergの産みの親たちがDatabricksに合流。 Delta/Iceberg両方のコア開発者が集結。 「競合」から「協調」へ。 Data + AI Summit 2024 KeynoteでのRyan Blue氏
  8. ©2026 Databricks, Inc. — All rights reserved IcebergとDatabricksの歴史 2017 Ryan

    BlueがNetflixで Icebergを開発 2018 Apache Software Foundationに寄贈 2021 Tabular設立 (Ryan Blueら) 2023 Databricksが UniFormを発表 2024 Databricksが Tabularを買収 2025 Unity Catalogで Icebergフルサポート 2026 Iceberg v3 Public Preview Iceberg 単体 Databricks 関連 2025年 Unity Catalog (UC) が Icebergをフルサポート Iceberg REST Catalog API, マネージドIceberg, 外部Icebergをフルサポート。 UCを通じて外部Icebergエンジンからの 読み書きが可能に。
  9. ©2026 Databricks, Inc. — All rights reserved IcebergとDatabricksの歴史 2017 Ryan

    BlueがNetflixで Icebergを開発 2018 Apache Software Foundationに寄贈 2021 Tabular設立 (Ryan Blueら) 2023 Databricksが UniFormを発表 2024 Databricksが Tabularを買収 2025 Unity Catalogで Icebergフルサポート 2026 Iceberg v3 Public Preview Iceberg 単体 Databricks 関連 2026年4月 Iceberg v3の パブリックプレビューを開始 Deletion Vectors、Row Lineage、 VARIANT型などのv3機能がDatabricks上で 利用可能に。 Databricksブログ https://www.databricks.com/jp/blog/next-era-open-lakeho use-apache-icebergtm-v3-public-preview-databricks
  10. OTFへのDatabricksのコントリビューション Delta Lake、IcebergともにDatabricksが最大のコントリビューター 63% フォーマットの創始者である Databricksが 品質・ロードマップの両面で Deltaの開発をリード Source: GitHub

    REST API "List repository contributors" より2026-04-06時点のデータを取得 (api.github.com/repos/delta-io/delta/contributors, api.github.com/repos/apache/iceberg/contributors)。全コントリビューターの全期間累計 コ ミット数を集計。 Delta Lake: 384名, 4,827 commits。Apache Iceberg: 405名, 6,843 commits。会社帰属は GitHubプロフィールの companyフィールド、メールドメイン、公開情報に基づく推定で、未設定ユーザーは Otherに分類。Tabular社員は 2024年の買収により Databricksに合算。サブプロジェクト (delta-rs, iceberg-python, iceberg-rust等) は集計対象外。 35% Icebergコミュニティでも Databricksが最大の コントリビューターの 1社として開発を牽引
  11. Delta LakeとIcebergの将来像 DatabricksがDelta LakeとIcebergのフォーマット統合をリード 将来像:2つのフォーマットの統合 DeltaおよびIcebergのクライアントからデー タ・メタデータの複製・変換なし に 同じテーブルへの読み書きを可能にする マネージドテーブル

    統合メタデータ Parquet Delta Clients Iceberg Clients Delta, Icebergの両方のクライ アントが Unity Catalogを介し て単一のテーブルにアクセスで きるようになる。 Iceberg v4/Delta v5でメタ データの統一を計画中。将来的 にはDeltaもIcebergも1つの同 じ「マネージドテーブル」として 扱えるようになる。
  12. フォーマット統合の 3ステップ Ryan BlueがDAIS 2025で語ったIcebergとDeltaの統合に向けたロードマップ 1 データ層の 統合 ✅ 完了

    (v3) Parquetファイルレベルで の互換性を確保 (Deletion Vector, Row Lineage, VARIANT等) 2 メタデータ層の 統合 ♻ 進行中 (v4) Adaptive Metadata Tree で メタデータの構造を統合 3 カタログ層での 抽象化 UCで先行実装 ユーザーがフォーマットの違 いを意識する必要を なくす ▶ ▶
  13. ©2026 Databricks, Inc. — All rights reserved Iceberg v3での主要な変更 1

    Deletion Vectors ファイル書換なしの行削除 UPDATE/DELETE/MERGE の書き込みコストを大幅に削 減 2 Row Lineage 永続行 ID + 変更追跡 CDC、データ品質監査の基 盤 3 VARIANT 型 半構造化データの型付き格 納 スキーマ事前定義不要 これらはDelta Lake側で先行実装されており その知見が Iceberg v3に還元された形 (参考) Iceberg v3 主要機能の概要は以下を参照 : speakerdeck.com/tomtanaka/apache-iceberg-meetup-in-japan-number-1-iceberg-v3-spec
  14. ©2026 Databricks, Inc. — All rights reserved Deltaの知見がIceberg v3に Deltaでの先行実装と主要なIceberg

    v3関連PR 機能 Delta 先行実装 主なIceberg PR 主な推進者 Deletion Vectors Delta 2.3 (2023) #11240 (Spec) #11476 (Core) Ryan Blue (Databricks; PMC Chair) Anton Okolnychyi (Databricks; PMC Roster) Row Lineage Delta 3.2 (2024) #11130 (Spec) #11948 (Core) Russell Spitzer (元Apple, 現Snowflake; PMC Roster) Amogh Jahagirdar (Databricks; PMC Roster) VARIANT Delta + Spark 4.0 #10831 (Spec) #11831 (Core) Aihua Xu (Snowflake) Reviewed by Ryan Blue (参考) Apache Iceberg Committee; PMC Roster (25), Committers (39) (2026/5/20時点) https://projects.apache.org/committee.html?iceberg
  15. ©2026 Databricks, Inc. — All rights reserved Deltaの知見がIceberg v3に “DatabricksのDeltaチームはIceberg

    のスペック策定にずっと関わってくれて、 Deltaで何がうまくいって何がダメだった か、アドバイスをくれた。おかげで同じ失 敗を繰り返さずに済んだ ” "The Delta folks from Databricks were really handy and they were consulting on the Iceberg spec the whole way and giving advice about what worked in Delta and what didn't so that we didn't make the same mistakes." Iceberg Summit 2025 KeynoteでのRyan Blueのコメント (出典) https://youtu.be/3N2KEUs7224?t=1632
  16. ©2026 Databricks, Inc. — All rights reserved メタデータの課題 依然として別々の構造と課題を持つ Iceberg

    側の課題 マニフェストの多段書き込みによる Write amplification • 小さなコミットでもマニフェスト全体の書き換 えが必要 • テーブルが大規模化するとメタデータ走査 がボトルネックに 例: 1行のINSERTで以下が発生 0. 新しいData Fileを作成 (起点; これは妥当) 1. Data Fileを含むManifest Fileを作成 2. 新しいManifest Listを作成 3. 新しいMetadata Fileを作成 (画像出典) https://iceberg.apache.org/spec/
  17. ©2026 Databricks, Inc. — All rights reserved メタデータの課題 依然として別々の構造と課題を持つ Delta

    Lake 側の課題 • チェックポイントの 書き込みコスト • コミットログの リプレイコスト 例: テーブルに 100万ファイル、 10コミットごとにチェック ポイント 0. 小さなINSERTで1 Data File追加 1. コミットログ: 1つのJSONを書く (軽い) 2. 10コミット目: 100万エントリ checkpoint.parquet を丸ごと書き直す (重い) 3. テーブルを開く時: 最後のチェックポイント以降の全 JSONを順番にリプレイ (リプレイコスト) (画像出典) Diving Into Delta Lake: Unpacking The Transaction Log
  18. ©2026 Databricks, Inc. — All rights reserved メタデータの課題 依然として別々の構造と課題を持つ Iceberg

    側の課題 マニフェストの多段書き込みによる Write amplification • 小さなコミットでもマニフェスト全体の書き換 えが必要 • テーブルが大規模化するとメタデータ走査 がボトルネックに Delta Lake 側の課題 • チェックポイントの 書き込みコスト • コミットログの リプレイコスト 両フォーマットにそれぞれメタデータの課題がある。 これを解決する提案の検討が進行中。
  19. ©2026 Databricks, Inc. — All rights reserved 提案の概要 • Reduced

    Write Amplification 小さな書き込みでroot直下に data/deleteファイルを配置可能 • Single representation of manifest ツリー全階層で統一された マニフェスト形式 • Columnar Manifests メタデータをParquetカラム形式で格納 • Column stats at every level クエリに無関係なサブツリーを 早期pruning • Change Detection スナップショット間の差分を効率的に検出 Adaptive Metadata Tree (AMT) Icebergのメタデータ構造を根本から再設計する提案 (出典) Apache Iceberg V4 Adaptive Metadata Tree | Apache Iceberg Meetup
  20. Iceberg v4 & Delta v5でメタデータ層を統合 Iceberg v4 Adaptive Metadata Tree

    Delta 5.0 Native Content Metadata ▶ ◀ 同一の メタデータ構造 • IcebergもDeltaも同じメタデータ構造 に! ◦ UniFormのようなメタデータの複製・変換が不要 に ◦ XTableやDelta Direct (Snowflake) 等、あらゆる中間レイヤーが不要 になる世界 • DeltaクライアントもIcebergクライアントも同じメタデータ・データを直接読み書き ◦ Managed Delta / Managed Iceberg の区別がなくなり「マネージドテーブル 」に
  21. Data + AI Summit 2026の注目セッション 注目セッション Format Co-Evolution: How Iceberg

    v4 and Delta 5.0 Share a Unified Metadata Ryan Blue, Anoop Johnson (Databricks) 関連セッション A Unified Future for Delta and Apache Iceberg Anoop Johnson, Micah Kornfield 関連セッション Your Guide to Open Table Formats Scott Sandre, Benjamin Mathew (Delta 5.0 + AMT の early look 含む)
  22. カタログなしに OTFは成り立たない Icebergはカタログが必須。Delta Lakeもカタログ連携が主流に カタログ エンジン (e.g. Spark) Iceberg テーブル仕様

    Delta Lake; カタログマネージドテーブル カタログ OSS Delta Lake: Delta 4.1 (2026年3月): カタログマネージドテーブルを本格サポート。 OSSカ タログとしてUnity Catalog 0.4.0 が最初に対応。 マネージドDelta Lakeテーブル (Databricks): DBR 16.4以上 + UCマネージドDeltaテーブルの組み合わせで マルチテーブルトランザクション (PuPr) が利用可能。 メタデータの所在管理と 同時実行制御 コミット調整と テーブル状態の一元管理 詳細: https://iceberg.apache.org/spec/
  23. オープンAPIで任意のクライアントから利用 Databricksランタイム又は外部のIcebergエンジンから オープンAPI経由でマネージド Icebergテーブルの 読み書きが可能 フェデレーションで全データをガバナンス Hiveメタストア、AWS Glue、Snowflake Horizon Catalog、

    Iceberg REST Catalogなどにある外部Icebergテーブルに Unity Catalogからフェデーレションアクセス Delta Clients Iceberg Clients Iceberg REST Unity REST フェデレーション Glue Horizon HMS Unity Catalogでレイクハウスを統合
  24. Icebergを選べば無条件にオープン ...? AWS Athena EMR Redshift Trino Flink Spark Kafka

    Databricks OSS DATABRICKS SNOWFLAKE Fabric BigQuery AZURE GCP Snowflake Icebergを選びさえすれば • どのエンジンからも読み書き可能 • アクセスに余分な料金は不要 • ベンダーフリー のはず?
  25. OTFカタログに必要な 3つの条件 外部エンジンへの解放、テーブル最適化、外部カタログ連携 2 高度な テーブル最適化 難しい設定なしでストレージ効率 とクエリ性能を最適化 1 3

    外部エンジンから制約 なく読み書きが可能 用途ごとに最適なツールを自由 に選択できる、将来性のある アーキテクチャ 外部カタログとの 相互運用性 複数カタログの全データを 中央カタログから統合管理
  26. 2024年にOSS実装を公開 Unity Catalog - OTFに最適なカタログ Tables AI Models Files Notebooks

    Dashboards CSV, JSON, AVRO Access Control Discovery Lineage Auditing Secure Data Sharing Quality Monitoring Cost Controls Business Semantics Security Collaboration Quality Management Spark Fabric EMR Flink Databricks Trino Snowflake BigQuery Big Query FOREIGN CATALOGS Federation Unity REST & Iceberg REST ENGINES Iceberg REST HMS Glue Salesforce 外部からのメタデータ アクセスに追加コストなし Delta, Icebergともに自動で 高度な最適化を適用 多数の外部カタログとの 相互運用性 Snowflake
  27. 将来像 - メタデータの統合完了後、 UCを介することでフォーマットの違いを意識せずに 単一のテーブルにアクセスが可能に Access Control Discovery Lineage Auditing

    Secure Data Sharing Quality Monitoring Cost Controls Business Semantics Security Collaboration Quality Management Spark Fabric EMR Flink Databricks Trino Snowflake BigQuery Big Query FOREIGN CATALOGS Federation Unity REST & Iceberg REST ENGINES Iceberg REST HMS Glue Salesforce Snowflake メタデータ (Adaptive Metadata Tree) データ (Parquetファイル)
  28. 6月15日 - 18日 サンフランシスコで 開催! 3 5 データと分析、AI の 世界最大のイベント

    25,000 800+ 200+ 現地参加者 ブレイクアウト セッション 協賛社 Data + AI Summit はDatabricks の年次フラッグ シップイベントです。データや分析、 AI のコミュニティ が集う世界最高峰のイベントが、 2026年6月15日から 4日間サンフランシスコで開催されます。 業界リーダーやビジョナリースピーカーによる基調講 演、テクニカルセッション、ハンズオントレーニング、 ネットワーキングの機会など、数多くのコンテンツをご 用意しています。 ご登録はこちら