Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
猫でもわかるS3 Tables【Apache Iceberg編】
Search
Hiroo Katoh
May 12, 2025
Technology
0
120
猫でもわかるS3 Tables【Apache Iceberg編】
S3 TablesについてApache Iceberg目線でまとめた資料になります。
Hiroo Katoh
May 12, 2025
Tweet
Share
More Decks by Hiroo Katoh
See All by Hiroo Katoh
猫でもわかった気になるRedshift Serverless(更新系限定)
kentapapa
1
5k
猫でもわかるBLEA
kentapapa
1
230
Other Decks in Technology
See All in Technology
企業が押さえるべきMCPの未来
takaakikakei
4
1k
大規模サーバーレスプロジェクトのリアルな零れ話
maimyyym
3
190
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
7
63k
MCP でモノが動くとおもしろい/It is interesting when things move with MCP
bitkey
1
140
今日からはじめるプラットフォームエンジニアリング
jacopen
8
2k
AWSを利用する上で知っておきたい名前解決の話
nagisa53
6
760
MySQL InnoDB Data Recovery - The Last Resort
lefred
0
110
本当に必要なのは「QAという技術」だった!試行錯誤から生まれた、品質とデリバリーの両取りアプローチ / Turns Out, "QA as a Discipline" Was the Key!
ar_tama
9
3.6k
GraphQLを活用したリアーキテクチャに対応するSLI/Oの再設計
coconala_engineer
0
210
MCPを理解する
yudai00
14
9.9k
コスト最適重視でAurora PostgreSQLのログ分析基盤を作ってみた #jawsug_tokyo
non97
2
890
Simplify! 10 ways to reduce complexity in software development
ufried
2
240
Featured
See All Featured
Thoughts on Productivity
jonyablonski
69
4.6k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2k
Fontdeck: Realign not Redesign
paulrobertlloyd
84
5.5k
Product Roadmaps are Hard
iamctodd
PRO
53
11k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
2.9k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
23
2.7k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
30
2.3k
Done Done
chrislema
184
16k
BBQ
matthewcrist
88
9.6k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
12k
The Straight Up "How To Draw Better" Workshop
denniskardys
233
140k
Agile that works and the tools we love
rasmusluckow
329
21k
Transcript
© 2025 NTT TechnoCross Corporation 猫でもわかるS3 Tables【Apache Iceberg編】 2025/05/13 JAWS-UG
朝会 #69 NTTテクノクロス株式会社 加藤 洋雄
© 2025 NTT TechnoCross Corporation 2 自己紹介 NTTテクノクロス株式会社 AWS業務歴5年弱 加藤
洋雄 (X:@kamogashira) AWS認定資格 2024 Japan AWS All Certifications Engineers 新規3個 JAWS-UG 朝会 発表履歴(今回で4回目。発表内容が幅広い朝会大好きです!) 2023年2月#42 LT: 猫でもわかるDirectConnect 2024年2月#54 LT: 猫でもわかるBLEA 2024年8月#60 セッション:猫でもわかった気になるRedshift Serverless うさぎのけんた(ネザーランドドワーフ)の飼い主
© 2025 NTT TechnoCross Corporation 3 はじめに 本発表は、S3 TablesについてApache Iceberg目線での紹介になります。
最近Apache Icebergが注目されている理由もS3 Tablesを例に紹介します。 Apache Iceberg on AWSを知るとS3 Tablesの理解がより深まります。 興味のある方は、AWS 規範ガイダンス 「AWS での Apache Iceberg の使 用」(*1)がおすすめです。 説明すること S3 Tablesの概要説明。 Apache Icebergについての概要説明。 S3 TablesにおけるApache Icebergの適用内容。 レイクハウス界隈でのApache Icebergに関する動き。 説明しないこと S3 Tablesの具体的な構築、設定手順など。 S3 Tablesのセキュリティ、権限設定など。 S3 TablesとS3との性能比較。 *1:https://docs.aws.amazon.com/ja_jp/prescriptive-guidance/latest/apache-iceberg-on-aws/introduction.html スライド多めです。資料登録を行う うのでぜひダウンロードして見てく ださい。
© 2025 NTT TechnoCross Corporation 4 「説明すること」の補足 予想以上に資料のページ数(全43ページ)が増えてしまいました。 そのため前半(20ページまで)の「S3 Tables概要説明」はほぼタイトルと重要
な用語のみのと説明します。 詳しい内容を知りたい方は、後から資料を確認してください。 本発表はAWSの世界だけ見ているとその重要性に気付きにくいApache Icebergを知って頂くことを目的としています。 今フロントサイドはMCPが熱いようですが、サーバサイドはApache Iceberg が同じくらい熱いです! 以下、完全な個人の感想です!
© 2025 NTT TechnoCross Corporation 5 Open Table Format(OTF)とは データレイクにおけるデータ管理の課題を解決するために設計されました。
従来のデータレイクは、ファイルベースのストレージであるためデータの更新 や削除、スキーマの変更が困難という問題点がありました。 操作を効率的に行うためのメタデータ管理を提供し、データの一貫性とパ フォーマンスを向上させます。 内容 特徴 データのスナップショットを作成し、過去の状態にアクセス可能。デー タの変更履歴を管理。 スナップショットと バージョニング データスキーマの変更を柔軟に管理し、データの整合性を保ちながら新 しい要件に対応。 スキーマの進化 データを効率的にパーティショニングし、クエリパフォーマンスを向上。 パーティショニング 複数のデータ操作を一つのトランザクションとして扱い、データの一貫 性を保証。 トランザクション サポート オープンソースであり、コミュニティによる継続的な改善とサポートが 受けられる。 オープンソース 【OTF特徴一覧】 ざっくり言うとファイルベースでDBのように データ一貫性を保証します。
© 2025 NTT TechnoCross Corporation 6 「Apache Iceberg on AWS」のベストプラクティス
Iceberg 形式バージョン 2 を使用する。 データカタログとしてAWS Glue Data Catalogを使用する。 ロックマネージャーとしてAWS Glue Data Catalogを使用する。 Zstandard (ZSTD) 圧縮を使用する。 読取みパフォーマンスの最適化(データパーティション化、etc)。 書込みパフォーマンスの最適化(適切なファイル形式を選択する、etc)。 ストレージの最適化。 圧縮を使用したテーブルの維持。 Amazon S3でのIcebergワークロードの使用。 S3 TablesとしてマネージドサービスになったことによりAWS責任共有モデルで のAWS責任範囲が大きく増えました。 https://docs.aws.amazon.com/ja_jp/prescriptive-guidance/latest/apache-iceberg-on-aws/introduction.html 合計9つのベストプラクティスが存在します。
© 2025 NTT TechnoCross Corporation 7 S3 Tablesとは Apache Iceberg
サポートが組み込まれたクラウドオブジェクトストア。 表形式データの大規模な保存を効率的に行える。 継続的なテーブル最適化(バックグラウンドでテーブルデータを自動的にス キャンして書き換える)のため、管理されていない Iceberg テーブルと比較 して最大 3 倍高速なクエリパフォーマンスを実現。 Icebergワークロード固有の最適化が含まれており、汎用 S3バケットに保 存されている Iceberg テーブルと比較して、1 秒あたり最大10倍のトラン ザクションを配信できる。 Apache Icebergマネージドサービスになったことにより性能、メンテナンス 性が格段に向上。 https://aws.amazon.com/jp/s3/features/tables/
© 2025 NTT TechnoCross Corporation 8 S3 Tablesのメリット代表例「ストレージ最適化」について Apache Iceberg
テーブルのデータを更新または削除すると以下に図に示す ようにデータのコピー数が増えます。圧縮を実行する場合も同様です。 S3 Tablesはマネージドサービスのため以下を自動で実施します。 費用対効果の高いアクセス階層にデータを自動的に移動する。 履歴スナップショットのアーカイブまたは削除。 孤立ファイルの削除。 https://docs.aws.amazon.com/ja_jp/prescriptive-guidance/latest/apache-iceberg-on-aws/best-practices-storage.html Apache Icebergの構成に ついては後半で説明します。
© 2025 NTT TechnoCross Corporation 9 AWSにおけるApache Icebergサポートのマネージドサービス S3 Tablesは、2024年
re:InventにてIcebergサポート機能の一つとしてS3 Metadataと一緒に発表されました。 https://pages.awscloud.com/rs/112-tzm-766/images/AWS-Black-Belt_2024_aws-reinvent_1206_v1.pdf Amazon S3 Tables Amazon S3 Metadata
© 2025 NTT TechnoCross Corporation 10 Microsoft、GoogleにおけるApache Icebergサポート状況 OneLakeでIcebergテーブルを使用可能 (2025年5月時点プレビュー)
Azure:2025年5月時点プレビュー https://learn.microsoft.com/ja-jp/fabric/onelake/onelake-iceberg-tables Google BigQuery: 2025年5月時点プレビュー https://cloud.google.com/bigquery/docs/iceberg-tables?hl=ja Azure、GCPにおいてもIceberg対応が進行中です。 Apache Iceberg 用の BigQuery テーブル (2025年5月時点プレビュー) 【Azure】 【GCP】
© 2025 NTT TechnoCross Corporation 11 S3 Tablesの利点 S3 Tablesでは大きく以下の5つの利点があります。
スケーラビリティ 強化されたたパフォーマンス フルマネージド シームレスな統合(今回はここを深堀します) 簡略化されたセキュリティ対策 https://pages.awscloud.com/rs/112-tzm-766/images/AWS-Black-Belt_2024_aws-reinvent_1206_v1.pdf
© 2025 NTT TechnoCross Corporation 12 シームレスな統合(分析サービスでS3 Tablesを使用) S3 Tables
統合することでGlue Data Catalogを介してAmazon Athena、 Redshift、EMR などの使い慣れた AWS サービスを利用して高度な Iceberg 分析機能にアクセスし、データをクエリできます。 https://docs.aws.amazon.com/ja_jp/AmazonS3/latest/userguide/s3-tables-integrating-aws.html アカウント、リージョン単位で Glue Data Catalogに s3tablescatalog が作成されS3 Tablesの構成情 報が同期されます。 ・Table bucket=Catalog ・Namespace=Database ・Tables=Tables 統合されたテーブル管理、一 元化されたガバナンス、きめ 細かなアクセスコントロール が可能になります S3バケット内にカ タログがあります。
© 2025 NTT TechnoCross Corporation 13 S3 TablesをS3のマネジメントコンソールから確認 S3メニュー上は「テーブルバケット」に分類され、「汎用バケット」、 「ディレクトリバケット」とは完全に別管理になっています。
arn:aws:s3tables:ap-northeast-1:アカウントID:bucket/カタログ名/table/~ 汎用バケットarnの場合 arn:aws:s3:::バケット名 【注意】現状S3 Tablesはマネコン からは削除できません。 テーブルバケットの画面からでは ないとS3 Tablesは見れません
© 2025 NTT TechnoCross Corporation 14 Data Catalogをマネジメントコンソールから確認その1 Lake Formationメニューからカタログ一覧を確認すると
「s3tablescatalog」が自動生成されている。 S3 Tables用カタログ s3tablecatalogが自動生 成される 汎用バケット用カタログ (アカウントID)
© 2025 NTT TechnoCross Corporation 15 Data Catalogsをマネジメントコンソールから確認その2 Lake Formationメニューから完全なCatalog名が確認可能です。
汎用バケット用カタログ (アカウントID) S3 Tables用カタログは 「アカウントID:s3tablecatalog/カタログ名」
© 2025 NTT TechnoCross Corporation 16 Athenaから検索する場合のカタログ指定 テーブルバケットを検索する場合に指定するカタログは 「s3tablecatalog(固定)/カタログ名(任意指定)」になります。 S3
Tables用カタログ s3tablecatalogを指定 【汎用バケット(例:CloudTrailログの場合) 】 【S3 Tablesバケット】 汎用バケット検索時はカタ ログ指定は「なし」
© 2025 NTT TechnoCross Corporation 17 Athenaから検索実行結果 AthenaからS3 Tablesに検索を実施した例を以下に示します。 こちらはあくまでも検索結
果の例です。性能測定は実 施していません。そのため 実行時間の評価はできてい ません。
© 2025 NTT TechnoCross Corporation 18 Amazon SageMaker Unified Studio(2025/3/13GA)
データへの統合されたアクセスは Amazon SageMaker Lakehouse によっ て提供される。 ガバナンス機能は Amazon SageMaker Catalog を介して組み込まれてい ます。 https://aws.amazon.com/jp/sagemaker/ S3、 RMS(Redshift Managed Storage) へのアクセス統合 【豆知識】 Lakehouseという言葉を最初 に使い始めたのはDatabricks 社だそうです。(By営業さん)
© 2025 NTT TechnoCross Corporation 19 S3 TablesとSageMaker Lakehouseの統合(2025/3/21GA) 2025年3月21日S3
TablesとSageMaker Lakehouse統合がGAされました。 SageMaker Lakehouse を利用すると、Amazon S3 データレイク (S3 Tables を含む) と RMS(Redshift Managed Storage)にわたるすべてのデー タを統合できます。 Glue Data CatalogとLake Formationを基盤として構築されている。 https://aws.amazon.com/jp/blogs/news/amazon-s3-tables-integration-with-amazon-sagemaker-lakehouse-is-now-generally-available/ LakehouseからS3 Tablesへアクセス可能 SageMakerからの使い勝手が向上!
© 2025 NTT TechnoCross Corporation 20 SageMaker Lakehouseのカタログ種類 マネージドカタログ Lakehouseを使用して作成する新しいカタログを指します。
対象:S3(S3 Tables含む)、RMS。 フェデレーションカタログ 既存のデータを取り込むことが可能です。 対象:Redshift、DynamoDB、Snowflake等。 https://docs.aws.amazon.com/ja_jp/sagemaker-unified-studio/latest/userguide/lakehouse-components.html 本資料では主にここ を説明 本資料での説明対象外
© 2025 NTT TechnoCross Corporation 21 Apache Icebergは今話題になってます!(★ここから本題です) Icebergは聞いた ことはあるけど、
誰が「話題」って 言ってるの? 最近の生成AIブームの影響もありいデータレイクハウス製品により勢いが あります。それに関連してトランザクションデータレイク形式では Apache Icebergが最近話題です!
© 2025 NTT TechnoCross Corporation 22 Apache Icebergは今話題になってます!(★ここから本題です) Icebergは聞いた ことはあるけど、
誰が「話題」って 言ってるの? AWSジャパンさんも言ってます! それは 最近の生成AIブームの影響もありいデータレイクハウス製品により勢いが あります。それに関連してトランザクションデータレイク形式では Apache Icebergが最近話題です!
© 2025 NTT TechnoCross Corporation 23 Apache Iceberg on AWSミートアップ
5/14(水)に開催 明日 5月14日(水) 19:00から(AWSジャパン目黒本社+オンライン開催) Apache Iceberg on AWSミートアップ ~話題のIcebergをAWSで徹底活用~ Apache Icebergに興味がある方はぜひ参加しましょう。 https://aws.amazon.com/startups/events/apache-iceberg-on-aws 【お詫び】 完全にネタが被ってます。JAWS-UG 朝会に申込んだ後にこのイベントを知 りました。1日後にはもっと素敵な発 表がありますがお許しください。
© 2025 NTT TechnoCross Corporation 24 【お得情報】Apache Icebergに興味が出た方へ dremio社のHPからO’REILLY「Apache Iceberg
the Definitive Guide」が 無料でダウンロード可能です。 (Amazonで英語Kindle版が9,481円で発売中。日本語版は現在翻訳作業中で未発売。PDFファイル形式のため Google翻訳利用可能。ページ数制限があるのでファイルを2分割すればOK) https://hello.dremio.com/wp-apache-iceberg-the-definitive-guide-reg.html Apache Iceberg 解説本の決定版 表紙に「dremio」のロゴが入ってますが太っ腹 なサービスなのでぜひダウンロードしましょう
© 2025 NTT TechnoCross Corporation 25 データウェアハウス向け OTF形式ストレージソリューション Icebergと合わせてOTF形式のストレージソリューションとして代表的な3つ を以下に示します。
Delta Lake Apache Iceberg Apache Hudi • 2017年からDatabricks によって開発。 • 2019年にOSS化。 • 2017年からNetflixによって 開発 • 2016年からUberによって 開発 • OneHouseが出資 • データファイルはParquet とAvroで構成される 概要 • トランザクション保証を 提供 • スキーマ強制と進化を可 能とする。 • 他にも特徴的な • 単一のテーブルでペタバイト までスケールし、スキーマ進 化の特性を持つ汎用的なデー タストレージに重点を置いて いる。 • キー/値スタイルのデータに 対する増分upsertとdelete のために設計された。 • データは列形式と行形式の 組み合わせとして保存され る。 特徴 【OTF形式ストレージソリューション一覧】 この2つが重要
© 2025 NTT TechnoCross Corporation 26 Apache Iceberg機能概要 内容 主な機能
データの整合性を保つためにACIDトランザクションをサポート。 データ追加、更新、削除が安全に行える ACIDトランザクション スキーマの変更(追加、削除、変更)をサポート。データのスキー マが進化する際にもデータの整合性を維持。 スキーマの進化 過去のスナップショットに基づいてデータをクエリするタイムトラ ベル機能を提供。過去のデータ状態を簡単に参照可能 タイムトラベル 複雑なパーティショニングをサポートしており、クエリパフォーマ ンスを向上させるためにデータを効率的に分割する。 パーティショニング データのスナップショットを作成し、バージョン管理を行うことで、 データの変更履歴を追跡可能。 スナップショットと バージョニング クエリパフォーマンスを向上させるために、データの読み取りと書 込みを最適化。 高いパフォーマンス Apache Spark、Apache Flink、Presto、Trinoなどのデータ処理 エンジンと互換性がある。 互換性 【Apache Iceberg機能・内容一覧】 ざっくり言えば、オブジェクトストレージでDBと して求められる機能を実現できます。
© 2025 NTT TechnoCross Corporation 27 Apache Icebergバージョン情報 内容 仕様概要
バージョン 不変のファイル形式 (Parquet、Avro、ORC) を使用して大規模な分 析テーブルを管理する方法が定義。 分析データテーブル Version1 不変のファイルを含む分析テーブルの行レベルの更新と削除が追加。 行レベルの効率的な 更新・削除 Version2 データ型と既存のメタデータ構造が拡張され、新しい機能が追加(半 構造化型:variant)。 データタイプと機能 の拡張 Version3 開発中 https://iceberg.apache.org/spec/#format-versioning 【Apache Icebergのバージョン一覧(2025年5月時点) 】 「Apache Iceberg on AWS」ベストプラクティスでの推奨がVersion2
© 2025 NTT TechnoCross Corporation 28 データウェアハウス向け OTF形式におけるS3 Tablesの構成 https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2023_Datalake-Format-On-AWS_0516_v1.pdf
S3 TablesはS3+Parquet+Icebergの構成 S3 Tablesの構成
© 2025 NTT TechnoCross Corporation 29 Apache Iceberg構成(本来この説明だけで20分はかかるので後で確認してください) Apache
Icebergの構成図を以下に示します。 O’REILLY Apache Iceberg The Definitive Gude s0、s1はSnapshotの略 【metadata layer】 Icebergテーブルの現在の メタデータポインタを保存 【data layer 】 data file格納 【Iceberg Catalog】 テーブル名とテーブルの最新の metadata fileの場所のマッピング情報 【metadata list】 特定のSnapshotに対応するmanifest fileのlistや統計情報のサマリなど 【metadata file】 data fileのlistやメタデータ(パス、 ファイル形式、各カラムの統計情報 など)を管理。 【metadata file】 特定のSnapshotにおけるテーブル 全体のメタ情報を管理 テーブルバージョン管理の核 【data file】 Rarquetが多い。ORC、Avrog もサポート。
© 2025 NTT TechnoCross Corporation 30 Apache Icebergファイル構成(アクセス順) ReadアクセスはCatalog→Metadata
layer→data layerの順に行われる。 https://www.dremio.com/resources/guides/apache-iceberg-an-architectural-look-under-the-covers/ S3 TablesではAWS が隠蔽しているため ファイル構成は不可 視になっています。
© 2025 NTT TechnoCross Corporation 31 Apache Icebergの読込みプロセスイメージ 読込みプロセスにおけるReadの流れイメージを以下に示します。
Engine Datafiles Manifest file Manifest list Metadata file(Version x) Catalog ①Read operation Client 【凡例】 ③Metadata file read ④Manifest list read O’REILLY Apache Iceberg The Definitive Gudeの図をシーケンス図風に変換 ・・・Write ・・・Read Metadata layer Catalog layer Data layer ⑤Manifestfile write ⑥datafiles read 上位layerから順にアクセスをすることで目的のデータ を参照する。 ②Get latest metadata file
© 2025 NTT TechnoCross Corporation 32 Apache Icebergの書込みプロセスイメージ 書込みプロセスにおけるRead/Writeの流れイメージを以下に示します。
Engine Datafiles Manifest file Manifest list Metadata file(Version x) Catalog ①Wire operation Client 【凡例】 ⑦Update+Commit ②Get latest metadata file ③Data write ④metadata write O’REILLY Apache Iceberg The Definitive Gudeの図をシーケンス図風に変換 ・・・Write ・・・Read Metadata layer Catalog layer Data layer ⑤Manifestdata write ⑥metadata write 【楽観的同時実行制御】 トランザクションが競合しない事を前提にし、必用な場合にの み競合をチェックすることでロックを最小限にし抑えてパ フォーマンス向上させる。これを利用してACID保証を行う。
© 2025 NTT TechnoCross Corporation 33 主要レイクハウス製品(Snowflake、Databricks)について AWSと連携可能なレイクハウスの代表的なものにSnowflake、Databricksがあります。 2013年
2012年 創業 「Apache Spark」、「Delta Lake」 等OSS創始者らが中心 元Oracleエンジニア 初期メンバー データカタログ 独自フォーマット と テーブルSPC (※主要なもののみ記載) ファイルフォーマット (※主要なもののみ記載) 2024年11月~25年1月期の年換算売上 高30憶ドル。国内顧客:トヨタ、日立 AWS Summit Japan 2024の Golbal Sponsors(最上位)の1社 備考 この2社がApache Iceberg の主要キープレイヤー
© 2025 NTT TechnoCross Corporation 34 最近のApache Icebergに関するトピック(Snowflake編) 2024年6月3~7日の年次イベント「Snowflake Data
Cloud Summit」での発表 独自フォーマットの他にIceberg Tablesを主要クラウドで一般提供開始。 新たにIceberg形式のインデックス化ができるCatalogとして「Polaris Catalog」を発表(主要クラウドが対応。Databricksは除く) 。 →その後OSS化して「Apache Polaris」へ Iceberg’s openn REST APIでエンジンーカタログ間の読取り書込みの相互 運用性確保。 https://www.snowflake.com/en/blog/introducing-polaris-catalog/ 6月3日の発表にはライバルの Databricksは含まれていな かった。 相互運用性を向上させる ためRESTプロトコルの オープン標準を開発
© 2025 NTT TechnoCross Corporation 35 最近のApache Icebergに関するトピック(Databricks編その1) Databricksはデフォルトのデータ形式として「Delta Lake」を採用している。
SnowflakeがPolaris Catalogを発表翌日6月4日にTabularの買収合意を発表。 TabularはNetflixでIcebergを開発していたRyan Blue、Daniel Weeks、 Jason Reidが設立した会社。 https://www.databricks.com/jp/company/newsroom/press-releases/databricks-agrees-acquire-tabular-company-founded-original-creators https://www.tabular.io/blog/tabular-is-joining-databricks/ DtabricksはTabular買収以降は積極 的にIceberg対応を進めています。
© 2025 NTT TechnoCross Corporation 36 最近のApache Icebergに関するトピック(ベンダー間編) Databricksはデフォルトのデータ形式として「Delta Lake」を採用している。
SnowflakeがPolaris Catalogを発表翌日6月4日にTabularの買収合意を発表。 TabularはNetflixでIcebergを開発していたRyan Blue、Daniel Weeks、 Jason Reidが設立した会社。 https://www.databricks.com/jp/company/newsroom/press-releases/databricks-agrees-acquire-tabular-company-founded-original-creators SnowflakeとDatabricksがApache Icebergで火花を散らす状況に!
© 2025 NTT TechnoCross Corporation 37 最近のApache Icebergに関するトピック(ベンダー間編) Databricksはデフォルトのデータ形式として「Delta Lake」を採用している。
SnowflakeがPolaris Catalogを発表翌日6月4日にTabularの買収合意を発表。 TabularはNetflixでIcebergを開発していたRyan Blue、Daniel Weeks、 Jason Reidが設立した会社。 SnowflakeとDatabricksがApache Icebergで火花を散らす状況に! この流れも受け、AWSも最近Apache Icebergに積極的に対応を進めている? 個人の推測 その後も両社はApache Iceberg対 応を積極的に進めています。 https://www.databricks.com/jp/company/newsroom/press-releases/databricks-agrees-acquire-tabular-company-founded-original-creators
© 2025 NTT TechnoCross Corporation 38 最近のApache Icebergに関するトピック(Databricks編その2) DatabricksはデータカタログのUnity Catalogをオープンソース化。
2024年6月12日にUnity Catalogのオープンソース化を発表。 https://www.databricks.com/jp/blog/open-sourcing-unity-catalog Unity CatalogをOSS化 (Apache 2.0ライセンス) OpenAPI仕様、サーバー、 クライアントも提供される ライバルのSnowflake は含まれない。 Apache Icebergはここ Databricksは元は Delta lakeがメイン
© 2025 NTT TechnoCross Corporation 39 Apache Iceberg REST プロトコル仕様でベンダーロックイン回避
個別実装のData Catalogでは互換性が担保できない。 その問題を解決するためにApache Iceberg REST プロトコル仕様が策定され ベンダーロックインを回避することが可能となりました。 Apache Iceberg REST エンドポイント Glue Data Catalog (AWS) Apache Iceberg REST エンドポイント Open Catalog (Snowflake) Apache Iceberg REST エンドポイント Unity Catalog (Databricks) Apache Iceberg REST API 仕様にてI/Fは共通化されました。 AWSの場合は、統合化されたGlue Data catalogのIceberg REST エ ンドポイントを使用すればOKです。
© 2025 NTT TechnoCross Corporation 40 データカタログアクセス(Apache Iceberg REST プロトコル)
GlueはApache Iceberg REST プロトコル仕様で指定された API オペレーション に対応しているGlue Iceberg REST エンドポイントを用意しています。 Iceberg REST クライアントを使用すると、分析エンジンで実行されているアプ リケーションをデータカタログでホストされている REST カタログに接続するこ とができます Iceberg REST API No. Iceberg REST API No. ListTables 07 GetConfig 01 CreateTable 08 ListNamespaces 02 LoadTable 09 CreateNamespace 03 TableExists 10 LoadNamespaceMetadata 04 UpdateTable 11 UpdateNamespaceProperties 05 DeleteTable 12 DeleteNamespace 06 【Glueがサポートする Iceberg REST Catalog API一覧】 https://docs.aws.amazon.com/ja_jp/glue/latest/dg/connect-glu-iceberg-rest.html
© 2025 NTT TechnoCross Corporation 41 Apache Iceberg RESTエンドポイントの種類(S3編) S3
TablesのApache Iceberg RESTエンドポイントは以下の2種類があります。 【非統合 S3 Tablesの場合】 https://s3tables.<REGION>.amazonaws.com/iceberg • 1 つのテーブルバケットへの基本的な読み取り/書込みア クセスのみが必要な場合。あまりおすすめしない。 【統合 S3 Tablesの場合】 https://glue.<REGION>.amazonaws.com/iceberg • AWS 分析サービスからアクセスする場合。おすすめ です!。 https://docs.aws.amazon.com/ja_jp/AmazonS3/latest/userguide/s3-tables-integrating-open-source.html 統合されたテーブル 管理、一元化された ガバナンス、きめ細 かなアクセスコント ロールが可能になり ます
© 2025 NTT TechnoCross Corporation 42 Apache Iceberg RESTエンドポイントの種類(Glue編) GlueのApache
Iceberg RESTエンドポイントは以下の2種類があります。 https://docs.aws.amazon.com/ja_jp/glue/latest/dg/connect-glu-iceberg-rest.html https://docs.aws.amazon.com/ja_jp/glue/latest/dg/connect-glue-iceberg-rest-ext.html https://docs.aws.amazon.com/ja_jp/redshift/latest/mgmt/serverless_datasharing-register-namespace.html 【S3:Glue Iceberg REST エンドポイント】 https://glue.<REGION>.amazonaws.com/iceberg • S3に保存されているテーブルへアクセスする場合。 【RMS:Glue Iceberg REST 拡張エンドポイント】 https://glue.<REGION>.amazonaws.com/extensions • RMSに保存されているテーブルにアクセスする場合。 【接続時config設定内容例】 catalog_name = "mydatacatalog" aws_account_id = "123456789012" aws_region = "us-east-1" spark = SparkSession.builder ¥ ・catalog_name ・org.apache.iceberg.spark.SparkCatalog ・rest ・https://glue.{aws_region}.amazonaws.com/iceberg ・{aws_account_id} 【接続時config設定内容例】 catalog_name = "mydatacatalog" aws_account_id = "123456789012" aws_region = "us-east-1" spark = SparkSession.builder ¥ ・catalog_name ・org.apache.iceberg.spark.SparkCatalog ・glue ・{123456789012}:redshiftnamespacecatalog/redshiftdb ・org.apache.iceberg.spark.extensions. IcebergSparkSessionExtensions RMSのデータカタログは拡張(extensions)として扱われる
© 2025 NTT TechnoCross Corporation 43 さいごに 今フロントサイドはMCPが熱いようですが、サーバサイドはApache Iceberg が同じくらい熱いです!
Apache Iceberg+データカタログが今後も今のスピードで進化すればベンダー ロックインが回避でき、データのコピー・移動を極力排除できる明るい未来が 待っている?!と思います。 →現状ではまだ外部テーブルは参照のみなどの制約がある場合があります。 S3 Tablesは単なる表形式データを高速に扱えるものではなく、これからの データ分析基盤構築では重要なマネージドサービスになります(たぶん)。 【重要】S3はセキュアに使うための権限設定は難易度が高いと感じています。 S3 Tablesはそれ以上に権限設定の難易度が高い印象です。Lake Formationを 含め権限設定については十分に理解した上で使用することを強くおすすめしま す。 完全な個人の感想です!