Apache Icebergの解説とAWSでの運用

Apache Icebergの解説とAWSでの運用 2025/1/29 BigData-JAWS 勉強会 #28 re:Invent 2024 re:Cap IBM
Japan / Shuya Sawa

https://www.youtube.com/watch?v=LY7m5LQliAo

3 Keywords of S3 Tables • 分析ワークロードに最適化されたS3ストレージ • Iceberg形式のテーブルをサポート •
自動最適化によりクエリパフォーマンス向上 • AWS分析サービスとの統合

4 Keywords of S3 Tables • 分析ワークロードに最適化されたS3ストレージ • Iceberg形式のテーブルをサポート •
自動最適化によりクエリパフォーマンス向上 • AWS分析サービスとの統合 Keynote後のつかの間のひと時を過ごす私 2年続いて新バケットはアツい！！でもIcebergっていったい何者なんだろうか… 分析に使うくらいしか知らないなぁ…. 結局S3 Tablesはいったい何をしているんだろうか….? うーん………………….

5 Iceberg の特徴を知る 01 AWSとIceberg の連携方式を知る 02 S3 Tables の特徴を捉える
03 本日お伝えしたいこと

6 Icebergの歴史 Hadoop分散ファイルシステム (HDFS) Hive Hive Table Format 2004年
MapReduce 2008年分析ツールストレージテーブル形式 Javaで分析ジョブを実行するMapReduce HadoopのエコシステムとしてMapReduceが組み込まれていた一元的に管理をするデータウェアハウス的な志向 HiveSQLによってMapReduceの扱いづらさを克服 Javaで分析を描くと冗長的になってしまう課題があったアナリストにとってJavaよりもSQLの方が馴染みがあったファイルをテーブルのように見せるために Hive Table Formatが誕生ディレクトリとその中のファイルをテーブルとして認識させた

7 Icebergの歴史 S3 Presto Apache Spark Dremio Minio 分析ツールストレージ
テーブル形式 Hive Table Format オブジェクトストレージ 2010年～ MobileやIoTの発達で多様なデータフォーマットに対応する必要性が高まるクラウドのオブジェクトストレージが好んで使われるようになった様々な分散クエリエンジンの登場 Hadoopのようなデータウェアハウスではなく、より分散的でツール間依存が少ないデータレイク志向 Hive Table Formatは標準として残るストレージ内のファイルを単一のテーブルとして認識させる

テーブル形式 Hive Table Format オブジェクトストレージ 2010年～ Hive Table Formatは過剰なネットワーク呼び出し負荷の課題が浮上したディレクトリ構造でテーブル分割を行っているため、パーティション変更などに非常に弱かった ACIDトランザクションが欠如しているエンジンからのクエリはスキーマオンリード方式のため、実際にクエリを実行されて、データを読み込むときにテーブル定義と合うか判断されるデータの不整合がある可能性を秘めている

テーブル形式 Apache Iceberg Table Format オブジェクトストレージ 2010年～ 2017年 Apache Iceberg Table Formatの登場一貫性、パフォーマンス、使いやすさ、スケーラビリティを念頭に置いてNetflix社のRyan Blueによって開発された 2018年よりオープンソース化

Iceberg の構成要素 10 メタデータファイルマニフェストリストマニフェストファイルデータ
ファイル S0 S1 Icebergカタログメタデータポインタ • 最新メタデータファイルの管理 • アトミック操作を担保 • スナップショット(バージョン)の管理 • スナップショットに紐づくマニフェストリストの管理 • JSONで保存される • スナップショットと1対1対応 • マニフェストファイルのリストを管理 • AVROで保管される • データファイルを管理する • AVROで保管される • データ • Perquetで保管されるメタデータレイヤデータレイヤオブジェクトストレージで保管要カタログツール

Iceberg のアーキテクチャ 11 https://www.dremio.com/resources/guides/apache-iceberg-an-architectural-look-under-the-covers/ メタデータファイル S0 Icebergカタログ db1.table1 CREATE
TABLE db1.table1 ( order_id BIGINT, customer_id BIGINT, order_amount DECIMAL(10, 2), order_ts TIMESTAMP ) USING iceberg PARTITIONED BY ( HOUR(order_ts) ); カタログのポインタ db1.table1 → table1/metadata/v1.metadata.json オブジェクトストレージの中の様子 table1/ ├ metadata/ ├ v1.metadata.json ├ data/

Iceberg のアーキテクチャ 12 https://www.dremio.com/resources/guides/apache-iceberg-an-architectural-look-under-the-covers/ メタデータファイル S0 Icebergカタログ db1.table1 INSERT
INTO db1.table1 VALUES ( 123, 456, 36.17, ‘2025-01-26 08:10:23' ); カタログのポインタ db1.table1 → table1/metadata/v2.metadata.json オブジェクトストレージの中の様子 table1/ ├ metadata/ ├ v1.metadata.json ├ v2.metadata.json New! ├ snap-178s9-fsdo.avro New! ├ dlwo-soagn-1o.avro New! ├ data/ ├ order_ts_hour=2025-01-26-8 ├ 000-1-awx.parquet New! メタデータファイル S0 S1 マニフェストリストマニフェストファイルデータファイル

Iceberg のアーキテクチャ 13 https://www.dremio.com/resources/guides/apache-iceberg-an-architectural-look-under-the-covers/ メタデータファイル S0 Icebergカタログ db1.table1 MERGE
INTO table1 USING ( SELECT * FROM table1_stage ) s ON table1.order_id = s.order_id WHEN MATCHED THEN UPDATE table1.order_amount = s.order_amount WHEN NOT MATCHED THEN INSERT * カタログのポインタ db1.table1 → table1/metadata/v3.metadata.json オブジェクトストレージの中の様子 table1/ ├ metadata/ ├ v1.metadata.json ├ v2.metadata.json ├ v3.metadata.json New! ├ snap-178s9-fsdo.avro ├ snap-tman-safs.avro New! ├ dlwo-soagn-1o.avro ├ wosa-ga-63wa.avro New! ├ data/ ├ order_ts_hour=2025-01-26-8 ├ 000-1-awx.parquet ├ 000-55-sag.parquet New! ├ order_ts_hour=2025-01-27-10 ├ 000-4-ganb.parquet New! メタデータファイル S0 S1 マニフェストリストマニフェストファイルメタデータファイル S0 S1 マニフェストリストマニフェストファイルデータファイルデータファイルデータファイル S2

Icebergの最適化 14 最適化方式概要コンパクション (圧縮) サイズの小さい複数ファイルを1つのファイルに置き換える。 Binpack(ファイルの書き換えのみ)、Sort(事前にソートしてから書き換え)のようなモードがある。データのソート特定のフィールドに基づいてデータをソートする。
テーブルパーティショニング特定のフィールドの特定の値に基づいて分類する。 Icebergではhidden Partitioningの方式が採用されており、パーティション用の追加列は不要。更新方法の選択 Copy-on-Write: 対象ファイルでデータが1行でも書き込まれたら、全て新規に書き換え。 Merge-on-Read: 更新を新規のデータファイルとして管理し、読み込み時に一緒に読み込む。ストレージ最適化スナップショット削除や孤立ファイル削除を行う。並列化モードの選択タスクの配分をパーティションキーを基準に分散する。ブルームフィルター特定の値がデータセットの中にあるかどうかを知るクエリ。不要なスキャンを避ける。最適化の基本の考え方はスキャン回数を最小限にして必要な情報を得られるようにデータ配置を調整する

AWSでのIcebergの取り扱い 15 Before re:Invent 2024 メタデータファイルマニフェストリストマニフェスト
ファイルデータファイル S0 S1 Icebergカタログメタデータポインタメタデータレイヤ Amazon S3 Standard or Intelligent-Tiering AWS Glue Data Catalog Amazon EMR Spark Catalog 分析ツール Amazon Athena Amazon EMR AWS Glue カタログはセットアップが必要ストレージ最適化は基本は自分で実施 ※ ※ Re:invent2024後にAWS Glue データカタログでIcebergテーブルの高度な自動化が提供された https://aws.amazon.com/jp/about-aws/whats-new/2024/12/aws-glue-data-catalog-automatic-optimization-iceberg-tables/ データレイヤ

AWSでのIcebergの取り扱い 16 メタデータファイルマニフェストリストマニフェストファイルデータファイル
S0 S1 Icebergカタログメタデータポインタメタデータレイヤ AWS Glue Data Catalog 分析ツールデータレイヤ自動でカタログ作成自動でストレージ最適化 • 圧縮 • スナップショット管理 • 参照されていないファイル削除クエリパフォーマンスが最大 3 倍高速プレビュー分析サービスとの統合 Amazon S3 Tables Amazon Athena Amazon EMR AWS Glue Amazon Redshift After re:Invent 2024

17 ちなみに 2025/1/17 東京リージョンでもS3 Tablesが使えるようになりました！ https://aws.amazon.com/about-aws/whats-new/2025/01/amazon-s3-tables-additional-aws-regions/

18 Iceberg の特徴を知る 01 AWSとIceberg の連携方式を知る 02 S3 Tables の特徴を捉える
03 本日お伝えしたいこと

参考文献 Books ⚫ Apache Iceberg: The Definitive Guide Web ⚫
Apache Iceberg: An Architectural Look Under the Covers ⚫ Spark and Iceberg Quickstart ⚫ Using Apache Iceberg on AWS ⚫ Working with Amazon S3 Tables and table buckets Video ⚫ What is Apache Iceberg? 19

Apache Icebergの解説とAWSでの運用

Apache Icebergの解説とAWSでの運用

Shuya Sawa

More Decks by Shuya Sawa

Other Decks in Technology

Featured

Transcript

Apache Icebergの解説とAWSでの運用 2025/1/29 BigData-JAWS 勉強会 #28 re:Invent 2024 re:Cap IBM

https://www.youtube.com/watch?v=LY7m5LQliAo

3 Keywords of S3 Tables • 分析ワークロードに最適化されたS3ストレージ • Iceberg形式のテーブルをサポート •

4 Keywords of S3 Tables • 分析ワークロードに最適化されたS3ストレージ • Iceberg形式のテーブルをサポート •

5 Iceberg の特徴を知る 01 AWSとIceberg の連携方式を知る 02 S3 Tables の特徴を捉える

6 Icebergの歴史 Hadoop分散ファイルシステム (HDFS) Hive Hive Table Format 2004年

7 Icebergの歴史 S3 Presto Apache Spark Dremio Minio 分析ツールストレージ

8 Icebergの歴史 S3 Presto Apache Spark Dremio Minio 分析ツールストレージ

9 Icebergの歴史 S3 Presto Apache Spark Dremio Minio 分析ツールストレージ

Iceberg の構成要素 10 メタデータファイルマニフェストリストマニフェストファイルデータ

Iceberg のアーキテクチャ 11 https://www.dremio.com/resources/guides/apache-iceberg-an-architectural-look-under-the-covers/ メタデータファイル S0 Icebergカタログ db1.table1 CREATE

Iceberg のアーキテクチャ 12 https://www.dremio.com/resources/guides/apache-iceberg-an-architectural-look-under-the-covers/ メタデータファイル S0 Icebergカタログ db1.table1 INSERT

Iceberg のアーキテクチャ 13 https://www.dremio.com/resources/guides/apache-iceberg-an-architectural-look-under-the-covers/ メタデータファイル S0 Icebergカタログ db1.table1 MERGE

AWSでのIcebergの取り扱い 15 Before re:Invent 2024 メタデータファイルマニフェストリストマニフェスト

AWSでのIcebergの取り扱い 16 メタデータファイルマニフェストリストマニフェストファイルデータファイル

17 ちなみに 2025/1/17 東京リージョンでもS3 Tablesが使えるようになりました！ https://aws.amazon.com/about-aws/whats-new/2025/01/amazon-s3-tables-additional-aws-regions/

18 Iceberg の特徴を知る 01 AWSとIceberg の連携方式を知る 02 S3 Tables の特徴を捉える

参考文献 Books ⚫ Apache Iceberg: The Definitive Guide Web ⚫