Iceberg で Amazon Athena をデータウェアハウスぽく使おう

Iceberg で Amazon Athena をデータウェアハウスぽく使おうクラメソおおさか IT 勉強会 Midosuji
Tech #1 「クラメソエンジニアが語る AWS 使いこなしテク」 niino 1

⾃⼰紹介 niino（@kniino1234） • データアナリティクス事業本部インテグレーション部機械学習チーム ◦ 2023 Japan AWS
Top Engineer(Analytics) • 最近の⾼い買い物︓ベース • 奈良県出⾝⼤阪オフィス所属この辺の出身

3 今日話すこと • Icebergとは • データレイクとデータウェアハウス • テーブルフォーマットとは • Athenaで使うIceberg
• スキーマ（Schema Evolution） • パーティション

4 Icebergとは

Icebergとはデータウェアハウスのように使えるデータレイクのテーブルフォーマット

6 データレイクとデータウェアハウス

DB ログ IoT Stream データレイク収集 (Extract) 整形・ロード (Transform/Load) 参照・出⼒・推論
(Output) 可視化分析機械学習データウェアハウスデータレイクとデータウェアハウス 7

DB ログ IoT Stream データレイク収集 (Extract) 整形・ロード (Transform/Load) 参照・出⼒・推論
(Output) 可視化分析機械学習データウェアハウス・・・・・・データレイクとデータウェアハウス 8 Amazon Redshift Amazon Athena Amazon S3

9 テーブルフォーマットとは

10 テーブルフォーマットデータ投⼊データ取得・処理 CSV/JSON… ユーザーコンピュート CSVやJSONといったファイルを処理する →コンピュートからのデータアクセスの効率がよくない

11 テーブルフォーマットデータ投⼊データ取得/処理 Parquet/ORC/Avro Avro, Parquet, ORCなど、処理効率がいいファイル形式が登場⾏1
2024-06-12 Tシャツ 5980 ⾏2 2024-06-13 スカート 10000 Date 2024-06-12 2024-06-13 Product Tシャツスカート Price 5980 10000 ⾏指向列指向

12 テーブルフォーマットデータ投⼊データ取得/処理 Parquet/ORC/Avro ファイルを管理する仕組み、テーブルフォーマットが登場テーブルフォーマットを介してデータにアクセスする Iceberg/Delta Lake/Hudi…

Icebergとはデータウェアハウスのように使えるデータレイクのテーブルフォーマット従来のテーブルフォーマット Iceberg データファイルを編集できない UPDATE/DELETE/MERGEによるデータの編集・削除が可能トランザクションがサポートされておらずデータの⼀貫性を保てない
ACIDトランザクションによる同時アクセス時の整合性を担保過去のデータの状態を復元できないテーブルのタイムトラベル機能ファイルの物理的な構造を元にパーティション構造を参照メタデータを元にパーティション構造を把握する、より精度の⾼いパーティショニング

ACIDトランザクションによる同時アクセス時の整合性を担保過去のデータの状態を復元できないテーブルのタイムトラベル機能ファイルの物理的な構造を元にパーティション構造を参照メタデータを元にパーティション構造を把握する、より精度の⾼いパーティショニングデータファイルに紐づくメタデータを持つことで柔軟なデータアクセスが可能に

Athenaで使うIceberg Athena + Iceberg + Step Functions • データ変換をAthena上のSQLで実施 •
データの投⼊（UPDATE・MERGE）実⾏ • SQL実⾏や通知などをすべてStep Functions でワークフロー化 • CDKを利⽤したコード管理ポイント • 可読性の⾼いSQLを使った変換処理で属⼈化を防ぐ • GUIベースでワークフローを簡単に作れてコード管理もできる • Athenaを利⽤することで⽐較的コストを抑えられる

Athenaで使うIceberg Athena + Iceberg + Step Functions • データ変換をAthena上のSQLで実施 •
データの投⼊（UPDATE・MERGE）実⾏ • SQL実⾏や通知などをすべてStep Functions でワークフロー化 • CDKを利⽤したコード管理ポイント • 可読性の⾼いSQLを使った変換処理で属⼈化を防ぐ • GUIベースでワークフローを簡単に作れてコード管理もできる • Athenaを利⽤することで⽐較的コストを抑えられるスキーマ変更・パーティション管理が便利

スキーマ

Schema Evolution 時間の経過や要件の変化によりスキーマが変更される →既存データを保持し、古いスキーマとの互換性を維持しつつ、スキーマを変更を実現する Productテーブル ID Name Price(JPY) 1
Tシャツ 7980 2 スカート 10000 Productテーブル ID Name Price(JPY) Inventory 1 Tシャツ 7980 100 2 スカート 10000 50

Schema Evolution Icebergでのスキーマ変更はメタデータファイルの変更のみテーブル再作成、データ再ロードの必要なし • Add（新しい列追加） • Drop（既存の列削除） • Rename（列名変更）
• Update（データ型を拡張） • Reorder（列の順序変更） ALTER TABLE iceberg_table ADD COLUMNS (new_column string) ALTER TABLE iceberg_table DROP COLUMN price ALTER TABLE iceberg_table CHANGE COLUMN old_column new_column string FIRST

パーティション

Partition Evolution クエリパターンの傾向の変化により、パーティション変更が必要になるケース⽉ごとに分析すれば⼗分⽇ごとの傾向の変化が⾒たい…

Partition Evolution 既存データの変更なしでパーティション⽅式の変更が可能 →2024/6現在、Athenaではパーティション関連の DDL⽂はサポートされていない

Hidden Partition カラムの値を関数で変換し、パーティション値を⽣成可能 CREATE TABLE iceberg_table (id bigint, data string,
category string) PARTITIONED BY (day(date_stamp), bucket(5, id)) LOCATION 's3://DOC-EXAMPLE-BUCKET/your- folder/' TBLPROPERTIES ( 'table_type' = 'ICEBERG' ) date_stamp=2024-04-10 10:00:00 date_stamp=2024-04-10 11:00:00 date_stamp=2024-04-12 10:00:00 date_stamp_day=2024-04-10 date_stamp_day=2024-04-12 データパーティション 004d7e64/ id=0001 id=0002 パーティション 1c795a1a/ 224702fd/ 24052aa/ 37893aw/ id=0003 id=0004 … day(date_stamp) bucket(5,id) データ

Athenaで利⽤可能なHidden Partitionの関数関数機能例 year(timestamp) 年部分でパーティション化 2024 month(timestamp) ⽉部分でパーティション化
2024-06 day(timestamp) ⽇付部分でパーティション化 2024-06-12 hours(timestamp) 時間部分でパーティション化 2024-06-12-19 bucket(n, カラム) 指定した(n)数のバケットにパーティションを分割 buket(5,id)では、idの値ごとに5つのバケットに分散 truncate(n, カラム) 指定した(n)⽂字⽬の値でパーティション化 truncate(1,id)では、idの1⽂字⽬でパーティション化

まとめ

ACIDトランザクションによる同時アクセス時の整合性を担保過去のデータの状態を復元できないテーブルのタイムトラベル機能ファイルの物理的な構造を元にパーティション構造を参照メタデータを元にパーティション構造を把握する、より精度の⾼いパーティショニング

まとめ l Icebergを使ってデータウェアハウスでも提供されている操作をデータレイクにも実⾏できる l スキーマ変更のクエリが使える l Hidden Partitionで新たにカラムを作成することなくパーティション値を⽣成できる

参考 l Evolution - Apache Iceberg l What is Schema
Evolution? | Dremio l ALTER TABLE ADD PARTITION - Amazon Athena l AWSにおける Hudi/Iceberg/Delta Lake の使いどころと違いについて

Iceberg で Amazon Athena をデータウェアハウスぽく使おう

Iceberg で Amazon Athena をデータウェアハウスぽく使おう

Niino

More Decks by Niino

Featured

Transcript