Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Amazon S3 Tables + Amazon Athena / Apache Iceberg

Kaoru
April 13, 2025

Amazon S3 Tables + Amazon Athena / Apache Iceberg

LT 2025/4/12

Kaoru

April 13, 2025
Tweet

More Decks by Kaoru

Other Decks in Technology

Transcript

  1. Amazon S3 Tables + Amazon Athena / Apache Iceberg 


    LT
 Iceberg の語源から 
 2025/4/12 

  2. ©2025 Voicy, Inc. Parquet の語源 
 • フランス語の parquet
 •

    寄せ木細工の床、という意味
 • 読み方は、パーケイ or パルケ

  3. ©2025 Voicy, Inc. Row Group 
 • データをある程度のサイズ(通常は128MBなど)で ブロック単位に区切ったもの
 •

    1 Row Group = 全列のデータのまとまり
 • 複数のRow Groupで1ファイルを構成することがで きる

  4. ©2025 Voicy, Inc. Column Chunk 
 • Row Group 内で

    各列ごとのデータを保持
 • 列指向なので、列ごとに連続したデータを保存し、 圧縮・エンコードがしやすい

  5. ©2025 Voicy, Inc. Pages 
 • Column Chunk は 複数の

    Page に分割される
 ◦ Data Page:実データを保持
 ◦ Dictionary Page(任意):辞書圧縮時にキーと 値のマッピングを保持
 ◦ Index Page:高速アクセス用

  6. ©2025 Voicy, Inc. File Footer 
 • ファイル末尾にある重要なメタ情報セクション
 • 内容:


    ◦ スキーマ情報(列名、型、ネスト構造)
 ◦ 各 Row Group のオフセット、サイズ、列統計情 報(min/max, null count)
 ◦ 作成ツールのバージョンなど