Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Amazon S3 Tablesと外部分析基盤連携について / Amazon S3 Table...

Amazon S3 Tablesと外部分析基盤連携について / Amazon S3 Tables and External Data Analytics Platform

2025年1月29日のイベント名で発表した「Amazon S3 Tablesと外部分析基盤連携について」の講演資料です。講演詳細についてはこちらを御覧ください(https://jawsug-bigdata.connpass.com/event/341224/

NTT Communications

February 17, 2025
Tweet

More Decks by NTT Communications

Other Decks in Technology

Transcript

  1. © NTT Communications Corporation All Rights Reserved. Amazon S3 Tablesと外部分析基盤連携について

    NTTコミュニケーションズ株式会社 イノベーションセンター 露﨑 浩太
  2. © NTT Communications Corporation All Rights Reserved. 2 自己紹介 名前:

    露崎 浩太 所属: NTTコミュニケーションズ株式会社 お仕事:Cloud CoE、他 経歴: 以前はオンプレクラウド関係の仕事をしていましたが2023年 からNTTコミュニケーションズ株式会社でクラウド、生成AI、 データレイクに関する仕事をしています。 Pythonとかチョットデキル re:Inventは今回が2回目
  3. © NTT Communications Corporation All Rights Reserved. 4 Amazon S3

    Tables – 背景 • Amazon S3: Simple Storage Service • “Amazon S3 を使用して、データレイク、ウェブサイト、モバイルアプリ ケーション、バックアップおよび復元、アーカイブ、エンタープライズア プリケーション、IoT デバイス、ビッグデータ分析など、広範なユース ケースのデータを容量にかかわらず、保存して保護することができま す。” • 分析基盤の歴史 • Apache HadoopはAWSと同期 (2006年リリース) • 2010年代以降にクラウドベースの分析基盤移行が加速 • EMR(2009)、Redshift(2012)、Athena(2016) • Snowflake(2012)、Databricks(2013) • 分析基盤用のデータがS3の保存データの中で大きくなってき た ref: https://www.youtube.com/watch?v=1U7yX4HTLCI ref: https://docs.aws.amazon.com/ja_jp/AmazonS3/latest/userguide/Welcome.html
  4. © NTT Communications Corporation All Rights Reserved. 5 Open Table

    Format (OTF) • 分析データのファイルフォーマット • Parquet, Avro, OCR, json • 分析効率のため複数のファイルに分割して保存 • データカタログ機能はファイルとデータの関係を示すメタ データを提供 • AWS: Glue Data Catalog • OSS: Apache Iceberg, DeltaLake, Apache Hudi • 2024年 Iceberg関連のアナウンスが多かった • SnowflakeがPolaris Catalogを発表 • DatabricksがTabluar社(Icebergの開発元)を買収 • Amazon S3 TablesがIceberge Catalog機能を提供 ref: https://www.youtube.com/watch?v=1U7yX4HTLCI
  5. © NTT Communications Corporation All Rights Reserved. 6 Amazon S3

    Tables • Amazon S3 Tables • 表形式専用のbucket • 既存のbucketに対するoptionでなく専用のリソースとして提供 • パフォーマンス/セキュリティ/コスト • テーブル形式でのアクセスに最適化されたストレージを提供 • AWSのIAM/Role/ARNベースでのアクセスコントロール • 定期的なコンパクション、不要なデータの自動的なガベッジコレク ション • データアクセスの透過性 • Iceberg Catalogとして利用可能 • Glue、Lake Formationと連携してAWSのサービスから利用 可能 ref: https://www.youtube.com/watch?v=1U7yX4HTLCI
  6. © NTT Communications Corporation All Rights Reserved. 9 Amazon S3

    Tables 操作の仕方 • 公式Tutorial (EMR) • https://docs.aws.amazon.com/AmazonS3/latest/userguide/s3-tables-getting- started.html • Athena, Glue, Redshift... etc. • https://dev.classmethod.jp/articles/amazon-s3-tables-tokyo-region-ga/
  7. © NTT Communications Corporation All Rights Reserved. 12 デモについて •

    紹介するもの • OSS Sparkのデモ • Azure Databricksのデモ • 大変だったこと • 基本的に日本語のドキュメントはない、英語もほとんどない • GithubのIssue探してて見つかった唯一のOSS Sparkの設定方法 • https://medium.com/@mattgillard/my-s3-tables-experiment-a789493c5512 • OSS Hadoop-AWSのdocsを参照し手探りで実施 • https://hadoop.apache.org/docs/stable/hadoop-aws/tools/hadoop-aws/ • 調べた限りではIceberg REST API用のToken等は存在せずAWS-Hadoop ARNベースでのアクセス形式のみをサ ポート • NOTE • YouTubeの中継があるとのことなのでクレデンシャルを事故らないよう動画にしました • 時間省略のためREADのデモだけやります。EMRのTutorialで作ったTableを参照します。
  8. © NTT Communications Corporation All Rights Reserved. 15 Issues on

    Github https://github.com/awslabs/s3-tables-catalog/issues/26
  9. © NTT Communications Corporation All Rights Reserved. 16 まとめ •

    re:Invent 2024で発表されたAmazon S3 TablesはIceberg Catalogとストレージのas a service • AWS内外のサービスからアクセス可能 • まだちょっとドキュメントが少ない、制約事項があるのでみんなで育てましょう 連絡先: NTTコミュニケーションズ株式会社 イノベーションセンター クラウドCoE プロジェクト [email protected]