Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SageMaker Lakehouse の紹介 / Introduction to SageM...

hayao_k
December 17, 2024

SageMaker Lakehouse の紹介 / Introduction to SageMaker Lakehouse

AWS re:Invent 2024 re:cap LT大会 で発表した
次世代SageMaker の中核は SageMaker Lakehouse といっても過言ではない件
の資料です。

hayao_k

December 17, 2024
Tweet

More Decks by hayao_k

Other Decks in Technology

Transcript

  1. About Me • Cloud Engineer @ Saison Technology • AWS

    Ambassador • AWS Community Builder • 2019 - 2024 Japan AWS Top Engineer • 13x AWS Certified 2 @hayaok3 @hayao_k @hayao_k
  2. 3

  3. The next generation of SageMaker 4 • データの分析、変換、AI 活用を一カ所で実現するプラットフォームへ https://aws.amazon.com/sagemaker/

    より引用 Unified Studio (Preview) 統合開発環境 (IDE) ・ Redshift による SQL 分析、 ・ Glue や Athena、EMR によるデータ処理、 ・ SageMaker AI による AI/ML モデル開発 ・ Bedrock IDE (Preview) による生成 AI アプリ開発 これらを単一の環境で実行可能に 今後、ストリーミング / BI / 検索 が追加予定
  4. The next generation of SageMaker 5 • データの分析、変換、AI 活用を一カ所で実現するプラットフォームへ https://aws.amazon.com/sagemaker/

    より引用 Data & AI Governance DataZone のビジネスデータカタログや データの公開、購読などのガバナンス機能が Unified Studio の一部として統合されている Comprehend による PII 識別 や SageMaker Clarify Bedrock Guardrails といったガバナンス系機能も Unified Studio 上で利用可能
  5. The next generation of SageMaker 6 • データの分析、変換、AI 活用を一カ所で実現するプラットフォームへ https://aws.amazon.com/sagemaker/

    より引用 SageMaker Lakehouse S3 のデータレイクと Redshift のデータウェアハウスを 統合したデータ管理レイヤー Glue Data Catalog と Lake Formation がベース Unified Studio 内のデータブラウザーを通して、 SageMaker Lakehouse 上のデータを参照可能
  6. 7 SageMaker Lakehouse が提供するもの ANT354: Amazon SageMaker Lakehouse: Accelerate analytics

    & AI より引用 ストレージ層として汎用 S3 バケット、S3 Tables、 Redshift Managed Storage をサポートし、既存の データレイク、DWH のデータにシームレスにアクセス zero-ETL 統合 により SaaS データの取り込みや様々な DB サービスへのクエリフェデレーションもサポート Iceberg REST API を通じて AWS サービスや 3rd Party アプリからこれらすべてのデータに一か所からアクセスできる Lake Formation によるきめ細やかなアクセス制御
  7. • 既存の Redshift クラスターを Lakehouse に登録 • Iceberg API を通じて

    Redshift / Athena / EMR / Glue / 3rd Party からこれらのデータに読み書き • ワークロード毎に専用のコンピューティングを割り当て • 複数の Redshift クラスターに保存されているデータを共有機能なしに一か所からクエリ • 単なるメタデータの登録なのでデータの物理的な移動は発生しない 8 例えばこんなことができる Amazon Redshift Amazon EMR AWS Glue Amazon Athena https://docs.aws.amazon.com/lake-formation/latest/dg/managing-namespaces-datacatalog.html
  8. 9 Redshift を Lakehouse に公開する流れ • Redshift コンソールから Glue Data

    Catalog に登録をクリック • Lake Formation に招待が飛ぶので、カタログの名前と IAM ロール、権限を設定し登録 • カタログへの登録が完了すると Redshift クエリエディタ v2 や Unified Studio 上からアクセスが可能に
  9. • SageMaker Unified Studio によりデータの分析、変換、AI 活用を一カ所で行えるように • その体験の中核となるのは SageMaker Lakehouse

    によるシームレスなデータアクセス • まさか SageMaker ブランドで Data / AI 周りの UX が再編されるとは 10 まとめ