Upgrade to Pro — share decks privately, control downloads, hide ads and more …

目玉アップデート!のSageMaker LakehouseとUnified Studioは何た...

Nayuta S.
December 11, 2024

目玉アップデート!のSageMaker LakehouseとUnified Studioは何たるかを見てみよう!

AWS re:Invent ふりかえり勉強会「クラスメソッド re:Growth 2024 大阪」で発表した資料になります。

https://classmethod-osaka.doorkeeper.jp/events/178670

Nayuta S.

December 11, 2024
Tweet

More Decks by Nayuta S.

Other Decks in Technology

Transcript

  1. 6 re:Invent2024のMLサービスアップデート概要 • 次世代のAmazon SageMaker • Unified Studio(プレビュー) • SageMaker

    Lakehouse • SageMaker 推論機能のアップデート • コンテナ キャッシュ • インスタンス数0までスケールダウン可能に • NVIDIA搭載機能の追加 • Amazon SageMaker Partner AI Apps • HyperPodのアップデート • コンピューティングリソースの予約 • EKS利用時のコンピュート管理機能 • FMのファインチューニング向けレシピ 今日はこの内容を紹介します
  2. 7 次世代のAmazon SageMaker • データレイク(A ma zon S 3)とデータウェアハウス(A ma

    zon R eds hift)のデータを統合し、 データ分析・A I/ML 開発を支援する。 • データによる素早いビジネス展開・ソリューション構築を可能にする。 ※2024/12/6にAmazon SageMakerの製品ページより引用(https://aws.amazon.com/sagemaker/)
  3. 8 SageMaker Lakehouseの概要 • データレイクとデータウェアハウス双方にアクセスしデータ統合できるIceberg APIによるインターフェース提供 • Zero-ETLによる運用システム内のデータの、レイクハウスへのリアルタイム連携 • Amazon

    Athenaのフェデレーテットクエリによる様々なデータソースからのデータ取得 • Amazon SageMaker Unified Studioドメインやきめ細かなアクセス制御によるガバナンス Amazon Redshift Amazon S3 AWS Glue Data Catalog Iceberg API対応 ツール Amazon DynamoDB Amazon Aurora Unified Studio 対応する3rd partyシステム 運用システム Iceberg APIによる横断的な消費 データレイク データウェアハウス ・Zero-ETL ・フェデレーテッドクエリ きめ細かな アクセス制御 データカタログ・ ガバナンス機能 レイクハウス
  4. 9 SageMaker Lakehouseの概要 ※re:Invent2024 ANT354-NEWセッションより引用(https://www.youtube.com/watch?v=LkH6ZzzA9dM) • 「カタログ」に様々なソースからのデータを整理して管理・横断した利用ができる。 • Iceberg REST

    APIを提供しており、アクセス制御をしつつ互換性のあるエンジンからデータ消費ができる。 この機能により、SageMaker Unified StudioをはじめとしたAPIを利用できるインターフェースから データを利用できる。
  5. 11 コンソールからのアクセス • SageMaker向けのコンソールは2つになっている • Amazon SageMaker platform:SageMaker LakehouseやUnified Studio向けの機能

    • Amazon SageMaker AI:従来のモデル開発向けの機能 ▼2024/12/11時点でのマネジメントコンソールからのサービス検索結果
  6. 17 まとめ • re:Invent2024で次世代のSageMakerとしてSageMaker LakehouseとUnified Studioが発表された。 • S3(データレイク)とRedshift(データウェアハウス)のデータを統合してデータ分析・AI/ML開発に 利用できる。 •

    Zero-ETL・フェデレーテットクエリにより、運用システムからレイクハウスにリアルタイムに連携できる。 • Iceberg REST APIが提供されており、 Unified Studioをはじめとしたこれに対応するデータ消費用の アプリケーションから利用できる。 その際、きめ細かなアクセス制御よるセキュリティを実現できる。