Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SageMaker Lakehouse の紹介 / Introduction to SageM...
Search
hayao_k
December 17, 2024
Technology
0
470
SageMaker Lakehouse の紹介 / Introduction to SageMaker Lakehouse
AWS re:Invent 2024 re:cap LT大会 で発表した
次世代SageMaker の中核は SageMaker Lakehouse といっても過言ではない件
の資料です。
hayao_k
December 17, 2024
Tweet
Share
More Decks by hayao_k
See All by hayao_k
ナレッジベースはどのようにSQLを生成するのか / Knowledge Bases supports structed data retrieval
hayaok3
2
500
クラウドネイティブなデータ連携の最新動向 / Latest trends in cloud-native data integration
hayaok3
2
1k
RAG Approach on AWS
hayaok3
4
2k
Amazon VPC Lattice を使い始める前におさえておきたいポイント n 選 / Introduction to VPC Lattice
hayaok3
6
3.6k
アウトプットを伴走するエンジニア育成のこれまでとこれから / Training engineers through the input and output learning cycle
hayaok3
0
280
AWS Verified Access で VPN-less な世界を体験してみた / The world of VPN-less with AWS Verified Access
hayaok3
0
1.1k
AWS Trusted Advisor Priority とはどんな機能か / What is AWS Trusted Advisor Priority?
hayaok3
0
750
SWAG 大好きマンな皆さまにおくる立ち回り方 / re:Invent 2022 Standby
hayaok3
0
2.1k
マルチクラウドのコスト可視化してみた / Visualize Multi-Cloud Costs with Vantage
hayaok3
0
560
Other Decks in Technology
See All in Technology
Digitization部 紹介資料
sansan33
PRO
1
6k
名刺メーカーDevグループ 紹介資料
sansan33
PRO
0
970
AI エージェントを評価するための温故知新と Spec Driven Evaluation
icoxfog417
PRO
2
960
Datadog LLM Observabilityで実現するLLMOps実践事例 / practical-llm-observability-with-datadog
k6s4i53rx
0
180
Flutter Thread Merge - Flutter Tokyo #11
itsmedreamwalker
1
110
事業状況で変化する最適解。進化し続ける開発組織とアーキテクチャ
caddi_eng
1
8.9k
巨大モノリスのリプレイス──機能整理とハイブリッドアーキテクチャで挑んだ再構築戦略
zozotech
PRO
0
390
命名から始めるSpec Driven
kuruwic
1
640
レガシーで硬直したテーブル設計から変更容易で柔軟なテーブル設計にする
red_frasco
4
650
MAP-7thplaceSolution
yukichi0403
2
180
Data Hubグループ 紹介資料
sansan33
PRO
0
2.3k
Android Studio Otter の最新 Gemini 機能 / Latest Gemini features in Android Studio Otter
yanzm
0
490
Featured
See All Featured
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.5k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
680
How GitHub (no longer) Works
holman
316
140k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
14k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
Building an army of robots
kneath
306
46k
Rebuilding a faster, lazier Slack
samanthasiow
84
9.3k
The World Runs on Bad Software
bkeepers
PRO
72
12k
Reflections from 52 weeks, 52 projects
jeffersonlam
355
21k
Designing for humans not robots
tammielis
254
26k
Transcript
次世代 SageMaker の中核は SageMaker Lakehouse といっても過言ではない件 AWS re:Invent 2024 re:cap
LT大会 December 17th, 2024 小杉 隼人 | Hayato Kosugi
About Me • Cloud Engineer @ Saison Technology • AWS
Ambassador • AWS Community Builder • 2019 - 2024 Japan AWS Top Engineer • 13x AWS Certified 2 @hayaok3 @hayao_k @hayao_k
3
The next generation of SageMaker 4 • データの分析、変換、AI 活用を一カ所で実現するプラットフォームへ https://aws.amazon.com/sagemaker/
より引用 Unified Studio (Preview) 統合開発環境 (IDE) ・ Redshift による SQL 分析、 ・ Glue や Athena、EMR によるデータ処理、 ・ SageMaker AI による AI/ML モデル開発 ・ Bedrock IDE (Preview) による生成 AI アプリ開発 これらを単一の環境で実行可能に 今後、ストリーミング / BI / 検索 が追加予定
The next generation of SageMaker 5 • データの分析、変換、AI 活用を一カ所で実現するプラットフォームへ https://aws.amazon.com/sagemaker/
より引用 Data & AI Governance DataZone のビジネスデータカタログや データの公開、購読などのガバナンス機能が Unified Studio の一部として統合されている Comprehend による PII 識別 や SageMaker Clarify Bedrock Guardrails といったガバナンス系機能も Unified Studio 上で利用可能
The next generation of SageMaker 6 • データの分析、変換、AI 活用を一カ所で実現するプラットフォームへ https://aws.amazon.com/sagemaker/
より引用 SageMaker Lakehouse S3 のデータレイクと Redshift のデータウェアハウスを 統合したデータ管理レイヤー Glue Data Catalog と Lake Formation がベース Unified Studio 内のデータブラウザーを通して、 SageMaker Lakehouse 上のデータを参照可能
7 SageMaker Lakehouse が提供するもの ANT354: Amazon SageMaker Lakehouse: Accelerate analytics
& AI より引用 ストレージ層として汎用 S3 バケット、S3 Tables、 Redshift Managed Storage をサポートし、既存の データレイク、DWH のデータにシームレスにアクセス zero-ETL 統合 により SaaS データの取り込みや様々な DB サービスへのクエリフェデレーションもサポート Iceberg REST API を通じて AWS サービスや 3rd Party アプリからこれらすべてのデータに一か所からアクセスできる Lake Formation によるきめ細やかなアクセス制御
• 既存の Redshift クラスターを Lakehouse に登録 • Iceberg API を通じて
Redshift / Athena / EMR / Glue / 3rd Party からこれらのデータに読み書き • ワークロード毎に専用のコンピューティングを割り当て • 複数の Redshift クラスターに保存されているデータを共有機能なしに一か所からクエリ • 単なるメタデータの登録なのでデータの物理的な移動は発生しない 8 例えばこんなことができる Amazon Redshift Amazon EMR AWS Glue Amazon Athena https://docs.aws.amazon.com/lake-formation/latest/dg/managing-namespaces-datacatalog.html
9 Redshift を Lakehouse に公開する流れ • Redshift コンソールから Glue Data
Catalog に登録をクリック • Lake Formation に招待が飛ぶので、カタログの名前と IAM ロール、権限を設定し登録 • カタログへの登録が完了すると Redshift クエリエディタ v2 や Unified Studio 上からアクセスが可能に
• SageMaker Unified Studio によりデータの分析、変換、AI 活用を一カ所で行えるように • その体験の中核となるのは SageMaker Lakehouse
によるシームレスなデータアクセス • まさか SageMaker ブランドで Data / AI 周りの UX が再編されるとは 10 まとめ
11 本日の内容は Qiita にも投稿しています Amazon SageMaker Lakehouse とはどのようなサービスか https://qiita.com/hayao_k/items/ec3e77c17a7de325a71c