Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SageMaker Lakehouse の紹介 / Introduction to SageM...
Search
hayao_k
December 17, 2024
Technology
0
300
SageMaker Lakehouse の紹介 / Introduction to SageMaker Lakehouse
AWS re:Invent 2024 re:cap LT大会 で発表した
次世代SageMaker の中核は SageMaker Lakehouse といっても過言ではない件
の資料です。
hayao_k
December 17, 2024
Tweet
Share
More Decks by hayao_k
See All by hayao_k
ナレッジベースはどのようにSQLを生成するのか / Knowledge Bases supports structed data retrieval
hayaok3
2
430
クラウドネイティブなデータ連携の最新動向 / Latest trends in cloud-native data integration
hayaok3
1
820
RAG Approach on AWS
hayaok3
4
1.9k
Amazon VPC Lattice を使い始める前におさえておきたいポイント n 選 / Introduction to VPC Lattice
hayaok3
6
3.4k
アウトプットを伴走するエンジニア育成のこれまでとこれから / Training engineers through the input and output learning cycle
hayaok3
0
260
AWS Verified Access で VPN-less な世界を体験してみた / The world of VPN-less with AWS Verified Access
hayaok3
0
1k
AWS Trusted Advisor Priority とはどんな機能か / What is AWS Trusted Advisor Priority?
hayaok3
0
690
SWAG 大好きマンな皆さまにおくる立ち回り方 / re:Invent 2022 Standby
hayaok3
0
2k
マルチクラウドのコスト可視化してみた / Visualize Multi-Cloud Costs with Vantage
hayaok3
0
520
Other Decks in Technology
See All in Technology
ゼロコードで実現! - OpenTelemetryとOCI APM Agentによる簡単アプリケーション監視 - / Zero-Code Observability with OpenTelemetry and OCI APM
oracle4engineer
PRO
1
170
Introduction to Sansan, inc / Sansan Global Development Center, Inc.
sansan33
PRO
0
2.6k
カンファレンスのつくりかた / The Conference Code: What Makes It All Work
tomzoh
5
580
会社員しながら本を書いてきた知見の共有
sat
PRO
2
630
Digitization部 紹介資料
sansan33
PRO
1
3.7k
データ戦略部門 紹介資料
sansan33
PRO
1
3.1k
Swiftは最高だよの話
yuukiw00w
0
210
さくらのクラウド 開発の挑戦とその舞台裏
kazeburo
0
690
Oracle Cloud Infrastructure:2025年5月度サービス・アップデート
oracle4engineer
PRO
0
250
令和トラベルQAのAI活用
seigaitakahiro
0
380
AIに実況させる / AI Streamer
motemen
1
1.1k
ITエンジニアを取り巻く環境とキャリアパス / A career path for Japanese IT engineers
takatama
3
1.5k
Featured
See All Featured
Fireside Chat
paigeccino
37
3.5k
KATA
mclloyd
29
14k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
45
7.3k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
60k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.8k
A Tale of Four Properties
chriscoyier
159
23k
StorybookのUI Testing Handbookを読んだ
zakiyama
30
5.7k
Gamification - CAS2011
davidbonilla
81
5.3k
Building an army of robots
kneath
306
45k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Faster Mobile Websites
deanohume
307
31k
Transcript
次世代 SageMaker の中核は SageMaker Lakehouse といっても過言ではない件 AWS re:Invent 2024 re:cap
LT大会 December 17th, 2024 小杉 隼人 | Hayato Kosugi
About Me • Cloud Engineer @ Saison Technology • AWS
Ambassador • AWS Community Builder • 2019 - 2024 Japan AWS Top Engineer • 13x AWS Certified 2 @hayaok3 @hayao_k @hayao_k
3
The next generation of SageMaker 4 • データの分析、変換、AI 活用を一カ所で実現するプラットフォームへ https://aws.amazon.com/sagemaker/
より引用 Unified Studio (Preview) 統合開発環境 (IDE) ・ Redshift による SQL 分析、 ・ Glue や Athena、EMR によるデータ処理、 ・ SageMaker AI による AI/ML モデル開発 ・ Bedrock IDE (Preview) による生成 AI アプリ開発 これらを単一の環境で実行可能に 今後、ストリーミング / BI / 検索 が追加予定
The next generation of SageMaker 5 • データの分析、変換、AI 活用を一カ所で実現するプラットフォームへ https://aws.amazon.com/sagemaker/
より引用 Data & AI Governance DataZone のビジネスデータカタログや データの公開、購読などのガバナンス機能が Unified Studio の一部として統合されている Comprehend による PII 識別 や SageMaker Clarify Bedrock Guardrails といったガバナンス系機能も Unified Studio 上で利用可能
The next generation of SageMaker 6 • データの分析、変換、AI 活用を一カ所で実現するプラットフォームへ https://aws.amazon.com/sagemaker/
より引用 SageMaker Lakehouse S3 のデータレイクと Redshift のデータウェアハウスを 統合したデータ管理レイヤー Glue Data Catalog と Lake Formation がベース Unified Studio 内のデータブラウザーを通して、 SageMaker Lakehouse 上のデータを参照可能
7 SageMaker Lakehouse が提供するもの ANT354: Amazon SageMaker Lakehouse: Accelerate analytics
& AI より引用 ストレージ層として汎用 S3 バケット、S3 Tables、 Redshift Managed Storage をサポートし、既存の データレイク、DWH のデータにシームレスにアクセス zero-ETL 統合 により SaaS データの取り込みや様々な DB サービスへのクエリフェデレーションもサポート Iceberg REST API を通じて AWS サービスや 3rd Party アプリからこれらすべてのデータに一か所からアクセスできる Lake Formation によるきめ細やかなアクセス制御
• 既存の Redshift クラスターを Lakehouse に登録 • Iceberg API を通じて
Redshift / Athena / EMR / Glue / 3rd Party からこれらのデータに読み書き • ワークロード毎に専用のコンピューティングを割り当て • 複数の Redshift クラスターに保存されているデータを共有機能なしに一か所からクエリ • 単なるメタデータの登録なのでデータの物理的な移動は発生しない 8 例えばこんなことができる Amazon Redshift Amazon EMR AWS Glue Amazon Athena https://docs.aws.amazon.com/lake-formation/latest/dg/managing-namespaces-datacatalog.html
9 Redshift を Lakehouse に公開する流れ • Redshift コンソールから Glue Data
Catalog に登録をクリック • Lake Formation に招待が飛ぶので、カタログの名前と IAM ロール、権限を設定し登録 • カタログへの登録が完了すると Redshift クエリエディタ v2 や Unified Studio 上からアクセスが可能に
• SageMaker Unified Studio によりデータの分析、変換、AI 活用を一カ所で行えるように • その体験の中核となるのは SageMaker Lakehouse
によるシームレスなデータアクセス • まさか SageMaker ブランドで Data / AI 周りの UX が再編されるとは 10 まとめ
11 本日の内容は Qiita にも投稿しています Amazon SageMaker Lakehouse とはどのようなサービスか https://qiita.com/hayao_k/items/ec3e77c17a7de325a71c