Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SageMaker Lakehouse の紹介 / Introduction to SageM...
Search
hayao_k
December 17, 2024
Technology
0
350
SageMaker Lakehouse の紹介 / Introduction to SageMaker Lakehouse
AWS re:Invent 2024 re:cap LT大会 で発表した
次世代SageMaker の中核は SageMaker Lakehouse といっても過言ではない件
の資料です。
hayao_k
December 17, 2024
Tweet
Share
More Decks by hayao_k
See All by hayao_k
ナレッジベースはどのようにSQLを生成するのか / Knowledge Bases supports structed data retrieval
hayaok3
2
450
クラウドネイティブなデータ連携の最新動向 / Latest trends in cloud-native data integration
hayaok3
1
890
RAG Approach on AWS
hayaok3
4
1.9k
Amazon VPC Lattice を使い始める前におさえておきたいポイント n 選 / Introduction to VPC Lattice
hayaok3
6
3.4k
アウトプットを伴走するエンジニア育成のこれまでとこれから / Training engineers through the input and output learning cycle
hayaok3
0
260
AWS Verified Access で VPN-less な世界を体験してみた / The world of VPN-less with AWS Verified Access
hayaok3
0
1.1k
AWS Trusted Advisor Priority とはどんな機能か / What is AWS Trusted Advisor Priority?
hayaok3
0
710
SWAG 大好きマンな皆さまにおくる立ち回り方 / re:Invent 2022 Standby
hayaok3
0
2.1k
マルチクラウドのコスト可視化してみた / Visualize Multi-Cloud Costs with Vantage
hayaok3
0
530
Other Decks in Technology
See All in Technology
20250708オープンエンドな探索と知識発見
sakana_ai
PRO
4
1k
推し書籍📚 / Books and a QA Engineer
ak1210
0
140
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
5
39k
Rethinking Incident Response: Context-Aware AI in Practice
rrreeeyyy
2
940
Snowflake Intelligenceという名のAI Agentが切り開くデータ活用の未来とその実現に必要なこと@SnowVillage『Data Management #1 Summit 2025 Recap!!』
ryo_suzuki
1
160
毎晩の 負荷試験自動実行による効果
recruitengineers
PRO
5
180
Amplify Gen2から知るAWS CDK Toolkit Libraryの使い方/How to use the AWS CDK Toolkit Library as known from Amplify Gen2
fossamagna
1
350
P2P通信の標準化 WebRTCを知ろう
faithandbrave
1
120
AI時代にも変わらぬ価値を発揮したい: インフラ・クラウドを切り口にユーザー価値と非機能要件に向き合ってエンジニアとしての地力を培う
netmarkjp
0
130
60以上のプロダクトを持つ組織における開発者体験向上への取り組み - チームAPIとBackstageで構築する組織の可視化基盤 - / sre next 2025 Efforts to Improve Developer Experience in an Organization with Over 60 Products
vtryo
3
1.9k
〜『世界中の家族のこころのインフラ』を目指して”次の10年”へ〜 SREが導いたグローバルサービスの信頼性向上戦略とその舞台裏 / Towards the Next Decade: Enhancing Global Service Reliability
kohbis
3
1.5k
VS CodeとGitHub Copilotで爆速開発!アップデートの波に乗るおさらい会 / Rapid Development with VS Code and GitHub Copilot: Catch the Latest Wave
yamachu
3
460
Featured
See All Featured
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2.2k
What’s in a name? Adding method to the madness
productmarketing
PRO
23
3.5k
Navigating Team Friction
lara
187
15k
Music & Morning Musume
bryan
46
6.7k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.9k
Fireside Chat
paigeccino
37
3.5k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Adopting Sorbet at Scale
ufuk
77
9.5k
How GitHub (no longer) Works
holman
314
140k
A designer walks into a library…
pauljervisheath
207
24k
BBQ
matthewcrist
89
9.7k
The Power of CSS Pseudo Elements
geoffreycrofte
77
5.9k
Transcript
次世代 SageMaker の中核は SageMaker Lakehouse といっても過言ではない件 AWS re:Invent 2024 re:cap
LT大会 December 17th, 2024 小杉 隼人 | Hayato Kosugi
About Me • Cloud Engineer @ Saison Technology • AWS
Ambassador • AWS Community Builder • 2019 - 2024 Japan AWS Top Engineer • 13x AWS Certified 2 @hayaok3 @hayao_k @hayao_k
3
The next generation of SageMaker 4 • データの分析、変換、AI 活用を一カ所で実現するプラットフォームへ https://aws.amazon.com/sagemaker/
より引用 Unified Studio (Preview) 統合開発環境 (IDE) ・ Redshift による SQL 分析、 ・ Glue や Athena、EMR によるデータ処理、 ・ SageMaker AI による AI/ML モデル開発 ・ Bedrock IDE (Preview) による生成 AI アプリ開発 これらを単一の環境で実行可能に 今後、ストリーミング / BI / 検索 が追加予定
The next generation of SageMaker 5 • データの分析、変換、AI 活用を一カ所で実現するプラットフォームへ https://aws.amazon.com/sagemaker/
より引用 Data & AI Governance DataZone のビジネスデータカタログや データの公開、購読などのガバナンス機能が Unified Studio の一部として統合されている Comprehend による PII 識別 や SageMaker Clarify Bedrock Guardrails といったガバナンス系機能も Unified Studio 上で利用可能
The next generation of SageMaker 6 • データの分析、変換、AI 活用を一カ所で実現するプラットフォームへ https://aws.amazon.com/sagemaker/
より引用 SageMaker Lakehouse S3 のデータレイクと Redshift のデータウェアハウスを 統合したデータ管理レイヤー Glue Data Catalog と Lake Formation がベース Unified Studio 内のデータブラウザーを通して、 SageMaker Lakehouse 上のデータを参照可能
7 SageMaker Lakehouse が提供するもの ANT354: Amazon SageMaker Lakehouse: Accelerate analytics
& AI より引用 ストレージ層として汎用 S3 バケット、S3 Tables、 Redshift Managed Storage をサポートし、既存の データレイク、DWH のデータにシームレスにアクセス zero-ETL 統合 により SaaS データの取り込みや様々な DB サービスへのクエリフェデレーションもサポート Iceberg REST API を通じて AWS サービスや 3rd Party アプリからこれらすべてのデータに一か所からアクセスできる Lake Formation によるきめ細やかなアクセス制御
• 既存の Redshift クラスターを Lakehouse に登録 • Iceberg API を通じて
Redshift / Athena / EMR / Glue / 3rd Party からこれらのデータに読み書き • ワークロード毎に専用のコンピューティングを割り当て • 複数の Redshift クラスターに保存されているデータを共有機能なしに一か所からクエリ • 単なるメタデータの登録なのでデータの物理的な移動は発生しない 8 例えばこんなことができる Amazon Redshift Amazon EMR AWS Glue Amazon Athena https://docs.aws.amazon.com/lake-formation/latest/dg/managing-namespaces-datacatalog.html
9 Redshift を Lakehouse に公開する流れ • Redshift コンソールから Glue Data
Catalog に登録をクリック • Lake Formation に招待が飛ぶので、カタログの名前と IAM ロール、権限を設定し登録 • カタログへの登録が完了すると Redshift クエリエディタ v2 や Unified Studio 上からアクセスが可能に
• SageMaker Unified Studio によりデータの分析、変換、AI 活用を一カ所で行えるように • その体験の中核となるのは SageMaker Lakehouse
によるシームレスなデータアクセス • まさか SageMaker ブランドで Data / AI 周りの UX が再編されるとは 10 まとめ
11 本日の内容は Qiita にも投稿しています Amazon SageMaker Lakehouse とはどのようなサービスか https://qiita.com/hayao_k/items/ec3e77c17a7de325a71c