Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SageMaker Lakehouse の紹介 / Introduction to SageM...
Search
hayao_k
December 17, 2024
Technology
0
180
SageMaker Lakehouse の紹介 / Introduction to SageMaker Lakehouse
AWS re:Invent 2024 re:cap LT大会 で発表した
次世代SageMaker の中核は SageMaker Lakehouse といっても過言ではない件
の資料です。
hayao_k
December 17, 2024
Tweet
Share
More Decks by hayao_k
See All by hayao_k
ナレッジベースはどのようにSQLを生成するのか / Knowledge Bases supports structed data retrieval
hayaok3
2
350
クラウドネイティブなデータ連携の最新動向 / Latest trends in cloud-native data integration
hayaok3
1
710
RAG Approach on AWS
hayaok3
4
1.8k
Amazon VPC Lattice を使い始める前におさえておきたいポイント n 選 / Introduction to VPC Lattice
hayaok3
6
3.2k
アウトプットを伴走するエンジニア育成のこれまでとこれから / Training engineers through the input and output learning cycle
hayaok3
0
230
AWS Verified Access で VPN-less な世界を体験してみた / The world of VPN-less with AWS Verified Access
hayaok3
0
990
AWS Trusted Advisor Priority とはどんな機能か / What is AWS Trusted Advisor Priority?
hayaok3
0
630
SWAG 大好きマンな皆さまにおくる立ち回り方 / re:Invent 2022 Standby
hayaok3
0
2k
マルチクラウドのコスト可視化してみた / Visualize Multi-Cloud Costs with Vantage
hayaok3
0
490
Other Decks in Technology
See All in Technology
エンジニアのためのドキュメント力基礎講座〜構造化思考から始めよう〜(2025/02/15jbug広島#15発表資料)
yasuoyasuo
17
6.7k
トラシューアニマルになろう ~開発者だからこそできる、安定したサービス作りの秘訣~
jacopen
2
2k
2025-02-21 ゆるSRE勉強会 Enhancing SRE Using AI
yoshiiryo1
1
330
Platform Engineeringは自由のめまい
nwiizo
4
2.1k
リアルタイム分析データベースで実現する SQLベースのオブザーバビリティ
mikimatsumoto
0
1.3k
プロセス改善による品質向上事例
tomasagi
2
2.5k
アジャイル開発とスクラム
araihara
0
170
スタートアップ1人目QAエンジニアが QAチームを立ち上げ、“個”からチーム、 そして“組織”に成長するまで / How to set up QA team at reiwatravel
mii3king
2
1.5k
Goで作って学ぶWebSocket
ryuichi1208
0
190
Amazon S3 Tablesと外部分析基盤連携について / Amazon S3 Tables and External Data Analytics Platform
nttcom
0
130
Swiftの “private” を テストする / Testing Swift "private"
yutailang0119
0
130
全文検索+セマンティックランカー+LLMの自然文検索サ−ビスで得られた知見
segavvy
2
100
Featured
See All Featured
How to train your dragon (web standard)
notwaldorf
91
5.8k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
7k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
6
550
Into the Great Unknown - MozCon
thekraken
35
1.6k
Java REST API Framework Comparison - PWX 2021
mraible
28
8.4k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
Six Lessons from altMBA
skipperchong
27
3.6k
Designing Experiences People Love
moore
140
23k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Optimising Largest Contentful Paint
csswizardry
34
3.1k
RailsConf 2023
tenderlove
29
1k
Transcript
次世代 SageMaker の中核は SageMaker Lakehouse といっても過言ではない件 AWS re:Invent 2024 re:cap
LT大会 December 17th, 2024 小杉 隼人 | Hayato Kosugi
About Me • Cloud Engineer @ Saison Technology • AWS
Ambassador • AWS Community Builder • 2019 - 2024 Japan AWS Top Engineer • 13x AWS Certified 2 @hayaok3 @hayao_k @hayao_k
3
The next generation of SageMaker 4 • データの分析、変換、AI 活用を一カ所で実現するプラットフォームへ https://aws.amazon.com/sagemaker/
より引用 Unified Studio (Preview) 統合開発環境 (IDE) ・ Redshift による SQL 分析、 ・ Glue や Athena、EMR によるデータ処理、 ・ SageMaker AI による AI/ML モデル開発 ・ Bedrock IDE (Preview) による生成 AI アプリ開発 これらを単一の環境で実行可能に 今後、ストリーミング / BI / 検索 が追加予定
The next generation of SageMaker 5 • データの分析、変換、AI 活用を一カ所で実現するプラットフォームへ https://aws.amazon.com/sagemaker/
より引用 Data & AI Governance DataZone のビジネスデータカタログや データの公開、購読などのガバナンス機能が Unified Studio の一部として統合されている Comprehend による PII 識別 や SageMaker Clarify Bedrock Guardrails といったガバナンス系機能も Unified Studio 上で利用可能
The next generation of SageMaker 6 • データの分析、変換、AI 活用を一カ所で実現するプラットフォームへ https://aws.amazon.com/sagemaker/
より引用 SageMaker Lakehouse S3 のデータレイクと Redshift のデータウェアハウスを 統合したデータ管理レイヤー Glue Data Catalog と Lake Formation がベース Unified Studio 内のデータブラウザーを通して、 SageMaker Lakehouse 上のデータを参照可能
7 SageMaker Lakehouse が提供するもの ANT354: Amazon SageMaker Lakehouse: Accelerate analytics
& AI より引用 ストレージ層として汎用 S3 バケット、S3 Tables、 Redshift Managed Storage をサポートし、既存の データレイク、DWH のデータにシームレスにアクセス zero-ETL 統合 により SaaS データの取り込みや様々な DB サービスへのクエリフェデレーションもサポート Iceberg REST API を通じて AWS サービスや 3rd Party アプリからこれらすべてのデータに一か所からアクセスできる Lake Formation によるきめ細やかなアクセス制御
• 既存の Redshift クラスターを Lakehouse に登録 • Iceberg API を通じて
Redshift / Athena / EMR / Glue / 3rd Party からこれらのデータに読み書き • ワークロード毎に専用のコンピューティングを割り当て • 複数の Redshift クラスターに保存されているデータを共有機能なしに一か所からクエリ • 単なるメタデータの登録なのでデータの物理的な移動は発生しない 8 例えばこんなことができる Amazon Redshift Amazon EMR AWS Glue Amazon Athena https://docs.aws.amazon.com/lake-formation/latest/dg/managing-namespaces-datacatalog.html
9 Redshift を Lakehouse に公開する流れ • Redshift コンソールから Glue Data
Catalog に登録をクリック • Lake Formation に招待が飛ぶので、カタログの名前と IAM ロール、権限を設定し登録 • カタログへの登録が完了すると Redshift クエリエディタ v2 や Unified Studio 上からアクセスが可能に
• SageMaker Unified Studio によりデータの分析、変換、AI 活用を一カ所で行えるように • その体験の中核となるのは SageMaker Lakehouse
によるシームレスなデータアクセス • まさか SageMaker ブランドで Data / AI 周りの UX が再編されるとは 10 まとめ
11 本日の内容は Qiita にも投稿しています Amazon SageMaker Lakehouse とはどのようなサービスか https://qiita.com/hayao_k/items/ec3e77c17a7de325a71c