Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Amazon SageMaker Lakehouseでデータのサイロ化による課題を解決する
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
ttnyt8701
March 05, 2025
Programming
80
2
Share
Amazon SageMaker Lakehouseでデータのサイロ化による課題を解決する
【AWS活用 AI/ML/LLM #5】機械学習/大規模言語モデル データエンジニアリング
https://blueish.connpass.com/event/347454/
ttnyt8701
March 05, 2025
More Decks by ttnyt8701
See All by ttnyt8701
Gemini CLI のはじめ方
ttnyt8701
1
290
ObsidianをMCP連携させてみる
ttnyt8701
3
6.4k
Claude Codeの使い方
ttnyt8701
2
440
FastMCPでMCPサーバー/クライアントを構築してみる
ttnyt8701
3
730
LangChain Open Deep Researchとは?
ttnyt8701
2
450
Vertex AI Agent Builderとは?
ttnyt8701
4
440
A2A(Agent2Agent )とは?
ttnyt8701
2
500
Amazon Bedrock LLM as a Judgeを試す
ttnyt8701
2
190
Amazon Sagemaker Jump Startを用いて爆速でモデルを作成してみる
ttnyt8701
3
110
Other Decks in Programming
See All in Programming
不変条件と整合性境界—ビジネスが決める設計判断と実現パターン / Invariants and Consistency Boundaries
nrslib
11
2.9k
気づいたらRubyで100作品 ー クリエイティブコーディングが生活の一部になるまで / 100 Ruby Sketches Later: How Creative Coding Became Part of My Life
chobishiba
3
460
AI時代だからこそ「Bloc」を採用する価値があるのかもしれない
takuroabe
0
250
New "Type" system on PicoRuby
pocke
1
310
Inside Stream API
skrb
1
250
AI駆動開発で崩れていくコードベースを立て直す
kyoko_nr_nr
1
390
デフォルト運用のCodeRabbit、1年で何が変わったか / How CodeRabbit Changed Our Code Review in 1 Year
bake0937
1
110
These Five Tricks Can Make Your Apps Greener, Cheaper, & Nicer
hollycummins
0
230
GitHub Copilot CLIのいいところ
htkym
2
1.2k
Moments When Things Go Wrong
aurimas
3
120
[KCD Czech] eBPF Meets the GPU: Future of AI Infra Observability
doniacld
0
120
Old Dog, New Tricks: The Java 25 Reinvention - JNation
bazlur_rahman
0
130
Featured
See All Featured
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.3k
Navigating Team Friction
lara
192
16k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
520
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.7k
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
420
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
230
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.5k
Leading Effective Engineering Teams in the AI Era
addyosmani
9
2k
Technical Leadership for Architectural Decision Making
baasie
3
380
Embracing the Ebb and Flow
colly
88
5.1k
Transcript
Amazon SageMaker Lakehouseでデータのサイロ化に よる課題を解決する 立野 祐太 2025.03.05 ©BLUEISH 2025. All
rights reserved.
©BLUEISH 2025. All rights reserved. ゴール Amazon SageMaker Lakehouseをざっくりと理解する
立野 祐太 Yuta Tateno Go、GCPを用いたWEB開発をしています。 WEBエンジニア 自己紹介 ©BLUEISH 2024. All
rights reserved.
©BLUEISH 2025. All rights reserved. 目次 1. Amazon SageMaker Lakehouseとは
2. データパイプライン 3. データストアの種類 4. データストアはどのように利用されているか 5. サイロ化による課題 6. Amazon SageMaker Lakehouseによる課題の解決 7. レイクハウスを実現するための機能 8. まとめ
©BLUEISH 2025. All rights reserved. Amazon SageMaker Lakehouseとは データレイク、データウェアハウスなど複数のデータソースを統合し、各データに統一されたインターフェイスか らのアクセスを可能にすることでデータ管理・分析・開発を効率的にするプラットフォーム
データパイプライン ©BLUEISH 2025. All rights reserved. データ活用するまでのデータのフロー。SageMaker Lakehouseは”データ保存”のデータレイク・DWHを統合 データ収集 データ加工
データ保存 データ活用 データグレンジング フォーマット変換 … データウェアハウス データレイク … 分析 機械学習 … 運用DB ログ API スクレイピング …
©BLUEISH 2025. All rights reserved. データストアの種類 データ基盤には主に2種類のデータストアが利用されている。 データウェアハウス (Amazon Redshift)
❏ 事前にデータを加工した「構造化データ」を格納し、利用される( Schema On Write) データレイク (Amazon S3) ❏ 構造化・準構造化・非構造化データ形式問わず「生のデータ」を格納し、必要な時に加工して利用される (Schema On Read)
©BLUEISH 2025. All rights reserved. データストアはどのように利用されているか データウェアハウス DWH(データウェアハウス)は、 BI(ビジネスインテリジェンス)や意思決定支援で広く利用されている。しかし、 DWHは「構造化データ」に特化しており、非構造化・半構造化データの処理が難しく、高速処理やコスト面でも
課題がある。 データレイク DWHの課題を補うため、機械学習やデータサイエンス向けに「データレイク」が登場。 データレイクは低コストで多様な形式の生データを格納できるが、トランザクション管理やデータ品質の保証が ない。データの一貫性がなく、リアルタイム処理やストリーミングデータとの統合が困難。
©BLUEISH 2025. All rights reserved. データストアはどのように利用されているか 2層データアーキテクチャ(データレイク+ DWH) データレイクとDWHを組み合わせることで、 BI
と ML(機械学習) の両方を実行可能になり、現在広く利用され ている。 しかし、2層になることでデータのサイロ化(データの分断)により新たな課題が発生
©BLUEISH 2025. All rights reserved. サイロ化による課題 運用負担の増大 ❏ データはデータレイクに保存された後、 ETL処理(データの抽出・変換・書き出し)を経て
DWHにコピーさ れるときデータが二重管理になる。そのためストレージコストが 2倍になる ❏ DWHにコピーされるたびに ETL処理が発生し、コンピューティングコスト増大 ❏ データレイクとDWHを別々に管理する必要があり、運用やデータパイプラインが複雑化 ❏ BIとMLで異なるデータストアを利用するため、データを統合的に活用できない ❏ ETL処理を通じてデータをコピーすることで、データの更新が遅れたり、古いデータと新しいデータが混 在するリスク ❏ データストア間での整合性チェックが必要で、 ETLでエラー発生時にはリカバリ対応が必要になる
©BLUEISH 2025. All rights reserved. サイロ化による課題 アクセス管理の煩雑さとセキュリティリスクの増加 ❏ データレイクとDWHで異なる複数のデータストアを利用していることでアクセス権限の設定が増えためア クセス管理が煩雑になる。また、アクセス制限のミスが発生しやすくセキュリティリスクが高まる
❏ 機密データの管理が煩雑になり、セキュリティリスクが高まる。データが DWHに移動する際に暗号化や マスキングが適用されていないなど想定される
©BLUEISH 2025. All rights reserved. サイロ化による課題 リアルタイム性の欠如 ❏ データレイクからDWHへのETL勝利が必要であり、ETL処理がバッチであるため、リアルタイム性を失 う。そのためリアルタイムでデータを活用することが難しい。
©BLUEISH 2025. All rights reserved. SageMaker Lakehouseによる課題の解決 データの統合管理 SageMaker Lakehouse
はデータレイク(S3)と データウェアハウス(Redshift) のデータを統合し、データを一元 管理する「レイクハウス」アーキテクチャを実現 ✅データストアが統合されることによって、サイロ化によるデータの二重管理、データストアの分散管理、アク セス管理の煩雑さ、セキュリティリスクの増加の課題が解決
©BLUEISH 2025. All rights reserved. レイクハウスを実現するための機能 ゼロETL統合 ゼロETL統合とは、ETLを行わずに運用データベースやアプリケーションからのデータをほぼリアルタイムで レイクハウスに取り込むことができる機能 ✅リアルタイム性の欠如、コスト増大、運用負担など
ETLによるボトルネックを解決 サポート状況 以下8 つのアプリケーションとのゼロ ETL 統合をサポート DynamoDB、Aurora、RDS for MySQL 、Zoho CRM、Salesforce、Salesforce Pardot、ServiceNow、Facebook 広告、 Instagram 広告、Zendesk、SAP
©BLUEISH 2025. All rights reserved. レイクハウスを実現するための機能 フェデレーテッドクエリ( Federated Query) フェデレーテッドクエリによって異なるデータソース(データレイク、
DWH、外部DBなど)に対して、データを移動 せずに1つの SQL クエリで分析を実行できる ❏ データをDWH に移動せずに、異なるデータソースを一元的に分析できる ❏ AWS 外のデータソース(Google BigQuery, Snowflake, MySQL, PostgreSQL など)とも統合可能
©BLUEISH 2025. All rights reserved. レイクハウスを実現するための機能 Apache Iceberg トランザクションに対応し、データレイク上で DWHのような高度なデータ管理を可能にする
❏ DWHと同じように、データレイク上でデータの更新・削除・管理ができるように
©BLUEISH 2025. All rights reserved. まとめ 🛑課題(サイロ化の問題点) ✅SageMaker Lakehouse による解決策
データの二重管理 & コスト増大 S3とRedshiftの統合 ETLの運用負担 & リアルタイム性の欠如 ゼロETL統合により、ETL不要でリアルタイム データ活用が可能 アクセス管理の煩雑化 & セキュリティリスク 同一プラットフォームによる一元管理( IAM & RBAC )で、アクセス管理とセキュリティを最 適化