Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Amazon SageMaker Lakehouseでデータのサイロ化による課題を解決する

Amazon SageMaker Lakehouseでデータのサイロ化による課題を解決する

【AWS活用 AI/ML/LLM #5】機械学習/大規模言語モデル データエンジニアリング
https://blueish.connpass.com/event/347454/

ttnyt8701

March 05, 2025
Tweet

More Decks by ttnyt8701

Other Decks in Programming

Transcript

  1. ©BLUEISH 2025. All rights reserved. 目次 1. Amazon SageMaker Lakehouseとは

    2. データパイプライン 3. データストアの種類 4. データストアはどのように利用されているか 5. サイロ化による課題 6. Amazon SageMaker Lakehouseによる課題の解決 7. レイクハウスを実現するための機能 8. まとめ
  2. データパイプライン ©BLUEISH 2025. All rights reserved. データ活用するまでのデータのフロー。SageMaker Lakehouseは”データ保存”のデータレイク・DWHを統合 データ収集 データ加工

    データ保存 データ活用 データグレンジング フォーマット変換 … データウェアハウス データレイク … 分析 機械学習 … 運用DB ログ API スクレイピング …
  3. ©BLUEISH 2025. All rights reserved. データストアの種類 データ基盤には主に2種類のデータストアが利用されている。 データウェアハウス (Amazon Redshift)

    ❏ 事前にデータを加工した「構造化データ」を格納し、利用される( Schema On Write) データレイク (Amazon S3) ❏ 構造化・準構造化・非構造化データ形式問わず「生のデータ」を格納し、必要な時に加工して利用される (Schema On Read)
  4. ©BLUEISH 2025. All rights reserved. データストアはどのように利用されているか データウェアハウス DWH(データウェアハウス)は、 BI(ビジネスインテリジェンス)や意思決定支援で広く利用されている。しかし、 DWHは「構造化データ」に特化しており、非構造化・半構造化データの処理が難しく、高速処理やコスト面でも

    課題がある。 データレイク DWHの課題を補うため、機械学習やデータサイエンス向けに「データレイク」が登場。 データレイクは低コストで多様な形式の生データを格納できるが、トランザクション管理やデータ品質の保証が ない。データの一貫性がなく、リアルタイム処理やストリーミングデータとの統合が困難。
  5. ©BLUEISH 2025. All rights reserved. データストアはどのように利用されているか 2層データアーキテクチャ(データレイク+ DWH) データレイクとDWHを組み合わせることで、 BI

    と ML(機械学習) の両方を実行可能になり、現在広く利用され ている。 しかし、2層になることでデータのサイロ化(データの分断)により新たな課題が発生
  6. ©BLUEISH 2025. All rights reserved. サイロ化による課題 運用負担の増大 ❏ データはデータレイクに保存された後、 ETL処理(データの抽出・変換・書き出し)を経て

    DWHにコピーさ れるときデータが二重管理になる。そのためストレージコストが 2倍になる ❏ DWHにコピーされるたびに ETL処理が発生し、コンピューティングコスト増大 ❏ データレイクとDWHを別々に管理する必要があり、運用やデータパイプラインが複雑化 ❏ BIとMLで異なるデータストアを利用するため、データを統合的に活用できない ❏ ETL処理を通じてデータをコピーすることで、データの更新が遅れたり、古いデータと新しいデータが混 在するリスク ❏ データストア間での整合性チェックが必要で、 ETLでエラー発生時にはリカバリ対応が必要になる
  7. ©BLUEISH 2025. All rights reserved. SageMaker Lakehouseによる課題の解決 データの統合管理 SageMaker Lakehouse

    はデータレイク(S3)と データウェアハウス(Redshift) のデータを統合し、データを一元 管理する「レイクハウス」アーキテクチャを実現 ✅データストアが統合されることによって、サイロ化によるデータの二重管理、データストアの分散管理、アク セス管理の煩雑さ、セキュリティリスクの増加の課題が解決
  8. ©BLUEISH 2025. All rights reserved. レイクハウスを実現するための機能 ゼロETL統合 ゼロETL統合とは、ETLを行わずに運用データベースやアプリケーションからのデータをほぼリアルタイムで レイクハウスに取り込むことができる機能 ✅リアルタイム性の欠如、コスト増大、運用負担など

    ETLによるボトルネックを解決 サポート状況 以下8 つのアプリケーションとのゼロ ETL 統合をサポート DynamoDB、Aurora、RDS for MySQL 、Zoho CRM、Salesforce、Salesforce Pardot、ServiceNow、Facebook 広告、 Instagram 広告、Zendesk、SAP
  9. ©BLUEISH 2025. All rights reserved. レイクハウスを実現するための機能 フェデレーテッドクエリ( Federated Query) フェデレーテッドクエリによって異なるデータソース(データレイク、

    DWH、外部DBなど)に対して、データを移動 せずに1つの SQL クエリで分析を実行できる ❏ データをDWH に移動せずに、異なるデータソースを一元的に分析できる ❏ AWS 外のデータソース(Google BigQuery, Snowflake, MySQL, PostgreSQL など)とも統合可能
  10. ©BLUEISH 2025. All rights reserved. まとめ 🛑課題(サイロ化の問題点) ✅SageMaker Lakehouse による解決策

    データの二重管理 & コスト増大 S3とRedshiftの統合 ETLの運用負担 & リアルタイム性の欠如 ゼロETL統合により、ETL不要でリアルタイム データ活用が可能 アクセス管理の煩雑化 & セキュリティリスク 同一プラットフォームによる一元管理( IAM & RBAC )で、アクセス管理とセキュリティを最 適化