Upgrade to Pro — share decks privately, control downloads, hide ads and more …

次世代のSageMakerとは

 次世代のSageMakerとは

2025/5/9 JAWS-UG 名古屋にて10分間でのSageMakerの紹介資料。
Lakehouseが土台にあることで分析・可視化など利活用が促進していくイメージを紹介。
誰もが接続できる裏ではIcebergのオープンファイルフォーマットの存在が重要。

Avatar for kawaji

kawaji

May 09, 2025
Tweet

More Decks by kawaji

Other Decks in Technology

Transcript

  1. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 1 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark. 次世代の SageMaker とは 2025/5/9 JAWS-UG 名古屋 Yoshitaka Kawaji Solutions Architect Next Generation
  2. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 2 2 川路 義隆(かわじ よしたか) アマゾンウェブサービスジャパン合同会社 ソリューションアーキテクト AWS導⼊・アーキテクチャ⽀援 アジャイル・サーバーレス 略歴 • 学⽣時代にゲームボーイアドバンス、PlayStationのタイトル開発経験 • ゲーム開発で就職 ⇨ 早期退職 ⇨ 起業 • ソシャゲ開発するもリリース⽇の負荷捌けずで2ch炎上 • 2010年にEC2を知る(サーバーがすぐに起動するらしい) ⇨ AWS Love 自己紹介 2
  3. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 3 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark. 始まりは re:Invent 2024
  4. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 4 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark. 始まりは re:Invent 2024
  5. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 5 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark. 5 Amazon SageMaker すべてのデータ、分析、AI の中⼼
  6. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. AI が⼀変させるデータ活⽤の展望 6 89% ⽣成 AI の活⽤を 推進している CDO* 52% ⾃社のデータ基盤が AI に対応できていない と考える CDO 基本に⽴ち返る *CDO: Chief Data Officer 最⾼データ責任者
  7. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 企業が直⾯する課題 7 データサイロの解消 分析と AI の統合 データと AIの ガバナンス オペレーション効率 のスケーリング
  8. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 8 データ・分析・AI の あらゆるニーズに応える AWS の包括的なサービス エクサバイト規模のデータレイク 最適なコストパフォーマンスを実現する データウェアハウス あらゆる規模のデータワークロードに 対応する⽬的別の分析サービス 最⾼のパフォーマンスとコスト効率 を実現する AI インフラストラクチャ
  9. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. より良い分析と AI の体験を 実現するにはどうすべきか?
  10. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 10 Amazon SageMaker The next generation of すべてのデータ、分析、AI の中⼼
  11. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon SageMaker The next generation of データと AI の統合開発環境 AI ユースケースに対する包括的なツール群 すべてのデータを統⼀するオープンなレイクハウス ビルトインされたデータと AI のガバナンス
  12. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon SageMaker The next generation of データと AI の統合開発環境で 迅速なコラボレーションと構築を実現 包括的なツール群で AI ユースケースを開発し拡⼤ すべてのデータを統⼀するオープンなレイクハウス によりデータサイロを削減 ビルトインされたデータと AI のガバナンス により企業のセキュリティニーズを充⾜
  13. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 13 SQL 分析 Amazon Redshift データ処理 Amazon EMR AWS Glue Amazon Athena モデル開発 Amazon SageMaker AI ⽣成 AI アプリ開発 Amazon Bedrock ストリーミング Amazon MSK Amazon Kinesis ビジネス インテリジェンス Amazon QuickSight 検索分析 Amazon OpenSearch Service C O M I N G S O O N C O M I N G S O O N C O M I N G S O O N Unified Studio Data & AI Governance Lakehouse Amazon SageMaker
  14. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 14 Amazon SageMaker © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. SQL 分析 Amazon Redshift データ処理 Amazon EMR AWS Glue Amazon Athena モデル開発 Amazon SageMaker AI ⽣成 AI アプリ開発 Amazon Bedrock ストリーミング Amazon MSK Amazon Kinesis ビジネス インテリジェンス Amazon QuickSight 検索分析 Amazon OpenSearch Service C O M I N G S O O N C O M I N G S O O N C O M I N G S O O N Unified Studio
  15. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon SageMaker Amazon SageMaker AI で AI モデルの実験、 トレーニング、デプロイ Amazon Bedrock で カスタム⽣成 AI アプリケーションの構築 Amazon EMR で データの準備と統合 Amazon Redshift で SQL クエリを実⾏ 15 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. ノートブック | クエリエディタ | ビジュアル ETL エディタ | ⽣成 AI IDE SQL 分析 Amazon Redshift データ処理 Amazon EMR AWS Glue Amazon Athena モデル開発 Amazon SageMaker AI ⽣成 AI アプリ開発 Amazon Bedrock ストリーミング Amazon MSK Amazon Kinesis ビジネス インテリジェンス Amazon QuickSight 検索分析 Amazon OpenSearch Service C O M I N G S O O N C O M I N G S O O N C O M I N G S O O N Unified Studio
  16. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon SageMaker Amazon SageMaker AI で AI モデルの実験、 トレーニング、デプロイ Amazon Bedrock で カスタム⽣成 AI アプリケーションの構築 Amazon EMR で データの準備と統合 Amazon Redshift で SQL クエリを実⾏ 16 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. ノートブック | クエリエディタ | ビジュアル ETL エディタ | ⽣成 AI IDE SQL 分析 Amazon Redshift データ処理 Amazon EMR AWS Glue Amazon Athena モデル開発 Amazon SageMaker AI ⽣成 AI アプリ開発 Amazon Bedrock ストリーミング Amazon MSK Amazon Kinesis ビジネス インテリジェンス Amazon QuickSight 検索分析 Amazon OpenSearch Service C O M I N G S O O N C O M I N G S O O N C O M I N G S O O N Unified Studio 10分のLTでは語り尽くせない︕︕
  17. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. データと AI の 統合開発環境 発⾒: データと AI 資産を探索 構築: 包括的な分析と AI のツールセット 協働: プロジェクトでのコラボレーション 統制: アクセスを安全に管理 17
  18. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Lakehouse 19 Data & AI Governance SQL 分析 Amazon Redshift データ処理 Amazon EMR AWS Glue Amazon Athena モデル開発 Amazon SageMaker AI ⽣成 AI アプリ開発 Amazon Bedrock ストリーミング Amazon MSK Amazon Kinesis ビジネス インテリジェンス Amazon QuickSight 検索分析 Amazon OpenSearch Service C O M I N G S O O N C O M I N G S O O N C O M I N G S O O N Unified Studio Amazon SageMaker
  19. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 20 統合 オープン セキュア SageMaker Lakehouse 統合された、オープンで安全な データレイクハウスで 分析と AI をシンプル化 Z E R O E T L 取り込み フェデレーション 共有
  20. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 統合データ管理は高難度である データレイクとデータウェアハウス データソースからの 読み取り データの重複 ワークフローの オーケストレーション 監視 分析するデータをさらにコピー Cloud Object Storage Databases Logs Web Devices Social Sensors SaaS データソース
  21. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ワークロード固有のデータストアが⽣むデータサイロ それぞれのシステムは独⾃の価値を提供する データの 分析 データ ウェアハウス ACID 準拠 ⾼いパフォーマンス 簡単なデプロイ データレイク 柔軟なストレージ オープンな形式 複数エンジンに対応
  22. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 既存の解決策のトレードオフ データレイク中心 高度なストレージ最適化の不足 高多重度の Interactive SQL の 処理能力の不足 トランザクションなどの 長年培われた DB の機能を失う データウェアハウス中心 データウェアハウスのデータには 自由にアクセスできない オープンテーブルフォーマットの 相互運用性が限定的 データサイロを生む
  23. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 課題感のふりかえり 統合データ管理は難しい データサイロを⽣む 既存の解決策の課題 ワークフローの管理 データのコピーが発⽣する 相互運⽤性の⽋如 ⼀貫性のないガバナンス 複雑なアーキテクチャ 価値創出までの時間が⻑い データウェアハウスや データレイクの それぞれの良い特性を失う
  24. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. データレイクとデータウェアハウスのいいとこ取り データの 分析 データ ウェアハウス データレイク レイクハウスが解決策である 分析ユースケース向けの サービスとツールの⾃由度 安全で⼀貫した データへのアクセス
  25. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Lakehouse とは? • Lakehouse は新しいオープンな データ管理アーキテクチャを提供 • すべてのデータに相互運用性を もたらす データレイクとデータウェアハウスの両方の長所を提供 • データレイクの柔軟性、コスト効率、スケーラビリティ • データウェアハウスのパフォーマンスとトランザクション データ管理 分析ユースケースのためのサービスとツールの選択を可能に • ビジネスインテリジェンス BI 、ETL、ダッシュボード作成 • AI/ML(人工知能/機械学習)、生成 AI
  26. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 27 Amazon DynamoDB Amazon Aurora Amazon RDS データレイク データウェアハウス
  27. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon SageMaker Lakehouse 統一されたオープンで安全なデータレイクハウスで分析と AI を簡素化 Lakehouse 3rd Party Data Data 3rd Party Applications SageMaker Unified Studio Open Data Access ( Iceberg REST Catalog API ) Zero-ETL: ingestion, replication, federation Zero-ETL: ingestion, replication, federation
  28. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 29 SageMaker Lakehouse すべてのデータへのアクセスを統合 Amazon S3 データレイク Amazon Redshift データウェアハウス Zero-ETL 統合 Aurora RDS OpenSearch vector data ServiceNow Salesforce Zoho CRM Instagram Ads SAP Salesforce Pardot Facebook Ads Zendesk DynamoDB Streaming data – MSK, Kinesis フェデレーテッドクエリ + 100 以上の AWS Glue コネクター
  29. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 30 Amazon S3 データレイク Amazon Redshift データウェアハウス Zero-ETL 統合 Aurora RDS OpenSearch vector data ServiceNow Salesforce Zoho CRM Instagram Ads SAP Salesforce Pardot Facebook Ads Zendesk DynamoDB Streaming data – MSK, Kinesis フェデレーテッドクエリ + 100 以上の AWS Glue コネクター A P A C H E I C E B E R G O P E N A P I Apache Iceberg 互換のエンジンによる読み取り・書き込み
  30. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. まとめ • SageMaker は今は気軽に説明するのは不可能な規模感 • まずは、土台となる SageMaker Lakehouse のコンセプトを把握しよう • Lakehouse とは データウェアハウス + データレイク の良いところを取り込んで 外部 I/F に規律を生み出した(Apache Iceberg に感謝) 31
  31. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 32 オープンなレイクハウスを実現するIceberg
  32. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 33 SageMaker Next Generation の世界観 豊富な連携パターンで 幅広いデータソースに対応 AWS サービス Aurora DynamoDB Kinesis Kafka … 3rd Party DB SAP HANA Snowflake Teradata … SaaS Saelesforce Servicenow Zendesk … バッチ データレイクと DWH を統合する オープンなレイクハウス ストリーム クエリFederation Zero-ETL S3 汎⽤バケット Redshift Managed Storage Amazon SageMaker Lakehouse S3 テーブルバケット オープンテーブルフォーマット バッチとストリームの パイプライン統合 データ、機械学習、AI 全体の 統合開発 / コラボレーション環境 ⽬的別ストレージ Open API 仕様 Amazon SageMaker Unified Studio データ変換 , 操作 SQL 分析 オ ! ケ ス ト レ ! シ ョ ン ビッグデータ モデル管理 / 評価 推論 MLOps 学習 プロンプト フロー ナレッジ ベース AI エージ ェント 3 rd Party アプリケーション連携 統合データカタログ Amazon SageMaker Data & AI Governance アクセスコントロール とデータ共有 データ品質管理 データリネージ AI ガバナンス 安全かつ効率的なデータ活用を 支えるガバナンス BI あらゆるデータの収集、管理、活⽤を実現 データソース データ収集
  33. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 34 オープンテーブルフォーマット / Iceberg の台頭 Apache Iceberg • オープンソースのテーブルフォーマット(OTF) • メタデータの⼯夫により、 データレイクを効率的かつ便利に扱う様々な機構を備える • 2017 年、当時 S3 に 60 PB のデータを擁していた Netflix が開発 (後にApache Software Foundation 寄贈) データレイクの限界を超えて、様々なデータエコシステムを繋ぐ Iceberg が注⽬される背景 • データレイクの伝統的課題の解決 • ACID 、バージョン管理、レコード操作の⾼速化、 継続的なデータ構造の変化への追従など • ツール/ユースケースを結ぶ共通フォーマットとして • データレイクと DWH、異なるクエリエンジン間の シームレスなデータ連携を可能にする
  34. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 35 クエリエンジン間で テーブルフォーマットを共有 クエリエンジン OTF 分散ストレージ Apache Iceberg Apache Hudi Delta Lake Amazon S3 Amazon Redshift
  35. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 36 AWS における Iceberg の活用 Redshift Managed Storage S3 汎⽤バケット S3 テーブル バケット ⽤途別のストレージの選択肢 統合データガバナンス SageMaker Lakehouse Catalog Iceberg REST endpoint Iceberg テーブルの性能とコスト を⾃動最適化 アクセスコントロール ビジネスデータカタログ データ品質管理 データリネージ データカタログとエンドポイント Amazon Data Firehose 多様なデータソースの Iceberg テーブルへの収集機能を提供 Amazon Managed Service for Apache Flink Amazon EMR Amazon Glue 多様なデータソースとの Zero-ETL 統合 SAP Odata, ServiceNow Zendesk, Zoho CRM, Salesforce … etc Iceberg をネイティブに利⽤できる クエリエンジン群 Amazon EMR Amazon Glue Amazon Redshift Amazon Athena 3 rd Party Data Source 既存の⾮ Iceberg テーブルとの 統合管理
  36. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 37 グローバル各社で Iceberg 導入が進行中 https://pages.awscloud.com/rs/112-TZM-766/images/20241107-ANALYTICS-4-Nikkei.pdf https://www.youtube.com/watch?v=cFBSr-4pdBs https://www.youtube.com/watch?v=39GlEvvFAGs https://reinvent.awsevents.com/content/dam/reinvent/2024/slides/aut/AUT311_How-Ford-unlocked-real-time-insights-using-Apache-Iceberg-on-AWS.pdf Ford 社でのリアルタイム分析での活⽤事例 CloudStrike 社でのリアルタイムデータレイク事例 ⽇本経済新聞社でのデータマネジメントへの応⽤事例 eBay 社でのコンプライアンス要件での活⽤事例