Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DX推進に必須のデータ基盤最新動向2023

 DX推進に必須のデータ基盤最新動向2023

2023.10.12開催ウェビナー
「クラウド時代のデータ活用基盤!最新動向と応用を徹底解説」にて発表

イベント紹介ページ:
https://dev.classmethod.jp/news/231012-data-webinar/

Avatar for Yosuke Katsuki

Yosuke Katsuki

October 13, 2023
Tweet

More Decks by Yosuke Katsuki

Other Decks in Technology

Transcript

  1. 氏名  甲木 洋介(かつき ようすけ) 所属  データアナリティクス事業本部  ビジネスソリューション部 プリセールスアーキテクト 主な担当  データ分析お悩み相談~システム妄想~設計~提案~プロジェクト引き渡し 書籍

     みんなのAWS 〜アカウント開設からベストプラクティスまで〜 認定  AWS Certified Solutions Architect - Professional  AWS Certified Data Analytics - Specialty  Snowflake Data Superheroes 2022, 2023 自己紹介 @yokatsuki 2
  2. 5 2023年上半期データ基盤最新動向 • データ活用を目的とする基盤導入は継続して活発
 • 基本的な技術要素はここ数年大きくは変わらず
 データウェアハウス/データレイクが出発点
 • 従来概念を拡張する新しい概念が登場
 データメッシュ:


    データウェアハウス/データレイクのデータを相互に交換
 データクリーンルーム:
 お互いのデータの公開可能な一部だけをそれぞれ持ち寄る
 個人情報を保護しつつ、より精度の高いデータ蓄積

  3. 11 Google BigQuery • Google Cloudが提供するクラウド データ ウェアハウス
 • 特徴


    Google独自技術(Dremel/Colossus/Jupiter/Borg)をベースと し、フロントはSQL、バックはNoSQLのような高度な分散技術 の実装

  4. 12 Google BigQuery • 性能調整
 「スロット」と呼ばれる仮想CPU数を調整
 自動バースト(オンデマンド)
 追加購入(定額料金)
 • 料金体系


    基本はユーザがアクセスしたデータ量単位による
 オンデマンド課金
 一定期間のスロット利用権を購入する定額料金もある

  5. 14 Amazon Redshift • 性能調整
 クラスタを構成するコンピュートノードの
 台数増加(スケールアウト)
 インスタンスタイプ変更(スケールアップ)
 • 料金体系


    基本はクラスタの稼働時間課金
 コンピュートノード単価 ✕ ノード台数 ✕ 稼働時間
 ※RA3は月額のマネージドストレージ利用料金が発生

  6. 15 Amazon Redshift Serverless • 2022年7月13日、Redshift Serverlessが一般提供開始
 • クラスタを構成するインスタンス管理を自動化
 RPU(Redshift

    Processing Unit)単位で
 クエリの特性やリクエスト数に応じて、
 自動的にスケーリング(上限/下限設定可)
 • RPU数 ✕ RPU稼働時間 + ストレージ利用料金

  7. 17 Snowflake • 性能調整
 「仮想ウェアハウス」と呼ばれる、各IaaSの仮想マシンを仮想 化したコンピューティング環境のインスタンスタイプ(XS / S / M

    / L…)を変更
 • 料金体系
 大雑把には仮想ウェアハウス毎稼働時間+ストレージ利用料 金で課金
 ※他にもクラウドプラットフォームの種類やリージョン、契約エディショ ンなどで料金の係数が変化する

  8. 18 Databricks • Databricksが提供するレイクハウス・プラットフォーム
 • 特徴
 Apache Sparkの開発者が作った
 マネージドSpark+α環境
 (Delta

    Lake等)
 Databricksの管理環境
 (コントロールプレーン)から、
 別途契約したIaaS環境を実行環境
 (データプレーン)として
 仮想マシンやストレージを利用

  9. 23 ◯✕表で比較する • ◦✕表で本当に適切なサービスが選べますか?
 ◦が多いもの選びがち → 必要な機能がなかった
 • クラウド時代、✕はどんどん◦になる
 BigQueryトランザクション処理


    Redshift Serverless(インスタンス管理不要)
 Databricks Delta Sharing(データ共有)
 Snowflake Snowpark(アプリケーション実行)
 VARIANT型/SUPER型(半構造化データの格納/検索)

  10. 32