Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DWH御三家の各特徴と選び方〜SnowflakeとBigQueryとRedshiftと〜

tama-chang
December 02, 2020

 DWH御三家の各特徴と選び方〜SnowflakeとBigQueryとRedshiftと〜

tama-chang

December 02, 2020
Tweet

More Decks by tama-chang

Other Decks in Technology

Transcript

  1. 2 自己紹介 玉井 励(タマイ レイ) • クラスメソッド株式会社 ◦ Snowflakeの国内初ソリューションパート ナー

    • 自分の職種 ◦ BIツールの技術支援など ◦ BIとDWHは切っても切り離せない関係 • 奈良県出身、奈良県在住
  2. 14 Snowflakeのいいところ • 面倒な管理不要 ◦ コンピュート部分は管理可能 • 最先端の機能が多数存 在 ◦

    仮想ウェアハウス ◦ ステージ ◦ ゼロコピークローン ◦ タイムトラベル ◦ snowpipe ◦ 半構造化データの取り扱い ◦ データシェアリング
  3. 20 Amazon Redshiftのいいところ • とっつきやすい ◦ 従来のDBと似た感覚で使 える ◦ オンプレDWHの知見を流

    用できる • 事前の見積がしやすい • AWSである ◦ 既存AWSサービスとの連 携
  4. 21 Amazon Redshiftの注意点 • それなりに管理は必要 ◦ スケーラビリティ ◦ WLM ◦

    VACUUM • それなりにチューニング は必要 ◦ 列圧縮タイプ ◦ 分散スタイル ◦ 各種キー
  5. 32 バックアップについて • タイムトラベル • Fail-safe • 各種ステージへの UNLOAD •

    7日間の自動履歴保存 • Cloud Storageへのエク スポート • 自動スナップショット • 手動スナップショット • S3へのUNLOAD
  6. 41 Snowflakeのコストマネジメント • 仮想ウェアハウスの扱い がコストの鍵を握る • ワークロード別に用意し て調整 ◦ サイズ

    ◦ 稼働時間 ◦ クラスタ数 ◦ オートサスペンド(&レ ジューム) • いつでも変更可
  7. 42 BigQueryのコストマネジメント • スキャンデータ量 ◦ LIMIT句は無意味 • 無駄なスキャンを避けるテクニックが必要 ◦ テーブル分割(パーティショニング)

    ◦ 無駄なクエリは実行しない(中身を見るだけ等) ◦ 必要なカラムのみ対象にする ◦ 実行前にクエリの見積をする(見積ツールあり) ◦ 処理可能サイズに制限をかける
  8. 43 考え方の例 • 仮想ウェアハウスが起動し ていた時間(秒単位) • 大量のデータを定期的に 処理し続ける要件がある 場合はSnowflakeの方が よい?

    • クエリで処理するデータの 量(スキャン量) • 特定のタイミングだけ重い 処理が行われる(アイドル 状態も多い)要件がある場 合はBigQueryの方がよ い?
  9. 47