Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SQL?NoSQL?各技術の違いをハッキリさせて目的に合ったデータ分析基盤を構築しよう!

 SQL?NoSQL?各技術の違いをハッキリさせて目的に合ったデータ分析基盤を構築しよう!

Snowflake & クラスメソッド合同ウェビナー
「DX実現の第一歩!クラウド技術を活かしたデータ分析、成功のヒント」

セミナー告知ページ
https://dev.classmethod.jp/news/snowflake-webinar/

第3回「SQL?NoSQL?各技術の違いをハッキリさせて目的に合ったデータ分析基盤を構築しよう!」

Yosuke Katsuki

December 16, 2021
Tweet

More Decks by Yosuke Katsuki

Other Decks in Technology

Transcript

  1. 2 本ウェビナーについて 開催 セッション名 登壇者 第1回 2021年10月28日(木) Tableau×Snowflakeで、コーディング・サーバー管理 いらずのデータ分析を実現! Snowflake株式会社

    KT クラスメソッド株式会社 相樂悟 第2回 2021年11月11日(木) 「クラウドって何か不安...」そんなあなたの不安を 解消します! Snowflake株式会社 KT クラスメソッド株式会社 相樂悟 第3回 2021年11月25日(木) SQL?NoSQL?各技術の違いをハッキリさせて 目的に合ったデータ分析基盤を構築しよう! Snowflake株式会社 KT クラスメソッド株式会社 甲木洋介 第4回 2021年12月9日(木) クラウドDWHの良さとは?DWHに留まらない ”データプラットフォーム”の魅力をお話します! Snowflake株式会社 KT クラスメソッド株式会社 甲木洋介
  2. 3 自己紹介 氏名 甲木 洋介(かつき ようすけ)@yokatsuki 所属 クラスメソッド株式会社  データアナリティクス事業本部  兼

    アライアンス統括部   プリセールスアーキテクト 主な担当 データ分析お悩み相談~システム妄想~設計  ~見積~提案~プロジェクト引き渡し、運営
  3. 4 自己紹介 氏名 KT (ケイティ) 所属 Snowflake株式会社 プロダクトマーケティング 主な担当 Snowflakeデータクラウドをみんなに広めて

    データドリブン文化を作る!! その他の活動 Grand Master of DATA Saber Tableau User Group Ambassador 著書「データドリブンの極意」
  4. 8 本日(第3回)の内容 「 温故知新」 - 温故:データウェアハウス系サービスの生い立ちを知る - 「SQL系」と「NoSQL系」という系統 - それぞれで主となる技術

    - 知新:上記経緯を踏まえ、Snowflakeをより深く知る - どのような特徴を持っているのか (他のサービスとどう違うのか) - 使いこなすためにはどのような前提知識/技術が 必要になるのか
  5. 10 SQL系データウェアハウスサービス 「SQL系」とは - 先祖はRDBMS(リレーショナルデータベース管理システム) - 長い歴史(1970年代~) - 1台のコンピュータ(データベースサーバ)でデータ管理 -

    巨大なデータは「クラスタ」構成で対応 - データを「テーブル」で管理 - データ入出力は「SQL」を使用する事が基本 - 複雑な処理は「プログラム言語にSQLを話してもらう」
  6. 11 NoSQL系データウェアハウスサービス 「NoSQL系」とは - 最初から巨大なデータを複数マシンで分散処理する前提の発想で 作られたオープンソースソフトの技術スタック - Google発表の論文が原点(2004年~) - データは独自形式(例:SparkはRDD:Resilient

    Distributed Dataset) - データ入出力はプログラム言語を使用していた(今はSQLも使える) 分散処理フレームワーク リソース管理 分散ファイル管理 ライブラリ・ラッパー
  7. 13 Google BigQuery(2011~) Google Cloudが提供するサーバーレス データ ウェアハウス - Google独自技術(Dremel)をベースとし、フロントはSQL、 バックはNoSQLのような高度な分散技術の実装

    - 「スロット」と呼ばれる仮想CPU単位で性能調整 - 基本はユーザがアクセスしたデータ量に対する課金 (スロットの追加購入も可)     https://cloud.google.com/blog/products/data-analytics/new-blog-series-bigquery-explained-overview
  8. 17 Snowflake(2015~) Snowflakeが提供するデータクラウド - 変遷 - 2014年:クラウドDWH - 2015年〜2019年:クラウドデータプラットフォーム -

    2020年〜:データクラウド - Oracle DBの開発者達が改めて作った 「俺達が考える最強のデータプラットフォームサービス」 - 契約時に選択したIaaS(AWS/Azure/Google Cloud)の上で稼働するSaaS - 「仮想ウェアハウス」と呼ばれる、各IaaSの仮想マシンを仮想化した コンピューティング環境のインスタンスタイプで性能調整 - 基本は仮想ウェアハウスのインスタンスタイプと稼働時間で課金
  9. 21 データ設計 分析しやすい「整然(Tidy)データ」 - データ分析や機械学習などで扱いやすいデータ構造 - Hadley Wickham氏(R言語の普及に多大な貢献)が提唱 - Wickham,

    Hadley (2014). "Tidy Data". Journal of Statistical Software. 59 (10). - (日本語訳)”整然データとは何か” 整然データの条件 1. 個々の変数が1つの列をなす 2. 個々の観測が1つの行をなす 3. 個々の観測の構成単位の類型が1つの表をなす
  10. 古来のRDBMSサーバーの弱点 - 「処理能力に柔軟性がない」点  CPUやメモリの追加作業  クラスタ構成での再構成作業 SnowflakeはNoSQLの発想の良いとこ取り - データは共有ストレージに集約  再分散等の作業必要なし -

    処理はウェアハウスとして独立  長時間細々と利用する処理と大量にガッとやる処理を分けられる - 処理していない時間帯はウェアハウスを停止  課金ストップ 32 基盤管理
  11. © 2021 Snowflake Inc. All Rights Reserved SNOWPARK: 従来の方法で出来るだけ速く実行 SQL

    SNOWFLAKE の処理エンジン SCALA JAVA JAVASCRIPT PYTHON PYTHON JAVA OTHER EXTERNAL SNOWPARK クライアントサイド サーバーサイド SQL * Snowpark Scala API & Java UDF in Public Preview * Snowpark for Python in Private Preview * Snowpark Java API in development
  12. 38 次回予告 - 概要 - 最終回!未来のデータプラットフォームを Snowflakeはどう捉え、どこまで実現できているのか - こんな方にぜひ聞いて頂きたい -

    社内でDXに関わり、将来のデータ基盤を検討する 立場の方 - 開催日時 - 2021年12月9日(木) 16:00~17:00