Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Ignite 2020 Update Azure Synapse Analytics

Ignite 2020 Update Azure Synapse Analytics

More Decks by Hiroyuki Nakazato / 中里 浩之

Other Decks in Technology

Transcript

  1. Microsoft Ignite 2020 最新アップデート Analytics & AI Azure Synapse Analytics

    Cloud Solution Architect - Microsoft Japan 中里 浩之 - Hiroyuki Nakazato - @nakazax
  2. アジェンダ  Azure Synapse Analytics 最新アップデート  これまでの振り返り – Azure

    Synapse Analytics とは etc.  最新アップデート 概観  最新アップデート ピックアップ – AI/ML 関連を中心に  参考リンク紹介 – Azure の更新情報, Ignite 2020 ブレイクアウトセッション
  3. 一般的な用語としてのシナプス (Synapse) とは  シナプス : ニューロン間の結合部  “脳はニューロンと呼ばれる神経細胞 からなり、各々のニューロンが、少

    しずつ情報を処理しています。その 処理結果は、ニューロン間の特殊な 結合(シナプス)を介して、次の ニューロンに伝えられます” 出典 : 科学技術振興機構, 「共同発表:脳回路が驚くほど精密に配線されていることを発見 (新開発の撮影技術で、数十年来の脳科学の謎を解決)」 https://www.jst.go.jp/pr/announce/20120120/index.html , (参照 2020/11/08)
  4. Azure Synapse Analytics の発表のダイジェスト  2019 年 11 月開催の「Microsoft Ignite

    2019」で発表  Azure SQL Data Warehouse (SQL DW) の後継サービスに当たる  SQL DW に加えて Apache Spark や サーバーレスでの SQL 実行 などの機能が将来提供されるとの発表  2020 年 5 月開催の「Microsoft Build 2020」に合わせて  上記新機能のプレビュー開始  さらに Azure Synapse Link の発表  Azure のデータベース上のデータを ETL なしで Synapse Analytics に統合し分析可能に  第一弾として Azure Synapse Link for Azure Cosmos DB のプレビュー開始 (Spark プール, SQL API)  今後は Azure SQL, Azure Database for MySQL / PostgreSQL などにも対応  2020 年 9 月開催の「Microsoft Ignite 2020」の前後で  用語のアップデートのアナウンス  Synapse Link for Azure Cosmos DB のサーバーレス SQL プール, MongoDB API 対応のプレビュー開始  その他多数のアップデート (詳細は後述)
  5. Azure Analytics Store Transform Query Ingest Azure Data Factory Azure

    Data Lake Storage Gen2 Azure Databricks Azure SQL Data Warehouse クラウド データ SaaS データ オンプレミス データ デバイス データ Power BI Azure Machine Learning
  6. 2 データ ウェアハウスとビッグデータ分析システム全体のあらゆるデータから、 驚異的なスピードでインサイトを提供する無制限の分析サービス Store Azure Data Lake Storage Gen2

    Azure Synapse Analytics Azure Synapse Analytics クラウド データ SaaS データ オンプレミス データ デバイス データ Power BI Azure Machine Learning
  7. 分析ランタイム Azure Synapse Analytics ワークスペース サーバーレス SQL プール SQL ランタイム

    (DQP) 共有クラスター 自動スケール, 自動解放 共有ストレージ 専用 SQL プール SQL ランタイム (MPP) プロビジョン クラスター 手動スケール, 手動停止 共有 ストレージ 専用 ストレージ クラスター × N 個 を作成可能 クラスター × N 個 を作成可能 Spark プール Spark ランタイム プロビジョン クラスター 自動/手動スケール, 自動停止 共有ストレージ Azure Data Lake Storage Gen2 ※現在、Spark プール から SQL Analytics にメタデータ共有可能なのは、Parquet ファイル形式のマネージドテーブル/外部テーブルで、専用 SQL プール への共有は coming soon Synapse Studio 開発/分析/監視/管理 Synapse パイプライン クラウド オーケストレーション & クラウド ETL 手動スケール, 自動停止 パイプライン エンジン (IR) データ フロー エンジン (Spark) Azure Synapse Analytics の物理アーキテクチャ
  8. 用語のアップデート Synapse SQL Dedicated (専用) 消費モデル サーバーレス 消費モデル 専用 SQL

    プール (旧 “SQL プール”) サーバーレス SQL プール (旧 “SQL オンデマンド”) Azure ポータルやドキュメント等への反映は 2020 年 10 月以降 機能 消費モデル リソース 以前の SQL DW
  9. Azure Synapse Analytics (以前の SQL DW) Synapse workspace Synapse Studio

    Shared metadata system Pipelines (Data Integration) Common security model 専用 SQL プール Apache Spark プール サーバーレス SQL プール Azure Synapse Analytics (ワークスペース プレビュー) 専用 SQL プール Connected Services SQL 関連の新機能 (専用 SQL プール) 専用 SQL プール以外の 新機能 • サーバーレス SQL • Apache Spark • Connected services
  10. Azure Synapse Analytics アップデート サマリー (Microsoft Ignite 2020 周辺) カテゴリー

    アップデート 以前の SQL DW ワークスペース プレビュー 関連リンク Spark Azure Synapse for Apache Spark ジョブでのキャッシュ & シャッフル N/A Public Preview [Update] Spark Azure Synapse Link for Azure Cosmos DB の サーバーレス SQL プール, MongoDB API 対応 N/A Public Preview [Update1] [Update2] [Doc] Spark Mssparkutils N/A Public Preview N/A Spark ノートブックの参照 N/A Public Preview [Doc] Spark ノートブックのパラメーター対応 N/A Public Preview [Doc] Spark .NET for Apache Spark N/A Public Preview [Doc] Power BI Power BI パフォーマンス アクセラレーター (専用 SQL プール用) N/A Private Preview (申込フォーム) [Blog1] [Blog2] AI/ML 専用 SQL プール向けの機械学習モデル スコアリング ウィザード N/A Public Preview [Update] [Doc] General CDM (Common Data Model) 用コネクター N/A Public Preview [Update] [GitHub] Streaming Azure Stream Analytics から専用 SQL プールへの高スループットでの出力 GA Public Preview [Update] [Doc] SQL 専用 SQL プール : MERGE コマンド Public Preview Public Preview [Update] [Doc] SQL 専用 SQL プール : COPY コマンド GA Public Preview [Update] [Doc] SQL 専用 SQL プール : 行レベルのセキュリティと動的なデータ マスキング GA Public Preview [Doc1] [Doc2] SQL 専用 SQL プール : データの列の暗号化 Public Preview Public Preview [Update] [Doc] SQL 専用 SQL プール : 区切り文字付きテキストファイルの分析のサポート強化 Public Preview Public Preview [Blog] SQL 専用 & サーバーレス SQL プール : インライン テーブル値関数 Public Preview Public Preview [Blog] SQL サーバーレス SQL プール : ストアド プロシージャ N/A Public Preview [Doc] Studio Knowledge Center N/A Public Preview [Doc]
  11. Azure Synapse Analytics アップデート サマリー (Microsoft Ignite 2020 周辺) カテゴリー

    アップデート 以前の SQL DW ワークスペース プレビュー 関連リンク Spark Azure Synapse for Apache Spark ジョブでのキャッシュ & シャッフル N/A Public Preview [Update] Spark Azure Synapse Link for Azure Cosmos DB の サーバーレス SQL プール, MongoDB API 対応 N/A Public Preview [Update1] [Update2] [Doc] Spark Mssparkutils N/A Public Preview N/A Spark ノートブックの参照 N/A Public Preview [Doc] Spark ノートブックのパラメーター対応 N/A Public Preview [Doc] Spark .NET for Apache Spark N/A Public Preview [Doc] Power BI Power BI パフォーマンス アクセラレーター (専用 SQL プール用) N/A Private Preview (申込フォーム) [Blog1] [Blog2] AI/ML 専用 SQL プール向けの機械学習モデル スコアリング ウィザード N/A Public Preview [Update] [Doc] General CDM (Common Data Model) 用コネクター N/A Public Preview [Update] [GitHub] Streaming Azure Stream Analytics から専用 SQL プールへの高スループットでの出力 GA Public Preview [Update] [Doc] SQL 専用 SQL プール : MERGE コマンド Public Preview Public Preview [Update] [Doc] SQL 専用 SQL プール : COPY コマンド GA Public Preview [Update] [Doc] SQL 専用 SQL プール : 行レベルのセキュリティと動的なデータ マスキング GA Public Preview [Doc1] [Doc2] SQL 専用 SQL プール : データの列の暗号化 Public Preview Public Preview [Update] [Doc] SQL 専用 SQL プール : 区切り文字付きテキストファイルの分析のサポート強化 Public Preview Public Preview [Blog] SQL 専用 & サーバーレス SQL プール : インライン テーブル値関数 Public Preview Public Preview [Blog] SQL サーバーレス SQL プール : ストアド プロシージャ N/A Public Preview [Doc] Studio Knowledge Center N/A Public Preview [Doc] Pickup
  12. Knowledge Center Synapse の使い方を学ぶための豊富なサンプル集  サンプル データ セットを用いて、 すぐにサーバーレス SQL

    や Spark などの Synapse の機能を試せる  Azure Blob Storage 等に格納された 豊富なパブリック データ セットの ギャラリー  SQL スクリプト、ノートブック、 パイプラインのサンプルを参照  Synapse Studio の基本的なツアー
  13. MongoDB Table API ターンキーのマルチ マスター書き込み 即座、エラスティック、 自動的なスケーラビリティ 10 ミリ秒未満のレイテンシ、 99.999%

    の可用性を保証 フル マネージド、 サーバーレス あらゆる Azure リージョンへの データ レプリケーション Azure Cosmos DB ドキュメント 列ファミリー キー/値 グラフ Core (SQL) API
  14. 分析ストア 分析クエリに最適化された「列ストア」 トランザクション ストア トランザクション操作に最適化された「行ストア」 Azure Cosmos DB Azure Synapse

    Analytics コンテナー クラウド ネイティブ HTAP Azure Synapse Link SQL 自動同期 機械学習 ビッグ データ分析 BI ダッシュボード オペレー ショナル データ オペレーショナル データに対する準リアルタイムの洞察を生成 Azure Synapse Link for Azure Cosmos DB の動作
  15. 分析ストア 分析クエリに最適化された「列ストア」 トランザクション ストア トランザクション操作に最適化された「行ストア」 Azure Cosmos DB Azure Synapse

    Analytics コンテナー クラウド ネイティブ HTAP Azure Synapse Link SQL 自動同期 機械学習 ビッグ データ分析 BI ダッシュボード オペレー ショナル データ Azure Synapse Link for Azure Cosmos DB の動作 MongoDB API SQL API サーバーレス SQL プール Spark プール New New
  16. Azure Machine Learning ワークスペース Synapse ワークスペース 専用 SQL プール Models

    Models Models Table dbo.retail_scoring_data Table dbo.AMLModels ストアド プロシージャ スコア 付け 結果 データ Spark プール Notebook Model in ONNX Format 専用 SQL プール向けの機械学習モデル スコアリング ウィザード  Azure Machine Learning に登録された ONNX 形式のML モデルを Synapse Studio で数クリックで利用可能  専用 SQL プールで T-SQL PREDICT 関数をラップしたストアド プロシージャを使用してスコア付け  チュートリアル:SQL プール向けの機械学習モデル スコアリング ウィザード - Azure Synapse Analytics
  17. Azure の更新情報 2020 年 9 月 – 10 月の Synapse

    関連の更新情報をピックアップ  Azure Synapse SQL on-demand now enforces TLS 1.2 on outbound connections (2020/09/10)  Azure Synapse Link for Azure Cosmos DB: SQL serverless runtime support coming soon (2020/09/22)  Azure Synapse Link now supports Azure Cosmos DB API for Mongo DB (Preview) (2020/09/22)  Apache Spark for Azure Synapse In-cluster Caching and Shuffle Service (Preview) (2020/09/22)  Azure AD authentication features for Azure SQL DB, Azure Synapse Analytics, and Azure SQL Managed Instance (2020/09/22)  High throughput output from Stream Analytics to Azure Synapse Analytics (General Availability) (2020/09/22)  COPY command now generally available in Azure Synapse Analytics (2020/09/23)  New MERGE command for Azure Synapse Analytics (2020/09/23)  Column-level encryption for Azure Synapse Analytics (2020/09/23)  New Common Data Model connector for Apache Spark in Azure Synapse Analytics & Azure Databricks (in preview) (2020/09/30)  New guided UI experience to deploy machine learning models in Azure Synapse Analytics (in preview) (2020/09/30)  Public Preview: Data Factory adds SQL Managed Instance (SQL MI) support for ADF Data Flows and Synapse Data Flows (2020/09/30)  GA: Data Factory adds ORC data lake file format support for ADF Data Flows and Synapse Data Flows (2020/09/30)  Azure Synapse Link for Azure Cosmos DB: SQL serverless runtime support in preview (2020/10/14)  Announcing Azure Data Explorer data connector for Azure Synapse (2020/10/14)
  18. 参考リンク  Ignite 2020 – Azure Synapse Analytics ブレイクアウト セッション

     Ignite 2020 – DB111 – Building real-time enterprise analytics solutions with Azure Synapse Analytics
  19. Power BI パフォーマンス アクセラレーター (専用 SQL プール用) Synapse Studio で数クリックで有効化することで

    パフォーマンス アクセラレーターが以下を実行 • 組織内で最も利用されている Power BI クエリを監視、実行 を最適化してインサイトまでの時間やクエリの応答時間を 大幅に改善 • すべての Power BI クエリを総合的に分析し、実行されてい るクエリのパターンを探索、収集した情報に基づき Azure Synapse エンジン内にマテリアライズド ビューを展開 • Power BI クエリが実行され続けると、クエリも自動的に高 速化されていく • 新しいテーブルが SQL テーブルに取り込まれると、マテリ アライズド ビューが自動的に更新され維持されていく プライベート プレビュー 申込用 Forms へのリンク
  20. Azure Synapse Analytics でコピー コマンドサポート - GA • Azure Synapse

    Analytics の COPY コマンド機能 (T-SQL) を使用し、外部 ストレージアカウントから、SQL ワークロードの高スループットで Synapse ワークス ペースの SQL プールにデータの読み込みを実現します。 • ファイル分割によるパフォーマンスの向上 • Parquet の自動スキーマ検出 • 複雑なデータ型サポート • データ統合パートナー(Databricks, Informatica, Streamsets, Panoply, and Talend)での COPY コマンドのサポート
  21. Azure Synapse Analytics の列レベルの暗号化 - Preview • SQL Server 2019

    でサポートされている、 T-SQL を使用して列レベル暗号化 (CLE : Cell Level Encryption, Column-Level Encryption) する機能が、 Azure Synapse Analytics の SQL プールに適用されます。 • テーブル内の機密データに対して、きめ細かい保護 (サーバー側の暗号化) を実装するのに 有効です。 • CLE を使用すると、テーブルの列に異なる保護キーを使用することができ、各キーには独自 のアクセス許可を持ちます。 CLE が適用される列のデータは、DECRYPTBYKEY 関数を 使用して復号化するまで、ディスク上で暗号化されます。(しかし、メモリ内データは複合 化されません)