Upgrade to Pro — share decks privately, control downloads, hide ads and more …

BigData-JAWS #21 秋の夜長に語る AWS Analytics 最新アップデート...

jozono
September 26, 2022

BigData-JAWS #21 秋の夜長に語る AWS Analytics 最新アップデート/bigdata-jaws-21-analytics-update

2022.09.26 JAWS#21 での発表資料です。

イベント URL
https://jawsug-bigdata.connpass.com/event/257903/

jozono

September 26, 2022
Tweet

More Decks by jozono

Other Decks in Technology

Transcript

  1. © 2022, Amazon Web Services, Inc. or its affiliates. ©

    2022, Amazon Web Services, Inc. or its affiliates. BigData-JAWS #21 秋の夜⻑に語る AWS Analytics 最新アップデート Junpei Ozono Senior Solutions Architect Amazon Web Services Japan G.K. Sep 26, 2022
  2. © 2022, Amazon Web Services, Inc. or its affiliates. ⾃⼰紹介

    ⼤薗 純平 (おおぞの じゅんぺい) Analytics Specialist SA Like: Travel, Beer, Soccer, Bicycle Twitter: @jostandard
  3. © 2022, Amazon Web Services, Inc. or its affiliates. ©

    2022, Amazon Web Services, Inc. or its affiliates. AWS Analytics Update 2022 3
  4. © 2022, Amazon Web Services, Inc. or its affiliates. AWS

    Analytics Services 収集 ETL/統合/蓄積 分析 BI/可視化 Amazon Kinesis Data Streams Amazon Kinesis Data Firehose Amazon Managed Streaming for Apache Kafka (MSK) Amazon Kinesis Data Analytics AWS Lake Formation AWS Glue DataBrew AWS Glue Amazon S3 Amazon Athena Amazon Redshift Amazon OpenSearch Service Amazon EMR Amazon QuickSight 蓄積
  5. © 2022, Amazon Web Services, Inc. or its affiliates. ©

    2022, Amazon Web Services, Inc. or its affiliates. 収集 5 収集 ETL/統合/蓄積 分析 BI/可視化 Amazon Kinesis Data Streams Amazon Kinesis Data Firehose Amazon Managed Streaming for Apache Kafka (MSK) Amazon Kinesis Data Analytics AWS Lake Formation AWS Glue DataBrew AWS Glue Amazon S3 Amazon Athena Amazon Redshift Amazon OpenSearch Service Amazon EMR Amazon QuickSight 蓄積
  6. © 2022, Amazon Web Services, Inc. or its affiliates. Amazon

    MSK Serverless が⼀般利⽤可能 (GA) かつ、東京リージョンで利⽤可能に 6 Service VPC Customer VPC AWS PrivateLink Amazon Managed Streaming for Apache Kafka Elastic network interface Apache Kafka のフルマネージドサービス Amazon Managed Streaming for Kafka (Amazon MSK) で、 キャパシティ管理の⼿間が不要になる新機能 • 最⼤ 200 MB/s (書き込み)、400 MB/s(読み取り) まで動的にスケール • ブローカーインスタンス管理は不要。トピックのパーティション配置も⾃動で最適化される • ブローカーインスタンス毎の課⾦は発⽣しない。保持データおよび書き込み、読み取りに対する課⾦ • 東京リージョンを含む 9 リージョンで利⽤可能 クライアントは broker を意識する必要は無く、単⼀の bootstrap エンドポイントを指定して接続する boot-xxxxxxxx.cN.kafka- serverless.us-east- 2.amazonaws.com:9098
  7. © 2022, Amazon Web Services, Inc. or its affiliates. 7

    MSK, MSK Serverless の使い分け MSK Serverless の利⽤を検討するケース • ワークロードが予測不可能で安定しない • キャパシティ管理をサービス側にオフロードしたい • 精緻なサイジングを⾏わず, すぐに MSK の利⽤を開始したい MSK の利⽤を検討するケース • 設定を詳細にコントロールしたい • ワークロードが安定しており, 予測可能 • ワークロードが⼤きい
  8. © 2022, Amazon Web Services, Inc. or its affiliates. ©

    2022, Amazon Web Services, Inc. or its affiliates. ETL/統合/ 蓄積 8 収集 ETL/統合/蓄積 分析 BI/可視化 Amazon Kinesis Data Streams Amazon Kinesis Data Firehose Amazon Managed Streaming for Apache Kafka (MSK) Amazon Kinesis Data Analytics AWS Lake Formation AWS Glue DataBrew AWS Glue Amazon S3 Amazon Athena Amazon Redshift Amazon OpenSearch Service Amazon EMR Amazon QuickSight 蓄積
  9. © 2022, Amazon Web Services, Inc. or its affiliates. 9

    Glue Jobs Auto Scaling が ⼀般利⽤可能 (GA) に Glue Jobs とは • 抽出/変換/ロード (ETL) 処理を スケジュールし実⾏するための データ統合サービス • 従来、必要な処理能⼒に応じて DPUs を設定する必要があった ワークロードに応じて⾃動的にリソースを スケールアップ・ダウンできるように • Glue ETL Jobs とGlue Streaming Jobs の両⽅に対応 • 利⽤可能なインスタンスタイプは G.1X, G.2X, G.025X (new) をサポート
  10. © 2022, Amazon Web Services, Inc. or its affiliates. 10

    Glue が 低コストの Flex 実⾏オプションをサポート • 余剰なコンピューティングリソースの活⽤によって、通常の Glue Job と⽐較 して約 34 % コストカットした料⾦で Glue Job の実⾏ができるオプション • その代わり、ジョブの開始時間・実⾏時間が変動する • ⾼速にジョブを開始する必要のないユースケースに最適 • pre-production, test, and non-urgent なデータ処理 • 現状 Apache Spark ジョブ (Glue version 3.0 and later) のみ対応 • 東京リージョンも利⽤可能 For each Apache Spark job with flexible execution $0.29 per DPU-Hour For each Apache Spark job $0.44 per DPU-Hour * 東京リージョン、2022/09 時点
  11. © 2022, Amazon Web Services, Inc. or its affiliates. 11

    AWS Glue Interactive Session Glue studio や ローカル PC 上のエディタなど 任意の環境で Jupyter Notebook を起動して、 インタラクティブにジョブを作成 AWS Glue Client Interactive Session Jupyter Notebook上でジョブを実⾏する とAWS Glue ETLでジョブが実⾏される 任意の環境の Jupyter Notebook から Glue ETL ジョブのインタラクティブな 開発や出⼒確認が可能に Glue が利⽤できる全リージョンで、Glue 2.0以降でサポート
  12. © 2022, Amazon Web Services, Inc. or its affiliates. ©

    2022, Amazon Web Services, Inc. or its affiliates. 分析 12 収集 ETL/統合/蓄積 分析 BI/可視化 Amazon Kinesis Data Streams Amazon Kinesis Data Firehose Amazon Managed Streaming for Apache Kafka (MSK) Amazon Kinesis Data Analytics AWS Lake Formation AWS Glue DataBrew AWS Glue Amazon S3 Amazon Athena Amazon Redshift Amazon OpenSearch Service Amazon EMR Amazon QuickSight 蓄積
  13. © 2022, Amazon Web Services, Inc. or its affiliates. 13

    Redshift Serverless が⼀般利⽤可能 (GA) に • ⾃動でプロビジョン/スケールし、⼀貫した⾼速なパフォーマンスを提供 • ワークロードの継続時間に応じた秒単位課⾦、アイドル時間は課⾦対象外 • GA のタイミングで以下の機能が追加 – 複数のサーバレスエンドポイント、パブリックエンドポイント、拡張 VPC ルーティング – クエリの実⾏時間制限、イベント通知、リソースのタグ付け Amazon Redshift Serverless JDBC/ODBC Data sharing clusters Data API Compute Storage Acceleration Operational Databases Query Live Data Incremental MVs Intelligent and dynamic compute management Amazon SageMaker Redshift ML Redshift Managed Storage Amazon S3 ML-based workload monitoring Automatic tuning Automatic scaling Automatic workload management Pay for use Performance at scale Automatic maintenance
  14. © 2022, Amazon Web Services, Inc. or its affiliates. Provisioned,

    Serverless の使い分け Serverlessをおすすめする環境 • クエリが実⾏されない時間帯が⽐較的⻑い • インフラ担当者がおらず、利⽤者が直接管理しな ければならない • 開発環境 • アドホックなクエリが多く、クエリごとに特に明 ⽰的なSLAが決まっていない • light usageのために⼩さなクラスタを利⽤してい るが、そのためにしばしばパフォーマンス課題が 発⽣する • パフォーマンスチューニングするための知⾒を持 つ⼈がいない ⼀⾔でいうと「ゆるい」環境 Provisionedのままが良い環境 • 常にクエリが実⾏されている • インフラ担当者が継続的にクラスタのメトリク スなどを監視することができる • ダッシュボードクエリなどに明確なSLAが存在 し、安定した性能が求められる • STL_*, SVL_* などのシステムビューから得られ るメトリクスを元にアプリを設計している • バッチ処理など、必要とされる時間と処理能⼒ が予め予測可能 • 安定稼働のためにパフォーマンスチューニング などが定常的に求められる ⼀⾔でいうと「かちっとした」環境 14 上記は、Provisioned と Serverless とを使い分けるとき、どちらがより向いているかを⽰したものです。 もちろん「かちっとした」環境でServerless を使うことも、「ゆるい」環境でProvisioned を使うこともできます。
  15. © 2022, Amazon Web Services, Inc. or its affiliates. Provisioned,

    Serverless の共存 Data Sharingやデータレイククエリなど、両者の性質を考慮して⽤途別に使い分け ることにより、より効率の良い運⽤をすることも可能 例えば • 夜間バッチ処理はprovisioned clusterで⼀気に処理し、⽇中は停⽌ • そのデータをServerlessで共有し、分析担当者がアドホッククエリを⽇中に断続的に実⾏ Redshift Serverlessは暗号化されているため、Data Sharingを⾏う場合は、 provisioned cluster側も暗号化する必要があることに注意する 15
  16. © 2022, Amazon Web Services, Inc. or its affiliates. Amazon

    Athena Amazon Redshift Provisioned 簡易な処理 クエリスキャン量 (別途ストレージサービス使⽤料) クラスタ稼働時間 (リザーブドインスタンス適応可能) RMS ストレージ使⽤量 クエリスキャン量 (Spectrum 利⽤時) 低頻度または予測不能 ワークロード (⼩〜中規模) 予測可能 ワークロード (中〜超⼤規模) 最⼤ ra3.16xlarge 128 ノード プロビジョニング 詳細なチューニング可 ⾃動 基盤管理 費⽤ ⽤途 規模 Amazon Redshift Serverless ワークロード実⾏時間 RMS ストレージ使⽤量 簡易〜複雑な処理 (例︓複数の結合やサブクエリ) 低頻度または予測不能 ワークロード (⼩〜⼤規模) 最⼤ RPU 512 ⾃動 簡易〜複雑な処理 (例︓複数の結合やサブクエリ) 参考)各種クエリサービスの使い分け 16
  17. © 2022, Amazon Web Services, Inc. or its affiliates. 17

    Redshift その他のアップデート • ⾏レベルセキュリティ (RLS) を利⽤可能に https://aws.amazon.com/about-aws/whats-new/2022/07/amazon-redshift-row-level-security/ https://aws.amazon.com/blogs/big-data/achieve-fine-grained-data-security-with-row-level-access-control-in-amazon-redshift/ • テーブル内の⾏のサブセットに対する SELECT/DELETE/UPDATE などの 操作をアクセス制御できる • ⾃動マテリアライズドビュー (AutoMV) が⼀般利⽤可能 (GA) に https://aws.amazon.com/about-aws/whats-new/2022/07/automated-materialized-view-amazon-redshift/ • 機械学習を利⽤してワークロードを継続的にモニタリングし、 ⾃動的にマテリアライズドビューを新規作成/削除する • ワークロードの変化に応じてマテリアライズドビューの設計や解析の⼿間なく、 クエリレイテンシの効率化が可能 • クエリはマテリアライズドビューを利⽤するように⾃動で書き換えられる • ⼤阪含む 19 リージョンで利⽤可能 (東京リージョンは近⽇中に対応予定) • Classic Resize のパフォーマンスが⼤幅に改善 https://aws.amazon.com/about-aws/whats-new/2022/07/amazon-redshift-improves-cluster-resize-performance-flexibility-cluster-restore/ https://aws.amazon.com/blogs/big-data/accelerate-resize-and-encryption-of-amazon-redshift-clusters-with-faster-classic-resize/ • Redshift Provisioned Cluster のリサイズ⽅式の⼀つ “Classic Resize” が⾼速化し、 数分でオンラインに復旧するように • 通常は “Elastic Resize” が利⽤推奨 • 幾つかの制限により Classic Resize を利⽤する場⾯がある (ブログ参照) • 暗号化されていないクラスタのスナップショットから暗号化されたクラスタに 直接リストアしたり、暗号化鍵を変更することも可能に col_1 (ID) col_2 (name) col_3 col_4 (sensitive) 1 aaa xxx 2 bbb yyy 3 ccc zzz store owner loc s1 Joe SF s2 Ann NY s3 Lisa SF item store cust price i1 s1 c1 12.00 i2 s2 c1 3.00 i3 s2 c2 7.00 [store_info] [sales] loc total_sales SF 12.00 NY 10.00 [AutoMV] [loc_sales (AutoMV)]
  18. © 2022, Amazon Web Services, Inc. or its affiliates. 18

    Amazon EMR Serverless が⼀般利⽤可能 (GA) に Spark および Hive アプリケーションの実⾏に必要な コンピューティングリソースを迅速にプロビジョンし、 きめ細かにスケーリングする • クラスターの構成、最適化、調整、管理は不要 • 費⽤は実際に使⽤されたリソースにのみ発⽣ • EMR Studio と統合され、 GUI 上から実⾏した ジョブのステータスや履歴の確認、 デバッグが容易に • バージニア北部、オレゴン、東京、アイルランド および 他 12 リージョンでも利⽤可能 Jobs on Amazon EC2 Create an application Submit jobs on Amazon EMR Serverless start stop Determine instance and cluster size Create cluster Terminate clusters Submit jobs start stop Amazon EMR Serverless application Availability Zone 1 Spark Spark Spark Spark Spark Spark Spark Spark Spark Spark Spark Spark Spark Spark Spark Spark Spark Spark Spark Service Account https://aws.amazon.com/jp/about-aws/whats-new/2022/09/amazon-emr-serverless- available-additional-aws-regions/
  19. © 2022, Amazon Web Services, Inc. or its affiliates. •

    特徴 - 最新世代の汎⽤ SSD ボリューム。gp2 と同等以上の パフォーマンス、9.6% のコスト削減効果 • 性能 - 最低で 3000 IOPS、125 MB/s のパフォーマンス スループットを提供 - ストレージ容量に応じて⾃動的に追加の IOPS、 スループットを提供(Amazon OpenSearch Service 独 ⾃の追加ベースライン) - 更に追加コストを⽀払うことで、 IOPS とスループッ トの増強が可能 • 拡張性 - gp2 ボリュームと⽐較して インスタンスあたりのボ リュームサイズ制限が 2 倍に(m5, m6g, r5, r6g) General Purpose SSD gp3 Amazon OpenSearch Service が gp3 ボリュームをサポート
  20. © 2022, Amazon Web Services, Inc. or its affiliates. 20

    Amazon OpenSearch Service が OpenSearch バージョン 1.1, 1.2, 1.3 をサポート • Performance Optimization: インデックス、検索、マージ処理の性能改善 • Cross Cluster Replication: OpenSearch エンジンで利⽤可能に • Bucket Level Monitor: 詳細な粒度でのアラート通知が可能に • Observability 関連機能の強化 • PPL によるデータ検索、加⼯、可視化をサポート • Runtime Field (フィールドの動的⽣成)や Live Tail によるリアルタイムログ閲覧をサポート • Continuous Mode for Transforms: Index Transform の差分実⾏をサポート
  21. © 2022, Amazon Web Services, Inc. or its affiliates. ©

    2022, Amazon Web Services, Inc. or its affiliates. BI/可視化 21 収集 ETL/統合/蓄積 分析 BI/可視化 Amazon Kinesis Data Streams Amazon Kinesis Data Firehose Amazon Managed Streaming for Apache Kafka (MSK) Amazon Kinesis Data Analytics AWS Lake Formation AWS Glue DataBrew AWS Glue Amazon S3 Amazon Athena Amazon Redshift Amazon OpenSearch Service Amazon EMR Amazon QuickSight 蓄積
  22. © 2022, Amazon Web Services, Inc. or its affiliates. アプリケーションにダッシュボードを埋め込む

    QuickSightを内部のポータルページやパブリックウェブサイトに埋め込むことが可能 • 分析作成機能やダッシュボードを活 ⽤してアプリケーションを拡張 • サーバ不要、メンテナンスを楽に • ⾼速動作、埋め込みも容易 • 1-Clickで埋め込みも可能に • ダッシュボードの埋め込みに加え、 ビジュアル(表やグラフなど)単位での 埋め込みも可能に new! Enterprise Edition new!
  23. © 2022, Amazon Web Services, Inc. or its affiliates. 1クリック埋め込み︓プログラム不要な簡単組み込み

    組み込み⽤HTMLコードのコピー&ペーストで組み込みが完了 JSとAPIを使ったプログラム実装が不要に QuickSightユーザーとフェデレーテッドユーザーのいずれにも対応 ダッシュボード共有画面からコードをコピー HTMLコードを好きなWebアプリにペースト Enterprise Edition Amazon QuickSight の新しいワンクリック埋め込み機能で、インタラクティブなダッシュボードをアプリやポータルに数分で埋め込む https://aws.amazon.com/jp/blogs/news/embed-interactive-dashboards-in-your-apps-and-portals-in-minutes-with-amazon-quicksights-new-1-click-embedding-feature/ Amazon QuickSight のワンクリックパブリック埋め込み機能 https://aws.amazon.com/jp/blogs/news/amazon-quicksight-1-click-public-embedding/
  24. © 2022, Amazon Web Services, Inc. or its affiliates. AWS

    Analytics services continue evolving! 収集 ETL/統合/蓄積 分析 BI/可視化 Amazon Kinesis Data Streams Amazon Kinesis Data Firehose Amazon Managed Streaming for Apache Kafka (MSK) Amazon Kinesis Data Analytics AWS Lake Formation AWS Glue DataBrew AWS Glue Amazon S3 Amazon Athena Amazon Redshift Amazon OpenSearch Service Amazon EMR Amazon QuickSight 蓄積
  25. © 2022, Amazon Web Services, Inc. or its affiliates. Thank

    you! © 2022, Amazon Web Services, Inc. or its affiliates.
  26. © 2022, Amazon Web Services, Inc. or its affiliates. 内容についての注意点

    • 本資料では2022年9⽉時点でのサービス内容および価格に基づいたスライドや説明になっています。最 新の情報はAWS公式ウェブサイト(http://aws.amazon.com)にてご確認ください。 • 資料作成には⼗分注意しておりますが、資料内の価格とAWS公式ウェブサイト記載の価格に相違が あった場合、AWS公式ウェブサイトの価格を優先とさせていただきます。 • AWS does not offer binding price quotes. AWS pricing is publicly available and is subject to change in accordance with the AWS Customer Agreement available at http://aws.amazon.com/agreement/. Any pricing information included in this document is provided only as an estimate of usage charges for AWS services based on certain information that you have provided. Monthly charges will be based on your actual use of AWS services, and may vary from the estimates provided. 26