Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Startup.fm: スタートアップのためのデータレイク構築の流れ / Startup.fm...

Startup.fm: スタートアップのためのデータレイク構築の流れ / Startup.fm: Build a Data Lake in steps

データウェアハウスやログ分析、機械学習といった進化する分析環境に柔軟に対応する 「データレイク」は今やデータ活用に欠かせないものとなりました。 一方で、現場では以下のような疑問や課題も多く出てきているのではないでしょうか? 「データレイク向けの関連サービスとか多くてなんかよくわからない」 「最初からデータレイクの構築は、ハードル高くて時間もコストもかかるでしょ?」 「手軽に始めたいけど、将来的にスケールできるようにもしておきたい・・・」 「とりあえず今はMySQLとかにデータ入れてるけど、次は何をすればいい?もっといいやり方ないの?」 この度そんなスタートアップのお客様向けに、データレイクセミナーの開催を決定いたしました! これからデータレイクを始めたい方にも、データレイクをさらに効果的に活用したい方にもおすすめです。

Tamirlan 893 Torgayev

June 29, 2021
Tweet

More Decks by Tamirlan 893 Torgayev

Other Decks in Technology

Transcript

  1. © 2021, Amazon Web Services, Inc. or its Affiliates. Tamirlan

    Torgayev @prog893 Startup Solutions Architect Amazon Web Services Japan 2021/06/29 スタートアップのための データレイク構築の流れ Startup.fm – Analytics編
  2. © 2021, Amazon Web Services, Inc. or its Affiliates. Tamirlan

    Torgayev (ティーマ) Startup Solutions Architect Amazon Web Services Japan メガベンチャーグループ企業に新卒⼊社、 様々なメディアサービスのインフラを⽀援 AWSでスタートアップ⽀援 好きなもの: Amazon Kinesis、 Amazon ECS、 カメラ!、猫" @prog893
  3. © 2021, Amazon Web Services, Inc. or its Affiliates. 本⽇のアジェンダ

    • Startupにおけるデータ収集のモチベーション • レイクハウスアーキテクチャ • Startup における、データレイク構築フェーズの説明 • データレイクTips • まとめ
  4. © 2021, Amazon Web Services, Inc. or its Affiliates. ビジネス課題に対して

    データに基づく意思決定をするため カンや思いこみに頼らない、データに裏付けされた事実による判断 仮説に基づく新しい施策の効果を、データを⽤いて検証 次に何をすべきかを判断するために、まず現状を把握
  5. © 2021, Amazon Web Services, Inc. or its Affiliates. Startupにおけるデータ収集のモチベーション

    • Startupの少ないリソースを効率的に使うには、 データドリブンな意思決定が必要不可⽋ • MVPの成果の可視化 • 急激に変化する市場の変化に応じたビジネス判断 (pivot) • 機能開発に置ける優先順位づけ • AI/MLによる他社との差別化のために、トレーニングデータが必要 • セグメンテーションによる新規ユーザーの獲得 • パーソナライズされたメッセージによるエンゲージメント強化 • データを収集、活⽤しやすい環境を⽤意することが重要
  6. © 2021, Amazon Web Services, Inc. or its Affiliates. 仮説検証における指標と元データの例

    既存のマーケティングでは顧客に有効にアプローチできない • 指標 新商品売上やプロモーションの反応率 • データ EC サイトや既存店舗の売上データ,各種ログ 顧客のサービス継続率が低下してきている • 指標 顧客満⾜度やサービス継続率 • データ ユーザマスタ,CRM マスタ,サービス利⽤ログ 取引の監査に膨⼤な⼯数がかかり適切に⾏えていない • 指標 監査に要する時間や検知数 • データ 過去の取引情報
  7. © 2021, Amazon Web Services, Inc. or its Affiliates. 従来のデータ分析の課題

    • 多種多様で増え続けるデータ • データストアがバラバラ、 さまざまなデータストア、データ種類をまたいだ分析が難しい • ⼀つの何かにデータを集めれば分析しやすくなるが… • 課題: サイロ化、スケーリング、コスト、分析要件の追加/変更
  8. © 2021, Amazon Web Services, Inc. or its Affiliates. レイクハウスアーキテクチャとは

    スケーラブルなデータレイク ⽬的に応じたデータ分析サービス シームレスなデータ移動 統合されたガバナンス パフォーマンスとコスト効率 Amazon DynamoDB Amazon SageMaker Amazon Redshift Amazon Elasticsearch Service Amazon EMR Amazon S3 Amazon Aurora Amazon Athena
  9. © 2021, Amazon Web Services, Inc. or its Affiliates. Startup

    における、 データレイク構築フェーズの説明
  10. © 2021, Amazon Web Services, Inc. or its Affiliates. Startupのための、データレイクの構築フェーズ

    データレイクの⼟台 最⼩限のデータレイク 可視化 ⼤規模化 ⺠主化 ⾼速化 AI/ML
  11. © 2021, Amazon Web Services, Inc. or its Affiliates. Startupのための、データレイクの構築フェーズ

    データレイクの⼟台 最⼩限のデータレイク 可視化 ⼤規模化 ⺠主化 ⾼速化 AI/ML
  12. © 2021, Amazon Web Services, Inc. or its Affiliates. Phase

    0: データレイクの⼟台を作ろう • Amazon S3にデータを集める • S3にデータをロードするためのパイプラインの⽤意 • セキュリティ周りの設定 • S3に集めたデータの整形: AWS Glue, AWS Glue DataBrew • Extract (抽出) + Transform (変換) + Load (格納) = ETL処理 • 分析しやすい形への変換 • Parquetのような列指向フォーマットを使う (後述) • JOIN等しやすくするための加⼯ • 正規化、JSONへの変換、不正な値の排除 • マネージドサービスの活⽤ • Glue: Spark (PySpark, Scala) または Python • DataBrew: GUIでノンコーディング
  13. © 2021, Amazon Web Services, Inc. or its Affiliates. ©

    2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue サーバーレスで ETL とデータ取込み • データストアをクロールし、 データフォーマットの識別とスキーマを サジェストの上、マネージドなカタログ リポジトリ(Glue Data Catalog) で管理 • Apache Spark / Python で ETL ジョブ を実⾏する環境のプロビジョニング、 設定、および、スケーリングを サーバーレスで • ETL ジョブ実⾏に必要な⼀連の作業を ⾃動化 • ジョブに使⽤されたリソースの 料⾦のみの⽀払い AWS Glue Data Catalog & Crawler Serverless Engine Orchestration AWS Glue
  14. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS

    Glue を使ったETL処理 データソース サーバーレス エンジン AWS Glue 変換ジョブを実⾏して データをターゲットに ロード 変換対象の データを抽出 データソース
  15. © 2021, Amazon Web Services, Inc. or its Affiliates. Startupのための、データレイクの構築フェーズ

    データレイクの⼟台 S3, Glue 最⼩限のデータレイク 可視化 ⼤規模化 ⺠主化 ⾼速化 AI/ML
  16. © 2021, Amazon Web Services, Inc. or its Affiliates. Startupのための、データレイクの構築フェーズ

    データレイクの⼟台 S3, Glue 最⼩限のデータレイク 可視化 ⼤規模化 ⺠主化 ⾼速化 AI/ML
  17. © 2021, Amazon Web Services, Inc. or its Affiliates. Phase

    1: 最⼩限のデータレイク、S3 + Glue + Athena • S3とGlueを⽤いて、データを収集してETL処理を⾏う パイプラインができた • Amazon Athenaを追加すれば、S3にあるデータをクエリ可能 • Athenaを使って分析を⾏うには、どこにどういうデータがあるか、 どういうスキーマかを⽰すメタデータが必要 • Glue Crawlerを使ってメタデータ⽣成、Glue Data Catalogに登録 • Glue Data Catalogがメタデータストアの役割を担う • Athenaでクエリを実⾏する際に、クエリ実⾏に必要なファイルを Glue Data Catalogを参照して特定し、必要なものだけダウンロード • これだけで最⼩限のデータレイク完成︕
  18. © 2021, Amazon Web Services, Inc. or its Affiliates. ©

    2021, Amazon Web Services, Inc. or its Affiliates. Amazon Athena サーバーレス、インタラクティブ・クエリーサービス クエリーごとの課⾦ クエリー単位のデータスキャン量 に応じた課⾦体系 スキャン対象となるデータの圧縮 により、クエリ単位のコストを 30〜90%削減可能 ストレージはS3 ANSI準拠のSQL JDBC/ODBC ドライバー 複数のフォーマット、圧縮タイプ、 複雑な結合とデータタイプ SQL サーバーレス: インフラストラ クチャーおよびアドミンは不要 Amazon QuickSightとも統合 簡単 即時にクエリー セットアップ費⽤ゼロ S3 をポイントしてクエリを開始
  19. © 2021, Amazon Web Services, Inc. or its Affiliates. Glue

    Data Catalog Apache Hiveメタストア互換のメタデータリポジトリ • データカタログにメタデータを作成するにはクローラー、Glue API、Hive DDL (Athena/EMR/Redshift Spectrum) の3つの⽅法が利⽤可能 • テーブル、テーブルバージョン、パーティション、データベースのことをオブジェクトという (料⾦単位に関連する) • データソースとして、Amazon DynamoDB、Amazon S3、Amazon Redshift、Amazon RDS、 Amazon VPC内のRDB on Amazon EC2 (Oracle/Microsoft SQL Server/MySQL/PostgreSQL)、 JDBC接続可能なオンプレミスDBが指定可能 • メタデータをAmazon Redshift Spectrum、Amazon Athena、Amazon EMRに連携可能 • メタストアの管理が不要の為、運⽤負荷を低減できる DynamoDB S3 Redshift RDS RDB on EC2 オンプレミスDB (JDBC接続) データソース メタデータ保存 Glue ETL Athena Redshift Spectrum EMR 連携可能なサービス Hive互換アプリ データカタログ参照 メタデータ取得 データカタログ クローラー データカタログの連携イメージ
  20. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS

    Glue を使ったETL処理の全体像 データソース クローラ データカタログ サーバーレス エンジン ①データをクロール ②メタデータ を管理 AWS Glue ③⼿動、スケジュール、イベントで起動 ⑤変換ジョブを実⾏して データをターゲットに ロード ④変換対象の データを抽出 スケジューラ データソース
  21. © 2021, Amazon Web Services, Inc. or its Affiliates. Startupのための、データレイクの構築フェーズ

    データレイクの⼟台 S3, Glue 最⼩限のデータレイク Athena, Glue Crawler, Glue Data Catalog 可視化 ⼤規模化 ⺠主化 ⾼速化 AI/ML
  22. © 2021, Amazon Web Services, Inc. or its Affiliates. Startupのための、データレイクの構築フェーズ

    データレイクの⼟台 S3, Glue 最⼩限のデータレイク Athena, Glue Crawler, Glue Data Catalog 可視化 ⼤規模化 ⺠主化 ⾼速化 AI/ML
  23. © 2021, Amazon Web Services, Inc. or its Affiliates. Phase

    2: 可視化してみよう • Athenaが利⽤できる状態になっていれば、Amazon QuickSightを使って データの可視化、BIダッシュボードの作成、GUIでの分析を ⾏うことが可能 • ⾼度な分析をするには、データを把握することが重要 • そのためには可視化が有効 • また、BI (GUI)を⽤意することで技術者でない⽅による データを確認、分析しやすくなる
  24. © 2021, Amazon Web Services, Inc. or its Affiliates. Amazon

    QuickSight クラウド向けに構築された初のBIサービス、セッションごとの料⾦設と 機械学習機能(MLインサイト)を搭載 伸縮性のある スケーリング サーバーやソフトウェアを導⼊、管 理、運⽤は不要 スモールスタートし、10,000以上に スケール可能 使った分だけのお⽀払い 事前コスト不要 利⽤しないユーザのコスト不要 サーバーレス ダッシュボードを 数分で作成可能 単⼀のサーバーをプロ ビジョニングせずに、 グローバルに展開 AWSとフル・インテ グレーション AWSデータへのセキュアで プライベートなアクセス AWS IAMによるS3データレイクの パーミッションの統合 APIサポート プログラムでユーザーをオンボー ドし、コンテンツを管理 アプリに簡単に埋め込み可能
  25. © 2021, Amazon Web Services, Inc. or its Affiliates. Amazon

    QuickSight 機械学習機ベースのインサイト 専⾨家不要で使える インサイト(洞察)機能を提供 1. MLベースの異常検知 ⾃動的に異常値を発⾒し、報告 2. MLベースの予測 過去の値から将来を予測 3. ⾃動ナラティブ 分かりやすい⽂章で分析結果を提供 4. ML予測 SageMaker のモデルと連動
  26. © 2021, Amazon Web Services, Inc. or its Affiliates. •

    Webアプリにダッシュボードを埋め込んで利⽤ • SSOや、⾏レベルアクセス、監査等にも対応 • 価格体系 (https://aws.amazon.com/jp/quicksight/pricing/) • Enterprise Edition • Author: $24/ユーザ/⽉ or $18/ユーザ/⽉(1年間契約) • Reader: 30分利⽤あたり$0.30、上限は$5/ユーザ/⽉ • 異常検知のための費⽤は別途 Amazon QuickSight
  27. © 2021, Amazon Web Services, Inc. or its Affiliates. Startupのための、データレイクの構築フェーズ

    データレイクの⼟台 S3, Glue 最⼩限のデータレイク Athena, Glue Crawler, Glue Data Catalog 可視化 QuickSight ⼤規模化 ⺠主化 ⾼速化 AI/ML
  28. © 2021, Amazon Web Services, Inc. or its Affiliates. Startupのための、データレイクの構築フェーズ

    データレイクの⼟台 S3, Glue 最⼩限のデータレイク Athena, Glue Crawler, Glue Data Catalog 可視化 QuickSight ⼤規模化 ⺠主化 ⾼速化 AI/ML
  29. © 2021, Amazon Web Services, Inc. or its Affiliates. Phase

    3: さらに⼤規模に、RedshiftとEMR • 処理するデータが増えたら、Redshift・EMRを検討 • 選定基準: • 同時実⾏SQL数が少ない、データ更新が少ない: Athena • Apache Ecosystemなものを使いたい(Hadoop, Spark, など): EMR • RDBMS感覚で使えるデータウェアハウス: Redshift • WLM、キャッシュ、3rd party BI連携 • Redshift、EMRはS3からのデータのインポートに対応 • さらに • Redshift Spectrumを使うことで RedshiftにあるデータとS3上のデータをJOIN可能 • EMRではEMRFSを使うことで、HDFSと同様にS3にアクセス可能
  30. © 2021, Amazon Web Services, Inc. or its Affiliates. ©

    2021, Amazon Web Services, Inc. or its Affiliates. Amazon EMR • Hadoop クラスタを数分で⽴ち上げ、API コールで簡単にスケール • S3 上のデータを読み込んでジョブを実⾏し、結果を S3 に出⼒ • Spark、Hive、Presto、HBase などのミドルウェアを利⽤可能 • EMRで使われるSparkは最適化されている https://aws.amazon.com/jp/blogs/news/performance-updates-to-apache-spark-in-amazon-emr-5-24-up-to-13x- better-performance-compared-to-amazon-emr-5-16/ ローコスト EC2スポットとリザーブドインス タンスでコストを50〜80%削減 フレキシブルな秒単位の課⾦ S3をストレージとして利⽤ EMRFSコネクタを使⽤し、 S3上のデータを⾼パフォーマンスで 安全に処理 最新バージョン 30⽇以内に最新のオープンソース フレームワークに更新 フルマネージド クラスタのセットアップ、 ノードのプロビジョニング、 クラスタのチューニングは不要 簡単
  31. © 2021, Amazon Web Services, Inc. or its Affiliates. Amazon

    Redshift 最もポピュラーかつ⾼速なクラウドのデータウェアハウス 最も⾼速な パフォーマンス とスケーラビリティ 3倍⾼速(with RA3)* 10倍⾼速(with AQUA)* オンデマンドで無制限の コンピュートリソースを追加し 無制限の同時接続を実現 低コスト コンピュートとストレージを分離、 コスト最適化されたワークロード トラディショナルなDWHの 1/10のコスト($1000/TB/年) 他のクラウドDWHと⽐較して 最⼤75%のコスト削減および 予測可能なコスト データレイクと AWSサービスとの 統合 データウェアハウス、 データレイク、オペレーショナル データベースにまたがる 膨⼤なデータに対する分析 様々なアナリティクスサービスへの フェデーレテッドクエリーを実現 セキュア AWSグレードのセキュリティ機能 (eg. VPC, encryption with KMS, CloudTrail) 全ての主要な認証を取得済み (SOC, PCI, DSS, ISO, FedRAMP, HIPPA) *他のクラウドDWHとの⽐較
  32. © 2021, Amazon Web Services, Inc. or its Affiliates. Startupのための、データレイクの構築フェーズ

    データレイクの⼟台 S3, Glue 最⼩限のデータレイク Athena, Glue Crawler, Glue Data Catalog 可視化 QuickSight ⼤規模化 Redshift, EMR Redshift Spectrum EMRFS ⺠主化 ⾼速化 AI/ML
  33. © 2021, Amazon Web Services, Inc. or its Affiliates. Startupのための、データレイクの構築フェーズ

    データレイクの⼟台 S3, Glue 最⼩限のデータレイク Athena, Glue Crawler, Glue Data Catalog 可視化 QuickSight ⼤規模化 Redshift, EMR Redshift Spectrum EMRFS ⺠主化 ⾼速化 AI/ML
  34. © 2021, Amazon Web Services, Inc. or its Affiliates. Phase

    4: ETLとデータ分析の⺠主化 • 各部⾨の多様なニーズに応えるために、データ分析専⾨家のみならず、 業務部⾨の⽅でもETLやデータ分析を⾏える環境の整備 • Line of Business (LOB) • ETLの⺠主化: • ファイルインポートのためのインタフェースの⽤意 • ETL処理のパターン化 and/or GUIツール (Glue DataBrew) • データ分析の⺠主化: • 専⾨知識を必要としないBIツール • 代表的なもの: Redash、Tableau、QuickSight • 適切なセキュリティポリシとガバナンスの設計 • 既存のデータを扱いやすい形に
  35. © 2021, Amazon Web Services, Inc. or its Affiliates. •

    分析や処理を開始する前に必要となるデータ の前処理(クリーニングや正規化等)を迅速に 実施するための新しいビジュアルツール • ノンコーディングで視覚的にデータの前処理 を実施することができるため、データ分析者 やサイエンティストが容易に利⽤可能 • 250以上の構築済み変換処理を⽤意。これら を利⽤して効率的に異常値の排除やフォー マットの整理を⾏い、分析処理や学習処理に 注⼒することができる AWS Glue DataBrew データのクリーニングと正規化を迅速にするビジュアルデータ準備ツール https://aws.amazon.com/jp/blogs/news/announcing-aws-glue-databrew-a-visual- data-preparation-tool-that-helps-you-clean-and-normalize-data-faster/
  36. © 2021, Amazon Web Services, Inc. or its Affiliates. ©

    2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue DataBrew ワークスペース
  37. © 2021, Amazon Web Services, Inc. or its Affiliates. Startupのための、データレイクの構築フェーズ

    データレイクの⼟台 S3, Glue 最⼩限のデータレイク Athena, Glue Crawler, Glue Data Catalog 可視化 QuickSight ⼤規模化 Redshift, EMR Redshift Spectrum EMRFS ⺠主化 LOB, BI, Glue DataBrew ⾼速化 AI/ML
  38. © 2021, Amazon Web Services, Inc. or its Affiliates. Startupのための、データレイクの構築フェーズ

    データレイクの⼟台 S3, Glue 最⼩限のデータレイク Athena, Glue Crawler, Glue Data Catalog 可視化 QuickSight ⼤規模化 Redshift, EMR Redshift Spectrum EMRFS ⺠主化 LOB, BI, Glue DataBrew ⾼速化 AI/ML
  39. © 2021, Amazon Web Services, Inc. or its Affiliates. Phase

    5: もっと速く • クエリパフォーマンス • クエリ最適化 • データの置き⽅の最適化 • Redshift、EMRのパフォーマンスチューニング • Redshift RA3, AQUA • QuickSight SPICE • データ反映⾼速化 • Kinesis Data Streams、Kinesis Data Analytics、Kinesis Data Firehoseを 活⽤したストリーミングデータ処理 • Amazon Elasticsearch Serviceへの直接格納 ! !
  40. © 2021, Amazon Web Services, Inc. or its Affiliates. データの置き⽅の最適化

    – 列指向フォーマット • データを列指向フォーマットに変換 (Apache Parquet, Avro) • ⾏ではなく、列でデータをまとめる • クエリパフォーマンス向上、コスト最適化: • SELECTしていない列が読み込まれない • 各ファイルに含まれているデータに関するメタデータがあるため、 クエリの対象データを含まないファイルを読み込まない最適化が可能 (predicate pushdown, partition pruning) • 列では近しいデータが格納されるパターンが⾒られるため、 圧縮効率が向上 (例: ⽇付、true/falseフラグ) • Parquet/Avroにおいて、AthenaやSparkが効率的に処理を⾏える おすすめ: Parquet + Snappy圧縮
  41. © 2021, Amazon Web Services, Inc. or its Affiliates. データの置き⽅の最適化

    – パーティション分割とバケット化 • パーティション分割 • テーブルをいくつかに分割し、⽇付や国、地域といった カラムの値単位でまとめることで、スキャン対象データを減らす: s3://athena-examples/flight/parquet/year=1991/month=1/day=1/ • バケット化 • ひとつ以上のカラムを指定し、それらのカラムの値に基づいて データを複数のファイルに分割 • 例えば、user_idでパーティション分割を⾏うと、 アクティブとそうでないユーザがいるため、 パーティションサイズにばらつきが出る • user_idでのバケット化では、hash(user_id) % bucket_count のように分割が⾏われるため、スキャン対象データを減らしつつ、 サイズのばらつきを防げる • バケット化がパーティション分割の後に⾏われる 参考: https://aws.amazon.com/jp/blogs/big-data/top- 10-performance-tuning-tips-for-amazon-athena/
  42. © 2021, Amazon Web Services, Inc. or its Affiliates. データの置き⽅の最適化

    – 実現のために • Parquetへの変換、バケット化、パーティション分割は Glue Jobで簡単に実装できます • Glue Jobの開発に役⽴つGlue StudioというGUIを使うことで、 開発をさらに楽に
  43. © 2021, Amazon Web Services, Inc. or its Affiliates. Amazon

    Redshift RA3インスタンス • コンピュートとストレージを分離し スケーリングと⽀払いを独⽴ • データの格納: 永続ストレージとしての S3 と キャッシュとしてのローカル SSD • アクセス頻度の⾼いブロックは キャッシュにとどまり、 あまりアクセスされないブロックは ⾃動的にキャッシュアウト Amazon Redshift JDBC/ODBC Redshift フォーマットファイル 広帯域ネットワーキング
  44. © 2021, Amazon Web Services, Inc. or its Affiliates. 48

    AQUA (Advanced Query Accelerator) for Amazon Redshift 新たな分散型ハードウェアアクセラレーション処理レイヤにより、 追加コストなしに他のクラウドデータウェアハウスの10倍の性能を実現 コン ピュート ノード コン ピュート ノード コン ピュート ノード コン ピュート ノード AQUA ノード AWSデザインの カスタムプロセッサ AQUA ノード AWSデザインの カスタムプロセッサ AQUA ノード AWSデザインの カスタムプロセッサ AQUA ノード AWSデザインの カスタムプロセッサ 並列処理 AQUA ノードに処理をプッシュダウンすることで コンピュートノードとマネージドストレージの間 のデータ移動を最⼩化 AQUA ノードは AWS がデザインした分析処理向け のカスタムプロセッサを備え、 データの圧縮、暗号化、フィルタリングや集計の処 理を従来の CPU よりも遥かに⾼速に処理 RA3 インスタンスのみで追加コスト不要で利⽤可能 現⾏の Redshift の SQL やその他オペレーションは 変更する必要なくそのまま利⽤が可能 Redshift マネージドストレージ スケールアウト
  45. © 2021, Amazon Web Services, Inc. or its Affiliates. Startupのための、データレイクの構築フェーズ

    データレイクの⼟台 S3, Glue 最⼩限のデータレイク Athena, Glue Crawler, Glue Data Catalog 可視化 QuickSight ⼤規模化 Redshift, EMR Redshift Spectrum EMRFS ⺠主化 LOB, BI, Glue DataBrew ⾼速化 クエリ最適化 置き⽅の最適化 チューニング ⾼速化リソース リアルタイム処理 AI/ML
  46. © 2021, Amazon Web Services, Inc. or its Affiliates. Startupのための、データレイクの構築フェーズ

    データレイクの⼟台 S3, Glue 最⼩限のデータレイク Athena, Glue Crawler, Glue Data Catalog 可視化 QuickSight ⼤規模化 Redshift, EMR Redshift Spectrum EMRFS ⺠主化 LOB, BI, Glue DataBrew ⾼速化 クエリ最適化 置き⽅の最適化 チューニング ⾼速化リソース リアルタイム処理 AI/ML
  47. © 2021, Amazon Web Services, Inc. or its Affiliates. Phase

    6: そしてAI/MLへ • S3に収集される⼤量のデータを使って、AI/ML技術を活⽤しよう • レコメンデーション: Amazon Personalize • 予測: Amazon Forecast • 不正検知: Amazon Fraud Detector • 異常検知: Amazon Lookout for Metrics • カスタムでモデルを作る: SageMaker • Redshift ML、Athena ML、Aurora ML https://aws.amazon.com/jp/blogs/news/amazon-redshift-ml-is-now-generally-available-use-sql-to- create-machine-learning-models-and-make-predictions-from-your-data/
  48. © 2021, Amazon Web Services, Inc. or its Affiliates. Amazon

    Personalize • ユーザー向けにパーソナライズしたレコメンデーションを 簡単に追加できる機械学習サービス 質の⾼い推薦 数クリックで学習 簡単に使える リアルタイムイベントを 反映したレコメンデーション
  49. © 2021, Amazon Web Services, Inc. or its Affiliates. ML

    開発ライフサイクル全体をカバーする20以上のツール Amazon SageMaker 最も完全なエンドツー エンドの ML サービス ML 開発を加速する ML ⽤に最適化された統合機能を備えたカスタム統合コードを作成 するコストを排除 コスト削減 世界初の統合開発環境(IDE) データサイエンティストの⽣産性を⾼める
  50. © 2021, Amazon Web Services, Inc. or its Affiliates. 54

    Amazon SageMaker PREPARE SageMaker Ground Truth Label training data for machine learning SageMaker Data Wrangler NEW Aggregate and prepare data for machine learning SageMaker Processing Built-in Python, BYO R/Spark SageMaker Feature Store NEW Store, update, retrieve, and share features SageMaker Clarify NEW Detect bias and understand model predictions BUILD SageMaker Studio Notebooks Jupyter notebooks with elastic compute and sharing Built-in and Bring your-own Algorithms Dozens of optimized algorithms or bring your own Local Mode Test and prototype on your local machine SageMaker Autopilot Automatically create machine learning models with full visibility SageMaker JumpStart NEW Pre-built solutions for common use cases TRAIN & TUNE Managed Training Distributed infrastructure management SageMaker Experiments Capture, organize, and compare every step Automatic Model Tuning Hyperparameter optimization Distributed Training NEW Training for large datasets and models SageMaker Debugger NEW Debug and profile training runs Managed Spot Training Reduce training cost by 90% DEPLOY & MANAGE Managed Deployment Fully managed, ultra low latency, high throughput Kubernetes & Kubeflow Integration Simplify Kubernetes-based machine learning Multi-Model Endpoints Reduce cost by hosting multiple models per instance SageMaker Model Monitor Maintain accuracy of deployed models SageMaker Edge Manager NEW Manage and monitor models on edge devices SageMaker Pipelines NEW Workflow orchestration and automation Amazon SageMaker SageMaker Studio Integrated development environment (IDE) for ML
  51. © 2021, Amazon Web Services, Inc. or its Affiliates. Startupのための、データレイクの構築フェーズ

    データレイクの⼟台 S3, Glue 最⼩限のデータレイク Athena, Glue Crawler, Glue Data Catalog 可視化 QuickSight ⼤規模化 Redshift, EMR Redshift Spectrum EMRFS ⺠主化 LOB, BI, Glue DataBrew ⾼速化 クエリ最適化 置き⽅の最適化 チューニング ⾼速化リソース リアルタイム処理 AI/ML SageMaker Personalize Forecast Fraud Detector Lookout for Metrics Redshift ML Athena ML
  52. © 2021, Amazon Web Services, Inc. or its Affiliates. Startupのための、データレイクの構築フェーズ

    データレイクの⼟台 S3, Glue 最⼩限のデータレイク Athena, Glue Crawler, Glue Data Catalog 可視化 QuickSight ⼤規模化 Redshift, EMR Redshift Spectrum EMRFS ⺠主化 LOB, BI, Glue DataBrew ⾼速化 クエリ最適化 置き⽅の最適化 チューニング ⾼速化リソース リアルタイム処理 AI/ML SageMaker Personalize Forecast Fraud Detector Lookout for Metrics Redshift ML Athena ML 各々のニーズに応じて、 順番を変えていきましょう︕
  53. © 2021, Amazon Web Services, Inc. or its Affiliates. データレイク

    Tips その1: ⽣データを残そう • S3上でETL処理、変換や集約などが⾏われる • 後からなんらかの処理をやり直したい、やり⽅を変えたい となった時のために、全てのデータをETL等の加⼯前の状態で残す • S3のストレージクラスを活⽤することで頻繁にアクセスしない データの保管にかかるコストを削減可能
  54. © 2021, Amazon Web Services, Inc. or its Affiliates. データレイク

    Tips その2: EMRを使ったETLも可能 • HadoopやSparkなどのApache Ecosystemの方が使いなられている という方は、Glueの他、EMRを使ってETLパイプラインを構築する ことも可能 • スポットインスタンスやGraviton2を使うことで、 コスト削減、パフォーマンス向上
  55. © 2021, Amazon Web Services, Inc. or its Affiliates. •

    前世代(M5)のインスタンスと⽐較して、Graviton2 ベース (M6g) インスタンスでの Spark ワークロードのコストが最⼤ 35% 削減、 パフォーマンスが最⼤ 15% 向上 • Apache Spark ⽤ EMR ランタイムと M6g インスタンスを組合せて実⾏ すると、オープンソースの Apache Spark と M5 インスタンスの 組合せで実⾏する場合と⽐べて、総コストが最⼤ 76% 削減、 パフォーマンスが 3.6 倍向上 • EMR-6.0.0 を除く、EMR-5.30 以降のバージョンで利⽤可能 EMR: ARM (Graviton2) インスタンスをサポート 低コストでパフォーマンスが向上 参考: https://aws.amazon.com/jp/about-aws/whats- new/2020/10/amazon-emr-provides-lower-cost-improved-performance/
  56. © 2021, Amazon Web Services, Inc. or its Affiliates. データレイク

    Tips その3: ETLのためのサービスの選定 • ETL処理の代表的なサービス: Glue Job、Glue DataBrew、EMR… • …結局、どれを選べばいいか︖ • AWS Glue DataBrew: • GUIでETL処理を実装、ノンコーディング • サーバーレス • AWS Glue: • ⾼い⾃由度 • サーバーレス • Amazon EMR: • ⾼い⾃由度 • 並列分散処理が得意 • スポットインスタンスやGraviton2を使うことでコスト削減
  57. © 2021, Amazon Web Services, Inc. or its Affiliates. データレイク

    Tips その4: QuickSightを使った End-user向けダッシュボード • End-userに提供したいダッシュボードは、QuickSightを使って実現可能 • Federated login (IdP)やemail追加でend-user⽤のユーザを作成、 end-user⾃らがQuickSightにアクセス可能 • 例えば、SaaS製品としてアプリケーションを提供する場合、 メトリクス、効果測定の機能をQuickSightで提供できる • QuickSightでは例えばどのようなものが作れるの? • 公開サンプルを参照: https://aws.amazon.com/jp/quicksight/gallery/
  58. © 2021, Amazon Web Services, Inc. or its Affiliates. データレイク

    Tips その5: JDBC/ODBC + BI = ❤ • Redshift、Athena⽤のJDBC/ODBCドライバが提供されています • Redshift: https://docs.aws.amazon.com/ja_jp/redshift/latest/mgmt/configuring-connections.html • Athena: https://docs.aws.amazon.com/ja_jp/athena/latest/ug/athena-bi-tools-jdbc-odbc.html • JDBC/ODBC接続に対応するBIツール等と接続できます︕ • 例: Tableau + Athena https://help.tableau.com/current/pro/desktop/en-us/examples_amazonathena.htm • 既存のBI環境をAWS上のデータレイクで拡張、 パフォーマンス向上、コスト最適化 • JDBC/ODBCを使わない連携が可能なBIツールもある • 例: Redash + Athena https://redash.io/help/data-sources/querying/amazon-athena
  59. © 2021, Amazon Web Services, Inc. or its Affiliates. まとめ

    • データレイクの構築はS3を中⼼に • S3にデータを収集し、整形することができれば、 Athena、Redshift、EMRなどの幅広い分析サービスを使えます • あとから切り替えや追加も可能︕ • 常に変わり続けるStartupは特に、これが特に重要 • 元データを保持しておくと、後から加⼯⽅法を変更可能 • Glue DataBrewを使えばコードなしでデータ加⼯(ETL)を実現可能 S3+Athena+QuickSightでデータレイクを始めてみませんか︕