Upgrade to Pro — share decks privately, control downloads, hide ads and more …

近道こちらです。DX推進に必須のデータ分析基盤構築

 近道こちらです。DX推進に必須のデータ分析基盤構築

2023.6.15開催ウェビナー
「Classmethod Showcase Data Analytics & Management」にて発表

イベント紹介ページ:
https://classmethod.jp/m/showcase/2023/data/

セッション概要説明:
本セッションでは、これからデータ分析に取り組まれる企業様向けに、多数のデータ分析基盤を構築した経験をまとめた「データ分析基盤構築の勘所」をご紹介します。本セッションが、ベンダーに任せることと、御社が集中すべきこと、との判断のご参考になれば幸いです。

Yosuke Katsuki

June 15, 2023
Tweet

More Decks by Yosuke Katsuki

Other Decks in Technology

Transcript

  1. 4 ⾃⼰紹介 書籍 みんなのAWS 〜アカウント開設からベストプラクティスまで〜 認定 AWS Certified Solutions Architect

    – Associate AWS Certified Solutions Architect - Professional AWS Certified Data Analytics – Specialty Snowflake Data Superheroes 2022, 2023
  2. 6 データ分析の例(会員制情報サービス) ユーザ⾏動分析 来訪数 / 新規⼊会者数 / 退会会員数 / 来訪間隔

    / 滞在時間 / 離脱率 広告の費⽤対効果分析 流⼊経路毎の来訪数、コンバージョン率変化 ユーザ向け画⾯改修の効果分析 所謂A/Bテスト 滞在時間やコンバージョン率の変化 分析軸 時間 / 年齢、性別 / アクセス場所
  3. 8 分析のはじめかた ⾃社の課題を把握する ⾃社の利益構造を踏まえ、⾃社が発展するためには • 何をする必要があるか • そのためには何を知る必要があるか を考える 「◯◯を知りたい」が分析の出発点

    分析は「正解を教えてもらう⾏為」ではなく、 「正解をより⾼い精度で引き当てる為の準備⾏為」であり 正解は⾃社で引き当てる必要がある
  4. 9 分析のはじめかた 知りたい情報の所在を知る コンピュータで扱える形になった情報=データ 知りたい情報が • どこに(どのシステムに) • どのようなデータ構造(ファイル /

    データベース)で 格納、保存されているか • 誰が(どのベンダーが)管理しているか • どのタイミングで更新されるのか などを調査、整理する 整理されたデータに関する情報=メタデータ
  5. 11 分析のはじめかた データの取得⽅法を知る • どのような通信経路を使うのか • どのようなプロトコルを利⽤するのか(ftp / 専⽤API) •

    取りに⾏く必要があるのか、相⼿から送ってくれるのか これら情報もメタデータとしてまとめる メタデータは最初はExcelやWikiのような形で構わない データカタログ製品、サービスがあるのが最上
  6. 12 分析のはじめかた 不⾜情報を把握、準備する 調査の結果「何が⾜りないか」に気付く ⾜りない情報を調達する • ⾃分で集める(スクレイピング / システム改修) •

    外部から買う(データ提供サービス) 情報の不⾜は分析を始めた後で気付くこともある その場合も上と同様の対応を⾏う =データ分析のシステムは必要に応じて変化する前提
  7. 注文年 カテゴリ 売上 2022 事務用品 22294153 2021 事務用品 15420259 2020

    事務用品 15880638 2019 事務用品 10127262 2022 家電 26949061 2021 家電 21985133 2020 家電 19268607 整然データ
  8. 21 データ分析基盤導⼊後のシステム構成と分析 データ分析基盤 DWH データ加⼯ データロード ⾃社開発システム 外部サービス サーバー (コンテナ)

    データベース (RDB) サービス エンジン BIツール Excel 分析担当者 集約⽣データ (データレイク) データ取得 データ取得 データ取得
  9. 23 データ分析基盤に使⽤する主なAWSサービス データ連携(ETL / ELT) AWS Glue AWS Lambda AWS

    Step Functions データ蓄積(データレイク / DWH) Amazon S3 Amazon Redshift データ提供(BIなど) Amazon QuickSight Amazon Athena
  10. 27 CSA導⼊スケジュールの例 作業内容 1週⽬ 2週⽬ 3週⽬ 4週⽬ 5週⽬ 6週⽬ 7週⽬

    8週⽬ 9週⽬ CSアナリティクス環境構築 分析対象データご準備 初回データ連携設定、実施 分析対象データS3ロード処理開発 データ定時取込設定、テスト 分析利⽤、ダッシュボード作成 開始 貴社主担当作業 弊社主担当作業
  11. 28 CSA導⼊費⽤ 初期費⽤︓¥250,000〜 <必須提供> CSA環境構築︓AWS 環境設計・構築 作業⽤IAMユーザー払い出し ネットワーク設定(VPC、サブネット、セキュリティグループ) インスタンス構築、DWH構築(クラスタ作成、ユーザー作成、権限設 定)

    S3バケット作成、ETLサーバーの初期セットアップ <オプション提供> ※ ご要望構成に応じて個別⾒積 ⽉額利⽤費︓¥100,000/⽉ ※ 最安プラン、AWSサービス利⽤費含まず