Upgrade to Pro — share decks privately, control downloads, hide ads and more …

準備できていますか?DX時代におけるデータ活用基盤の基本

 準備できていますか?DX時代におけるデータ活用基盤の基本

2021年5月19日
Snowflake+クラスメソッド合同セミナー
「これからの業務分析に不可欠な、データクラウド導入不安解消セミナー~Snowflakeだからできるユースケースやコスト最適化のヒント~」
クラスメソッドセッション資料

Yosuke Katsuki

May 19, 2021
Tweet

More Decks by Yosuke Katsuki

Other Decks in Technology

Transcript

  1. 会社概要 オープンな発想と高い技術力によりすべての人々の創造活動に貢献し続ける 3 事業内容 子会社 および 関連会社 認定 • クラウド(AWS)に関するコンサルティング、設計、構築、運用

    • サーバーレスアーキテクチャ基盤に関するコンサルティング、設計、 構築、運用 • ビッグデータ分析基盤に関するコンサルティング、設計、構築、運用 • モバイルアプリケーションに関する企画、デザイン、開発、運営 • マーケティング・システム構築のためのサービス「カスタマーストー リー」の企画、開発、運用 • 音声認識(Amazon Alexa)技術に関するコンサルティング アノテーション株式会社 (http://an.classmethod.jp/) アンダースコア株式会社 (https://us.classmethod.jp/) プリズマティクス株式会社 (https://prismatix.jp/) ネクストモード株式会社 (https://nextmode.co.jp/) Classmethod (Europe) GmbH (https://classmethod.de/) Classmethod Canada Inc. (https://www.classmethod.ca/) 名称 代表者 設 立 本 社 拠 点 資本金 従業員 クラスメソッド株式会社 (英語表記:Classmethod, Inc.) 横田 聡 2004年7月7日 東京都千代田区神田佐久間町1丁目11番地 産報佐久間ビル8階 東京、札幌、大阪、岡山、福岡、上越、沖縄、 ベルリン、バンクーバー、グルガオン、バン コク 1億円 500名
  2. 4 月間290万PVを誇る技術ブログ DevelopersIO https://developers.io/ 4 月間290万PV、80万UUを誇る、社員が執筆するIT技術に特化し たオウンドメディアです。 AWS、ビッグデータ、モバイル、IoT などの記事を掲載中です。 ユーザに有益な情報であれば社内のノウハウも

    余すところなく記事化 現在25,000本以上の記事を掲載(2020年8月現在) AWS関連の技術記事を約10,000本掲載 憶測やセオリーだけでなく、 実地検証に基づく「やってみた」記事を公開 日次で記事一覧を取得できるRSSの提供 [RSS]https://feed.classmethod.jp/blog/daily.rss 4
  3. Amazon Web Services様とクラスメソッド 「APN Cousulting Partner of the Year 2020」を受賞

    7年連続「AWSプレミアムコンサルティング パートナー」に認定 AWS認定トレーニング(研修)提供 世界トップクラスの技術認定数 延べ取得資格数 1000超 5
  4. 11 現状を知るためのデータを見つける • 基盤構築目的を明確にする • 達成したい事は何? • 見える化…「何を」見える化したいのか? • いい感じに…「どういう状態が」いい感じなのか?

    • データの「入」と「出」を特定する • 入…分析に使われる素材 • どこに、どのような形でデータが存在するのか? • 出…経営層、業務担当者が受け取る情報 • どのような形式で、どのような形で提供するか?
  5. 14 「分析しやすいデータ」とは 整然(Tidy)データ • データ分析や機械学習などで扱いやすいデータ構造 • R言語の普及に多大な貢献をしている Hadley Wickham氏が提唱 Wickham,

    Hadley (2014). "Tidy Data". Journal of Statistical Software. 59 (10). 日本語訳:”整然データとは何か” 整然データの条件 1. 個々の変数が1つの列をなす 2. 個々の観測が1つの行をなす 3. 個々の観測の構成単位の類型が1つの表をなす
  6. 18 基盤構築の選択 • オンプレ or クラウドは「クラウド一択」 • すぐに利用開始 • 見積不要

    • 初期設定不要 • 従量課金 • 利用した時間/データ量に対して課金 • 組織毎に分かれた(サイロ化した)データを集約 • 「素早くやる」と「かっちりやる」は背反事項 • アクセス権管理、データの網羅性 • 社内でバランスを取りつつ、できるだけスピード側に寄せる
  7. 19 基盤構築の選択 • データレイク or データウェアハウス • データレイク:できるだけ生に近いデータ • クラウドストレージにテキストファイル形式で格納

    • 集計の為に最低限必要な加工を施すのが現在の解釈 • データ粒度が小さい(コンマ秒単位~) • データウェアハウス:分析しやすく整理したデータ • 専用のサービスにテーブル形式で格納 • データレイクのデータを集計して作成する事が可能 (データレイクなしでいきなりデータウェアハウスも可) • データ粒度は大きくする(時刻単位~)
  8. 20 基盤構築の選択 • データレイク or データウェアハウス(続き) • データレイク:量>速度 • 生に近いデータを持つため、詳細な検索が可能

    • 反対に、データ量が多い分集計の速度が遅くなる • データウェアハウス:速度>量 • 事前集計済みにするので、検索速度は速い • 反対に、検索粒度が下がる可能性がある • 近年の「レイクハウス」という考え方 • データレイク級の詳細データを データウェアハウスの速度で検索する • …お金の問題が…?
  9. 21 中間処理の検討 • 中間処理とはいわゆるETL • E(Extract):ソースデータの取得 • T(Transform):分析に適した構造変換 • L(Load):データウェアハウスへのロード

    • ETL or ELTはELT(LがTより先)が有利 • 先に目的の場所(データウェアハウスやデータレイク) にロードしてデータを集めてしまい、そこで必要な加工 を施す考え方 • クラウドの従量課金パワーを使って高速処理
  10. 23