Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[輪読会]実践的データ基盤への処方箋

Toshiki Tsuchikawa
February 03, 2022
250

 [輪読会]実践的データ基盤への処方箋

2-1〜2-4章のまとめになります。

Toshiki Tsuchikawa

February 03, 2022
Tweet

Transcript

  1. 土川 稔生 (Tsuchikawa Toshiki) • 愛知県名古屋市出身 • 2020年 東工大情報理工学院卒 •

    株式会社タイミー ◦ DRE (Data Reliability Engineering) チーム ◦ データ基盤の開発・保守・運用 ◦ 分析基盤の開発・保守・運用 • Twitter @tvtg_24 2 自己紹介
  2. 6 一般的なデータ基盤の全体像と分散処理の必要性を理解する データ基盤を構成するシステムコンポーネント • データウェアハウス生成処理の例 ◦ JSON データをテーブルデータに変換する ◦ 数値や日付の表現方法をそろえる

    ◦ 個人情報を除去する ◦ 同じ意味でも異なった表現方法になっている データを紐付ける など • データウェアハウスのデータはデータ分析において最 も利用される中心的なデータとなる ◦ 適切なアクセスコントロール、ユーザインター フェースを整備する必要がある
  3. 8 データソースごとに収集方法が違うこと、 その難しさを理解する データ収集は難しい • データ収集はデータ基盤の中で最も取り扱いの難しいコンポーネントである ◦ データソースの種類 (ストレージ、データベースなど) によって使う技術、ツールが異なる

    ◦ 企業の業務遂行上、データベースに負荷がかけられないなどの問題もある ◦ データ量、データの性質によっても収集方法が変わる • 安定した収集システムの構築のための技術、ノウハウをこれから紹介していく
  4. 10 データソースごとに収集方法が違うこと、 その難しさを理解する フェデレーション • データソースにあるデータを直接分析に利用する 技術 • データを収集せずに分析に利用できる •

    データソースとデータウェアハウスにあるデータを 掛け合わせることができる • データソースに意図せず負荷を与えてしまう可能 性がある • 製品例としては、Amazon Redshiftの横串検索や BigQueryのCloud SQL連携クエリがある
  5. 14 ファイルを収集する場合は最適なデータフォーマットを選択する データの量を減らしたい場合は Parquet を検討する • ファイルデータを収集するなかでよく問題になるのがデータ量である • そこで、Apache Parquet

    (パーケット) の出番である ◦ データをバイナリで表現するため、すべてをテキストで表現するCSVやJSONと比べて、データサイズが小さ い ◦ 「列指向圧縮」である → 詳細は2-15節で ◦ データレイクに収集したParquetファイルをデータウェアハウスに取り込む場合に、CSVやJSONのファイルを 取り込むよりも早く取り込める ◦ デメリットはAVROと同様、バイナリフォーマットなのでデータの中身の確認が困難なこと
  6. 15 APIのデータ収集では有効期限や回数制限に気をつける API によるデータ収集とは • API(Application Programming Interface)は、一般的にはアプリケーションとアプリケーションをプログラムでつなぐ 際の取り決めを意味する ◦

    API エンドポイントとデータフォーマットのことを意味することが多い • API エンドポイントとは、「https://example.com/xxx_data」といった URL のような文字列で表し、データを取り出す 場所とその方法を示す • データフォーマットとは、文字通りこのAPIから取得できるデータの形式を意味する
  7. 17 APIのデータ収集では有効期限や回数制限に気をつける API 実行回数制限や API キーの有効期限に注意 • APIを利用する際にはAPIの実行回数制限に注意する ◦ 実行回数制限とは、一定時間にリクエストできる回数を制限するしくみ

    ◦ リクエスト数を制限し、APIのシステムにかかる負荷を一定に抑えている ◦ 事前にAPI実行回数を見積もり、利用回数制限以内で実施できるように設計する ◦ APIの運用会社が実行回数制限の緩和について相談に乗ってくれることが多い • APIキーの有効期限にも注意する ◦ ある日突然APIキーの有効期限が切れてデータ取得が失敗することになる