Upgrade to Pro — share decks privately, control downloads, hide ads and more …

BIツールとETL

 BIツールとETL

talend
Alteryx
Fivetran
Xplenty
Cdata sync
BQ DataTransferService
Denodo
BigQuery
trocco
dataspider
DMX

ShoMaekawa/ウィル

February 26, 2021
Tweet

More Decks by ShoMaekawa/ウィル

Other Decks in Business

Transcript

  1. Yusuke Nishizawa 2009 2016 2020 インフラエンジニア PjM データアナリスト 事業企画・マーケ モビリティデータ

    コンサルタント 日報自動化 交通事故削減 車両削減 デューデリジェンス @zwt1n https://www.facebook.com/yusuke.nishizawa.73 〜Master of Data Saber〜
  2. ETLとBI SELECT "USERID","PUR-CODE",COUNT(*) 
 FROM "SALESLIST" 
 GROUP BY "USERID","PUR-CODE"

    
 DB側でもBI側でもデータ加工できてしまう。 DB(ECの購買履歴テーブルのみ) BI SELECT "USERID","PUR-CODE",COUNT(*) 
 FROM "SALESLIST" 
 GROUP BY "USERID","PUR-CODE" 
 アドホックに自分の中で調査するくらいだったら気にしなくて良い。
  3. Data Lake Data Source Data Mart Persistant Derived TBL Explores

    PDT Build Views ETL1 ETL2 Dashboards Dashboards Looks Tableau Prep
  4. 「簡単にできるが、秩序も担保できる」こと Data Lake, Data Warehouse, Data Mart: Google BigQuery ETL:

    Apache Airflowでワークフローの管理(実体はPythonとSQL) Analystのスループットを継続的に最大化させるデータ基盤の運用思想
  5. ETLツール選定軸 選定軸 コメント データコネクターの種類 ・マストで使うツールが対応しているか ・将来の拡張性(追加スピード・日本対応) 操作感(UI・機能) シンプルでわかりやすいか コピペやページ推移のしやすさ アドホック向き・データ移行向き

    コーディングできるか バグの多さ・対応 ・コネクターはあるけど設定が難しい ・バグや制約が多くて使えない ・バグへの対応の速さ サポート・トレーニング ・質問を日本語でできるか ・オンボーディングやリモートハンズオンがあるか(無償・有償) 値段 価格体型(コネクター数・データ量 ユーザー数 etc)どれが自社に合うか エンジニアで対応するときの比較するのが一つの目安
  6. アドホック系 2006年フランスで創業の老舗メーカー。 複数のソリューションを展開しているが、代表的なものはTalend for Data Integration。 Talend Open Studioは無料で利用可能であり、特に海外ユーザーの利活用が活発。 データコネクター

    操作感 バグの多さ 対応 サポート トレーニング 値段 主要なデータベース、Data Warehouseは網 羅。 API連携可能。 GUIベース (Open Studioは クライアントアプリ ケーション) EclipseライクなUI なので、非エンジ ニア層のUXは悪 い。 月次リリースで安定している。 メジャーアップデートのサイクル は不明。 Customer Supportあり。 日本国内は代理店販売業者がト レーニングを担っていることが多 い。 Communityはあるが、日本語は 少なめ。 公式サイト ソリューションにもよるが、 Open Studio: 無料 他: SaaS($100 USD - ASK)
  7. アドホック系 2018年リリース。 当初はTableau Desktopと同じくクライアントアプリケーション型のみだったが、のちにTableau Prep Builder(クライアントアプリケーション)、Tableau Prep Conductor(Webアドオン)に展開。 データコネクター 操作感

    バグの多さ 対応 サポート トレーニング 値段 公式サイト 主要なデータベース、Data Warehouseは網 羅。 API連携不可(Salesforceなど、一部のソリュー ションには対応)。 GUIベース (Prep Builderは クライアントアプリ ケーション、Prep Conductorは Webアプリケー ション) UIは直感的で理 解しやすく、途中 経過も可視化して くれる。 基本は四半期に1回のメジャー アップデート。 Hotfixも迅速で、メジャーアップ デート直後のバグは即対応して いる印象。 Customer Supportあり。 トレーニングはTableau Desktop ほど充実してはいないが一通り 揃っている。 認定資格あり。 公式サイト Prep Builderのみであれば、 Creatorライセンス内で利用可能 (102000円/user, annual)。 Prep Conductorは別途Tableau Data Management Add-onが必 要(8000円*/user, annual)。 * ライセンス関係なく全ユーザー に対して必要
  8. アドホック系 1997年設立の米国企業。コンサル会社や金融製薬業界、IT代理店の方などがよく使っている印象。 データコネクター 操作感 バグの多さ 対応 サポート トレーニング 値段 空間データなど分析のためのデータコネクター

    がある GUIのフロー形式 データの出力や 機械学習(アドオ ン)など多様なア クションがある あまり聞かない。 公式のトレーニングやコミュニ ティが充実。 ユーザー数に応じて課金する 65万/人
  9. primenumberという日本企業のSaaS統合ソリューション。 メルカリ、サイバーエージェント、YappliなどのITベンチャーでも導入している。 Embulkで自前でデータ統合していた部分の開発品質をあげるために導入するケースも多い。 データ基盤におけるtrocco+BigQueryは王道の組み合わせ。 データコネクター 操作感 バグの多さ 対応 サポート トレーニング

    値段 よく使うコネクターは揃っている。 LINE広告やKintoneなどの日本製品のコネク ターも豊富 海外コネクターはfivetranと比べると少ない GUIベース Slackサポート ハンズオンを柔軟に対応頂ける 予算はあるけど忙しい大企業に もおすすめ ざっくりと言うと「データ接続の種 類とデータ転送量」でプランが分 かれる。 接続するデータが少なくデータ量 も少ないなら、かなりクイックに 実装できる データ転送系
  10. データ転送系 2012年設立の企業。データパイプライン自動化ツール。ELTを得意とする。 データコネクター 操作感 バグの多さ 対応 サポート トレーニング 値段 海外アプリに強い。Shopify

    etc シンプルで設定が 簡単。 ロード中心で細か い加工はしない人 むけ。 不明 不明 ざっくりと月次のデータ容量で金 額が決まる。 担当曰く、 $12K〜$30K程度
  11. データ転送系 2011年設立のアメリカの企業。hadoopベース(パラレル処理)。Salesforce データコネクター 操作感 バグの多さ 対応 サポート トレーニング 値段 よく使うコネクターは揃っている。

    kintoneなどの日本製品のコネクターも一応は ある。 GUIベースでUI素 敵 フローをコピペし たり柔軟性も高い 書き込み前と書き 込み後の両方で SQLを書ける。 不明 無料でリアルタイムサポートがあ る。日本語 年間ライセンス(処理回数/時間)
  12. データ転送系 オンプレミス型のETLツールで、コストが非常に安い 0円から始められる コネクターが豊富 データコネクター 操作感 バグの多さ 対応 サポート トレーニング

    値段 よく使うコネクターは揃っている。 GUIベース 大量データの連携処理に関して は落ちることがあるので、サー バーマネジメント含めチューニン グが必要 メールベースのサポート 一般的なサポートレベル Starter ¥ 0 Standard ¥ 35万/年 Professional ¥ 70万/年 Enterprise 個別見積もり
  13. BQ DataTransferService
 データ転送系 S3⇢BQの単純連携ならこれ一択。 Googleサービスとのコネクターがメイン。 データコネクター 操作感 バグの多さ 対応 サポート

    トレーニング 値段 Google系 - Google Ads - Analytics 360 - youtube channel - GCS その他 - Amazon S3 - Amazon Redshift(migration) GUIベース ??? Slackサポート ハンズオンを柔軟に対応頂ける 予算はあるけど忙しい大企業に もおすすめ 無料! 最大ファイルサイズ: ファイル形式 圧縮 非圧縮 CSV 4 GB 5 TB JSON 4 GB 5 TB 読み込みジョブ 1 件あたりの最大サイズ - CSV、 JSON、Avro、Parquet、ORC のすべての入力 ファイル全体で 15 TB