Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[HeatWavejpMeetup#12] 最初のデータ基盤はいつ?どれ? [@umisora 氏]

[HeatWavejpMeetup#12] 最初のデータ基盤はいつ?どれ? [@umisora 氏]

HeatWavejp Meetup #12 「MySQL ユーザーが考える HeatWave MySQL の MySQL としての良さ」(2025/2/26 開催)の講演資料です。

【講演内容】
時系列データや、ビッグデータの活用を始めたい。データを保管していきたい。と思った時の最初の一手としてのデータ基盤はどんなもの?
HeatWaveを含む何社かのDWHソリューションの比較とミニマム構成の検討結果をシェアします。

■ データ基盤始める時に知っておくと良いこと
 分析要件と技術スタック(キーワード)について理解し、短期・中期で気づいておくと良いことを共有したいと思います。
 またそれらを理解することで Heatwave はデータ基盤技術スタックの中でどこを支援することができるのか理解できます。

■ MySQL HeatWave によるデータ基盤統合
 Heatwave がハイパフォーマンス列指向データベースの側面だけでなく、データ基盤における
 DWH としての役割について再確認していきます。

■ 比較結果
 最後に、私が自社で最初のデータ基盤を比較する時に、Heatwave を含めた、
 いくつかのDWH パターンを整理したので共有させていただきます。

【発表者】
@umisora氏

【イベント情報】
HeatWavejp Meetup #12
https://heatwavejp.connpass.com/event/344574/

More Decks by HeatWavejp(MySQL HeatWave Japan User Group)

Transcript

  1. 最初のデータ基盤はいつ?どれ? HeatWavejp Meetup #12 2025 年 2 月 26 日

    マネーフォワード i 株式会社 村上 勝俊 (@umisora)
  2. 自己紹介 名前:村上 勝俊 (@umisora__) 会社:Money Forward i 取締役・CPO 担当:Admina 製品の企画・開発・マネージャー

    経歴:金融系 SIer → MoneyForward → Money Forward i 技能:オンプレインフラ(Linux/Windows) → クラウドエンジニア → EM/PO 趣味:ちっさなコードを書くこと データ基盤の出会い:社内で Embulk という ETL を使って MySQL に集計したデータ をヒストリカルに BigQuery に毎日書き込みたい!から始まりました。最初にヒストリ カルを対処したのは正解でもあり、茨でもありました…。
  3. 章立て Copyright © Money Forward i Inc. ▪ データ基盤始める時に知っておくと良いこと 分析要件と技術スタック(キーワード)について理解し、短期・中期で気づいておくと良いこと

    を共有したいと思います。またそれらを理解することで Heatwave はデータ基盤技術スタッ クの中でどこを支援することができるのか理解できます。 ▪ MySQL HeatWave によるデータ基盤統合 Heatwave がハイパフォーマンス列指向データベースの側面だけでなく、データ基盤における DWH としての役割について再確認していきます。 ▪ 比較結果 最後に、私が自社で最初のデータ基盤を比較する時に、Heatwave を含めた、いくつかの DWH パターンを整理したので共有させていただきます。
  4. データ基盤を始める時に知っておくと良いこと Copyright © Money Forward i Inc. Agile Analytics Platform

    構築 Step 概要 1 Excel との併用を前提としつつも、幅広いデータにアクセス出来る基盤。主にキーとなるメトリクスの発見や、感 性・感想を裏付けるためのデータ観察が行える。 2 複数データソースの結合分析、統計分析などの高度な分析要件に応える。データマートの整備も始まる。 3 履歴データの分析や、より複雑な統計分析が可能に。データカタログやモニタリングも整備される。 4 機械学習への本格的なデータ利用、ML Ops の基盤との接続。分析結果やデータモデルのプロダクトへの提供が行 える。 企業のフェーズに合わせた段階的で、手戻りもしやすく、将来の負債になりにくいことを考慮 したアジリティのある Agile なデータ基盤の構築戦略です。(私個人が考えたので権威性はあ りません)
  5. データ基盤を始める時に知っておくと良いこと Copyright © Money Forward i Inc. Step 単一データソース分析 複合データソース分析

    履歴データ分析 統計データ分析 機械学習 レポート 1 ◯ △ ✗ △ ✗ △ 2 ◯ ◯ △ △ △ ◯ 3 ◯ ◯ ◯ ◯ △ △ 4 ◯ ◯ ◯ ◯ ◯ △ ▪ 分析要件の整理方法 分析要件の要素としては以下のようなものがあります。 すごく優れた分析・ダッシュボードを見慣れているとこれらは最初から揃っているかのように 思いますが、これらをすべて揃えるにはまぁまぁコストが掛かります。データエンジニアもい ない環境で、データ基盤の実績もなく、これらを高いコストかけて構築しても案外使われず金 食い虫と言われるのは間違いなしです 様々な要望が来ますが、どこから手を付けるのか? その順序付けが大事です。
  6. データ基盤を始める時に知っておくと良いこと Copyright © Money Forward i Inc. 技術スタックの全体像 Step NN/Sec

    IAM DWH ETL MART BI ML/Notebook Excel 併用 AI 利用 1 ◯ ◯ ✗ ✗ ◯ ◯ ◎ ✗ 2 ◯ ◯ ◯ △ ◯ ◯ ◯ △ 3 ◯ ◯ ◯ ◯ ◯ ◯ △ ◯ 4 ◯ ◯ ◯ ◯ ◯ ◯ △ ◯ 技術スタックや考慮すべき点も確認しておきましょう。このような観点が構築時に登場してき ます。 (但し第8層政治層は除く) ETL/MART/BI にはさらなる奥地がありますが、データ基 盤エンジニアとしては後で考えることにしましょう。 要件を段階的にするためには、技術的側からも"何がローコストなのか"を提案すると望ましい です。分析側は"今あるものでどうするか"と考えてくれます。そんな会話を元に最初のスコー プを決めていくと動きやすいです。
  7. データ基盤を始める時に知っておくと良いこと Copyright © Money Forward i Inc. データ基盤全体の運用上の考慮点 項目 説明

    データ規模/パフォーマンス データの増加に伴うパフォーマンスの維持と最適化が必要です。 バックアップ・リカバリ データの損失を防ぐためのバックアップと迅速なリカバリ手段を確保します。 PTR/RTO 計画的な復旧時間と目標復旧時間を設定し、システムの可用性を確保します。 セキュリティ データの保護と不正アクセスの防止を行います。 スケーラビリティ システムの拡張性を考慮し、将来的なデータ増加に対応できる設計を行います。 モニタリングとアラート システムの状態を監視し、異常が発生した際に迅速に対応できるようにします。 もちろん機能要件だけじゃないのがデータ基盤ですね。 (ある意味選定要件でもあるけれど) 以下の観点も徐々に登場します。特に ETL/MART とはエラーで失敗する時にどうするか問わ れることが多いです。(それはインフラレイヤーのテーマではないケースも多いです)
  8. MySQL HeatWaveによるデータ基盤統合 MySQL HeatWave のカバー範囲 ETL プロセス: MySQL を単一ソースとした DWH

    へのレプリケーションが同一製品内で 完結(一般的なレプリケーション技術で完結する) データウェアハウス: 分析用の大規模データストアの役割を担う アクセス制御: IAM は今の MySQL と同じなので新しい運用や構成、設計が発生しない ネットワーク/セキュリティ: 既存ですでに考慮されている近くに置くので論点が少ない Copyright © Money Forward i Inc.
  9. MySQL HeatWaveによるデータ基盤統合 MySQL HeatWave の提案を受けた時の感想(おどろき) 1. アプリケーション側への迷惑が少ない。MySQL で慣れた普段のオペレーションの延長で DWH がついてくる。すごい。DBA

    的には助かる! 2. なんと、DWH を選定していたら、アプリケーションのパフォーマンス向上までついてく る。 3. 多分他の ETL より型変換も少なく、エラー落ちも少なそう!楽そう!! 実際に DWH を構築すると、ETL の保守の重さに泣きたくなる日が来ます。 ただデータを DWH に入れて、高速に大量のデータに SQL を投げたいだけなのに!!! Copyright © Money Forward i Inc.
  10. 比較結果 比較のポイント DWH 単体としてのパフォーマンスは比較対象外 ETL など周辺要件を加味した総合コスト・運用コストを机上で比較 スキーマ変更への追従性 ETL 処理の容易さ リアルタイム性(CDC)

    技術構成のシンプルさ セキュリティ機能 コスト 特に、ETL の部分で技術の進化が激しいので、より楽なマネージド構成を追求します。 Copyright © Money Forward i Inc.
  11. 比較結果 Copyright © Money Forward i Inc. RedShift + Zero

    ETL DWH/ETL 完全マ ネージド スキーマ自動追従 高度な環境も構築 可 コストがやや高い AWS ロックイン ネットワークコス ト MySQL HeatWave MySQL オフィシ ャルの互換性 シンプルな構成 アプリケーション にも好影響 マルチソース非対 応 MySQL 以外の ETL は別途必要 BigQuery + ETL BigQuery 便利す ぎる コスト効率が良い スケーラビリティ 業界のリード ネットワークコス ト ETL が別途必要 Snowflake/Databricks マルチクラウド対応 大きなコミュニティ 高度なセキュリティ 独自性のある DWH/技術/ エコシステム ZeroETL みたいなのない 何処まで行っても AP と距 離がある [メリット] [デメリット] [メリット] [デメリット] [メリット] [デメリット] [メリット] [デメリット]