Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Cross Data Platforms Meetup LT 20250422

Cross Data Platforms Meetup LT 20250422

タロウ

April 22, 2025
Tweet

More Decks by タロウ

Other Decks in Technology

Transcript

  1. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 2025.04.22

    CCCグループにおける2つのユースケース Snowflake × Databricks ハイブリッドデータ基盤について
  2. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    2 ちょうど1年前に TポイントからVポイントにリニューアル
  3. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    3 自己紹介 松井 太郎 と申します 今年度のSnowflake Data SuperHeroes に選出いただきました!! 今まで以上にコミュニティへ貢献していきたいと思います!
  4. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    4 ということは、Snowflake推しの話なんでしょ?
  5. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    6 フラットに話をしたいと思います!
  6. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    7 どっちが良い ではなく、どういうユースケースで組み合わせたか
  7. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    8 Vポイント分析基盤 書籍オープンデータ基盤 パターン Sf適用目的 Db適用目的 関係性 レガシーDWH統合と機械学習基盤構築 Oracle/Synapse/Verticaトリプル移行 20年PoC / ~25年段階移行 機械学習プラットフォームの新規構築 21年PoC&導入 Snowflakeを分析基盤として3DB統合 DatabricksはAI/MLOpsに活用 新規データ基盤構築と商用サービス提供 商用分析サービス用DB 21年構築 データレイク&ETL基盤 21年構築 Databricksをデータ統合基盤 Snowflakeは商用サービス用DB 2つのユースケース 規模 Vポイント会員1.3億人のデータが蓄積 加盟企業・メーカーへの分析・販促提供 書展業界の4割の販売データが集約 数百社が利用するデータサービス
  8. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    9 Vポイント分析基盤 書籍オープンデータ基盤 パターン Sf適用目的 Db適用目的 関係性 レガシーDWH統合と機械学習基盤構築 Oracle/Synapse/Verticaトリプル移行 20年PoC / ~25年段階移行 機械学習プラットフォームの新規構築 21年PoC&導入 Snowflakeを分析基盤として3DB統合 DatabricksはAI/MLOpsに活用 新規データ基盤構築と商用サービス提供 商用分析サービス用DB 21年構築 データレイク&ETL基盤 21年構築 Databricksをデータ統合基盤 Snowflakeは商用サービス用DB 2つのユースケース 規模 Vポイント会員1.3億人のデータが蓄積 加盟企業・メーカーへの分析・販促提供 書展業界の4割の販売データが集約 数百社が利用するデータサービス
  9. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    10 激増するデータ、 拡大し続けるワークロード オンプレミスの限界 分散した分析DBとコスト増加 データ活用高度化による負荷増 データ活用の民主化実現 3種のDBをSnowflakeへ統合 AI基盤もDatabricksに刷新 Exadata3台をSynapse化 データサイエンス用環境追加 CCCMKホールディングスの分析基盤史 ~2018 オンプレ時代 2019~2020 クラウドリフト 2021-2025 クラウドシフト Next issue Issue Now Cloud Lift データ 同期 分析DB Exadata 分析DB Exadata セグメントDB Exadata アナリスト部門A アナリスト部門B 販促部門 データ連携 分析DB Azure Synapse Analytics 分析基盤 Snowflake 基幹DB Exadata 基幹DB Exadata アナリスト部門 アナリスト部門 販促部門 販促部門 接続先を分けて 負荷分散 分析サービス Vertica 社外ユーザー 社外ユーザー 社外ユーザー 営業部門 New 分析サービス Vertica AI基盤 Databricks データサイエンティスト AI基盤 Synapse データサイエンティスト AI基盤 オンプレ データサイエンティスト
  10. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    11 Vertica/Synapse/Oracleを“統合出来る”と“信じ切れる”性能・機能を持つ プラットフォームは、Snowflakeしかなかった( 22年時点では)
  11. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    12 課題:既存基盤移行を確実に移管し、DB統合を実現したい ・3つのDB統合、1つも失敗が許されない 移行の確実性が最優先 ・DWH機能やSQLの移植性、クエリ性能が優れていたSnowflakeを採用 制約:インフラのライフサイクルに合わせた移行計画 ・SynapseのRIが切れる24年、Oracleの保守が切れる25年に合わせた段階移行 ・20年4月 PoC❶ Vertica ・21年6月 移行❶ Vertica(分析サービス) ・22年~ PoC❷❸ Synapse(分析DB)&Oracle(基幹DB) ・23年 移行計画策定 ・24年1月 移行❷ Azure Synapse Analytics(分析DB) ・25年1月 移行❸ Oracle Exadata(基幹DB) 予見:グループ全体でのデータ統合や社外共有構想(僕が勝手に思ってた) ・各社の分析基盤をグループでメッシュ統合、そのためのデータシェアリング機能 ・22年時点でこの概念を実現出来る機能やビジョンはSnowflakeが先行していた ・その後、提携先やCCCグループ内もデータシェア実現済
  12. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    13 現在 1.分析基盤(Snowflake) ・利用者:データエンジニア、データアナリスト ・チューニングや運用管理がなく、高速にクエリが実行可能 ・Data Sharingなどで外部連携やグループ間連携は工数大幅削減 2.AI基盤(Databricks) ・利用者:データサイエンティスト ・Gold層をLakeHouse Federationで参照、主要なデータはDelta Table化 ・1億人×1000項目以上のライフスタイル予測もサクサク実行出来る ・特徴量ストアを生成・管理し、MLOpsを促進 3.総括 ・とにかくインフラで悩む事がなくなり、かつ勝手に性能が良くなっていく ・アクセス制御はSnowflakeで全て管理することで一元化 ・クエリ&コストパフォーマンスも従来環境よりいずれも大幅に向上 ・Gold層をIceberg化しちゃう?Bronze、Silver層こそIceberg化する? ・・悩み中
  13. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    14 という訳で、 既存基盤からの移行が最命題でかつ難易度が高い場合 SnowflakeのDWH機能や移植性、クエリ性能 DatabricksをAI領域に特化 により、確実な移行と拡張性のある構成を実現
  14. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    15 Vポイント分析基盤 書籍オープンデータ基盤 パターン Sf適用目的 Db適用目的 関係性 レガシーDWH統合と機械学習基盤構築 Oracle/Synapse/Verticaトリプル移行 20年PoC / ~25年段階移行 機械学習プラットフォームの新規構築 21年PoC&導入 Snowflakeを分析基盤として3DB統合 DatabricksはAI/MLOpsに活用 新規データ基盤構築と商用サービス提供 商用分析サービス用DB 21年構築 データレイク&ETL基盤 21年構築 Databricksをデータ統合基盤 Snowflakeは商用サービス用DB 2つのユースケース 規模 Vポイント会員1.3億人のデータが蓄積 加盟企業・メーカーへの分析・販促提供 書展業界の4割の販売データが集約 数百社が利用するデータサービス
  15. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    全国3,500書店の 販売情報 書店別情 報 市場在庫情 報 いつ? どこ で? TSUTAYA、蔦屋書店 の販売/購買実績 約1.3億人(有効ID数) の会員データ どんな人が? 何と一緒に? エンタメコンテンツの データ 出版社、書店、映像メーカー、音楽レーベル、文具・雑貨メーカー、IPホルダー、小売店などへ 市場調査、自社商品の売上分析、顧客分析、商品の比較などに活用
  16. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    17 新設されたカタリスト・データ・パートナーズ社へ21年9月に参画 TSUTAYAと日販のデータを統合した新サービスを22年4月リリース目標!
  17. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    19 さらに ・新会社には分析基盤云々以前に、開発環境も何もない更地 ・TSUTAYAと日販とは、データ連携云々以前にデータセットも不明 ・分析サービス云々以前にUIや機能要件も決まってない ・CCCMKと兼務の僕を入れて、4.5名+ベトナムオフショア体制
  18. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    21 私がジョインした理由は、子会社の取締役で入っていたCIOが本業で忙しく、「代わりにシステムを見てあげて」「実務はメンバーがやるので監督者の立 場で良いよ」と言われたので、プロジェクトの進捗だけを確認すればよいという認識で参加しました。ところが着任後、プロダクトマネージャーと状況の 確認をすると、半年後にリリースというのは決まっているけど、日販やTSUTAYAとは全然話も出来ていないし、そもそも受入するためのデータ基盤もな いという状況でした。メンバーも寄せ集めたばかりでほとんどが9月に参加したという状態。これは鼻ほじって座ってる訳にはいかないので、メンバーと一 緒に計画作成から一緒に入りました。さすがに半年で完全版のリリースは難しいのでα版でのリリースをスコープするように社内外の調整した上で開発計 画の作成を進めました。とはいえ別にスケジュールが楽になったわけではなく、インフラ構築、データ仕様の確認とデータ連携の開発、フロントのUI確認 や性能目標など決めなきゃいけない、やらなきゃいけない事は山のようにありました。そもそもジョインしたタイミングで、システム環境すらなかったの で、まずはアーキテクチャを急ぎ決める必要があり、バックエンドはDatabricks、フロントエンドはSnowflakeの併用を決めました。これにはひと悶着あ り、Databricksを利用経験者が数名いたので、Databricksオンリーの話になりかけましたが、DatabricksのDWH機能がその時点ではまだ弱かったこと。 特に画面の条件設定のようなショートクエリが遅い事もあり、Snowflakeを採用したいと提案しました。当然、メンバーのみんなは、Snowflakeってなに もの?という感じだったので、まずは勉強会をするところから始めました。勉強会は僕自身が開催し、SnowflakeのSAにも同席してもらいましたが、とに かく使いやすいことをプレゼンし、レビューを行い、いかにパフォーマンスを気にせず、開発に集中できるかの洗脳プレゼンを行い、その後にSnowflake のソリューションアーキテクトから具体の説明をしてもらいました。その後お試し後にベトナム人のリードエンジニアのカズさんが「使いやすいです!こ れなら出来る気がします!」と言ってくれたことで何とかSnowflakeでスタートしました。それと並行して、システム構成をとりまとめ、Azure上の基盤 構築をCCC本体に依頼し、DatabricksやWEBサーバ、LB等のインフラリソース、セキュリティ関連の設定を行い、まずは器だけは用意しました。並行し てSnowflakeのアカウントを作成し、PrivateLinkなどの設定を実施しました。開発に当たっては日販様とデータ連携仕様を設計書ベースで確認、並行して TSUTAYA側が非協力的だったので、こちらで設計書を読み取り、開発ベンダーへ直接依頼してデータ連携開発を委託しました。まぁここは色々言いたい こともありますが、議論している暇もなく、だったらこっちでやるよ!で進めました。実際の開発が始まると設計書や仕様書通りのデータじゃないものも 多く、何度も移行をやり直したり、イレギュラーなデータパターンに苦しみながら、一つ一つ解きほぐし、取込仕様の見直しや改善を進めていきました。 それぞれの企業のお作法があるけど、提供元はそれが独自と思っていないことが多く、連携して初めて分かる仕様の違いや認識齟齬が多発。こればっかり は仕方ないですが、外部と連携経験が浅い会社は得てしてこういう課題があります。一応、私はCCCMKと兼務で部長やっていたのですが、自社の業務と CDP社の開発を同時並行で全てやっていました。ちなみにこの裏でOracleとAzureSynapseの移行PoCもやってました。まじで笑えるぐらいに時間足りま せんでした。画面設計もアジャイル的に開発をしていきましたがさすがに兼務でUIまでは見れないのでフロント周りはプロダクトマネージャーに任せて、 TSUTAYA周りのデータ連携開発は何とか完了しました。画面UIもデザイン会社に発注しましたが、イマイチなものしか上がってこず、最終的に契約終了 して後は自分たちで設計を進めました。気が付けば3ヵ月ほどで基盤を作り、データ連携仕様をなんとか固めて年内を終えました。年明けからは先ほどの データ連携の仕様差異に苦しみながら、画面仕様を固めていき、なんとかかんとか4月にα版をリリースしました。ただリリース後から問題が起きました。 今回のシステムは今までの事前集計やバッチ処理型ではなく、オンライン検索型の分析サービスなので処理時間が重く、従来との分析ステップの違いで遅 いというクレームが多発、さらにパフォーマンスチューニングに苦慮しました。クエリを実際に見ながらパフォーマンスアドバイスをしていましたが、な かなか改善されず、最後は僕自身もプロファイリングを分析し、キーを大幅に見直す事で速度が劇的に改善しました。ユーザーが明らかに体感できるレベ ルで改善し、経営会議でも社外役員よりお褒めをいただきました。それ以降もデータ基盤、チューニング、UI改善をしながら一丸となってβ版をリリース し、最終的に全ての機能を移行し、正式版として商用リリースが完了しました。今では私の手を離れて元気に動いております!
  19. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    提供サービスはこんな感じ(こんなのが20パターンぐらいある)
  20. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    24 課題:限られたリソースでの基盤構築 ・最小の労力・体制で基盤を運用できること 機能の充足性を優先 ・データレイク・オーケストレーション機能が揃っているDatabricksを採用 制約:開発期間が半年しかない ・各出資元の期待も高い一方で、複雑な分析UIでパフォーマンスリスクがあった ・All-In-Oneのシンプル構成にするか、性能優先でSnowflakeを入れるか二択で議論 ・リスク最小は分担構成 オフショアメンバーとSnowflake勉強会で習熟度上げる ・22年時点ではDatabricksのDWH機能はまだ弱かった 予見:非構造化データなど将来的に取り組む可能性 ・書籍・コミック・IPコンテンツなど非構造化データを用いた分析や活用 ・この実装を実現出来る機能やビジョンはDatabricksが圧倒的優位 ・作品メタタグやSNS・画像分析などの非構造化分析はDatabricksで実装
  21. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    25 現在 1.分析基盤(Databricks) ・利用者:データエンジニア ・Databricks WorkFlowを一元管理したシンプルな構成 ・IPコンテンツなどのメタ情報やSNS情報収集と形態素解析はDatabricksで全て実装 2.分析サービス(Snowflake) ・利用者:フロントサービスのデータエンジニア ・Databricksで加工したデータをSnowflakeへ反映 ・UI・クエリ・ロード・API用などワークロードごとにウエアハウスを分離し、並列化 総括 ・メダリオンアーキテクチャに沿って役割分担 ・ワークロードとデータ層を分離しているので二重コスト最小化 ・アクセス制御はUnityCatalogで管理(Snowflake側はGold層のみ) ・数人で数百社への提供サービスも運用出来ている
  22. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    26 という訳で、 イチからの基盤構築(特に外部商用サービス)なら Databricksの機能充実度による開発生産性 SnowflakeのDWH機能による高パフォーマンス 双方の強みを活かした生産性、柔軟性の高い構成で実現
  23. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    27 Vポイント分析基盤 書籍オープンデータ基盤 パターン Sf適用目的 Db適用目的 関係性 レガシーDWH統合と機械学習基盤構築 Oracle/Synapse/Verticaトリプル移行 20年PoC / ~25年段階移行 機械学習プラットフォームの新規構築 21年PoC&導入 Snowflakeを分析基盤として3DB統合 DatabricksはAI/MLOpsに活用 新規データ基盤構築と商用サービス提供 商用分析サービス用DB 21年構築 データレイク&ETL基盤 21年構築 Databricksをデータ統合基盤 Snowflakeは商用サービス用DB 2つのユースケース 規模 Vポイント会員1.3億人のデータが蓄積 加盟企業・メーカーへの分析・販促提供 書展業界の4割の販売データが集約 数百社が利用するデータサービス
  24. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    28 Snowflake ・DWHとしての圧倒的な機能充実度、拡張性、柔軟性 ・どんなDBでも移行出来ると言っても過言ではない ・商用サービスのフロントDWHを任せられる安心感が半端ない Databricks ・AI/ML領域での圧倒的な機能充実度 ・データレイク+DWH+ETL/オーケストレーションのAll-In-One構成が魅力 ・まっさらな新規構築でエンジニア体制があれば、とりあえずDatabricksの安心感 まとめ
  25. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    29 どっちの製品が良い!ではなく、解決すべき課題は何なのか?
  26. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    30 その課題には、どのような制約や予見があるのか?
  27. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    31 与えられた条件の中で、最大の成果を出すための基盤設計
  28. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    32 皆さんそれぞれの“課題解決”を最大化する構成を追求していきましょう
  29. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    34 Snowflakeさん と Databricksさん に言いたい事があります
  30. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    35 DWH AI 2つのプラットフォームに期待していること DWH AI 俺たちの基盤がどんどん良くなっていく! クエリ性能 DWH機能 データ共有・DCR Lake House AI オーケストレーション
  31. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    36 最近のアップデートの方向性 DWH AI あんまりおいしくない・・ クエリ性能 DWH機能 データ共有・DCR Lake House AI オーケストレーション?
  32. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    37 DWH AI DWH AI いっそ、統合しませんか!! クエリ性能 DWH機能 データ共有・DCR Lake House AI オーケストレーション
  33. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    39 結論:どちらも優れた製品なのでユースケースに合わせて採用しましょう!
  34. Copyright - © CCC MK HOLDINGS Co.,Ltd. all rights reserved

    40 ご清聴ありがとうございました