Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第3回Snowflake女子会_LT登壇資料(合成データ)_Taro_CCCMK

タロウ
December 13, 2024

 第3回Snowflake女子会_LT登壇資料(合成データ)_Taro_CCCMK

12月13日に開催されたSnowflakeユーザーグループのSnowflake女子会のLT登壇資料です!

本番っぽいデータと合成データをTableau上で比較しています!

CCCMKホールディングス株式会社
松井 太郎

タロウ

December 13, 2024
Tweet

More Decks by タロウ

Other Decks in Technology

Transcript

  1. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright

    (C) 2023 Sumitomo Mitsui Card Co., Ltd. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Vポイントの合成データをTableauで可視化!? 果たしてそれっぽいデータが出る?? Tableau初心者のイチからのチャレンジ! IT戦略本部 本部長 松井 太郎
  2. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 2

    Snowflakeと私 ・2020年にSnowflakeと出会い、Vポイント分析基盤に採用(現在はグループ各社にも拡大) ・今年からSnowVillageにも参加し、熱くて暖かいコミュニティの皆さんに刺激を受ける毎日!! ・最近は、Snowflakeのプライバシー保護機能、データクリーンルームなどの セキュアにデータ活用するための技術記事を書いています ・イベント登壇時は、Snowflakeの青Tを着ているので、トイレの場所をよく聞かれます ※本日の会場は、施錠していますので、CCCMKさんの社員にお声がけください Xのアカウントはこちら
  3. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 4

    合成データについて語ります!
  4. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 5

    合成データとは? 簡単に言うと 本番データを元に、本番データに近しい特徴を持った架空のデータを計算アルゴリズ ムによって生成する技術です 合成データを生成するストアドプロシージャがリリースされました (10月28日リリース、現在プレビュー中) 詳しく知りたい方は、こちらの記事を⇒
  5. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 6

    どんなことが出来るの? ・合成データは実在(本番)のデータのデータパターンや構造を維持している ・実在データではないため、プライバシー保護やセキュリティ問題を緩和できる ・例えば本番のデータに近しいテストデータを作ってテストしたい ・データコンペなどをそれっぽいデータで実施したい(本番データは出せない) ・ダッシュボードのイメージ確認のためのサンプルデータ
  6. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 7

    でも、結構めんどいんじゃないの? ご安心ください!簡単です!
  7. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 8

    ①合成データを作るための入力元テーブルを指定する(※上限280万件) ②合成データの出力先テーブルを指定する ③結合キーを決める(同時生成したテーブル間の結合キーがマッチする) ④上記パラメータを指定して、ストアドプロシージャを実行する ※Snowparkウエアハウス Mサイズ~ (Lサイズで約15分/200万件ぐらい) privacy_filterは モロの個人情報なければfalseがいいよ!
  8. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 9

    でもまだ使い道が良く分からないですよね? ・ダッシュボードのイメージ確認のためのサンプルデータ ↑これやってみましょう
  9. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 10

    何のデータでやるの? Vポイントのデータでやりたいと思います!
  10. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright

    (C) 2023 Sumitomo Mitsui Card Co., Ltd. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Vポイントの本番っぽいデータから合成データ を作って、DATA Saberに作ってもらったViz でどれくらいデータは似ているのか? 松井 太郎
  11. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 13

    という訳で・・ちゃんと会社のルールにのっとり、 公開しても良いレベルの本番っぽい編集データを元に、 Snowflakeのストアドで作成した合成データを Vizで比較してみたいと思います (VizはNahoさんに作ってもらいました。深謝!!)
  12. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 16

    元データと比べて、時系列のUU数の特徴や年代など 大きな特徴は継承出来ていると思います! 一方で数量などの数値項目は数量が均一化されており、 全体の傾向と乖離していました。 このような特性を理解した上で デモ用やVizのイメージ確認用の本番っぽいデータが欲しい! という時にサクっと作れる合成データは役立つと思います!