Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
生成AI_その前_に_マルチクラウド時代の信頼できるデータを支えるSnowflakeメタ...
Search
mikami
September 30, 2025
Technology
0
160
生成AI_その前_に_マルチクラウド時代の信頼できるデータを支えるSnowflakeメタデータ活用術.pdf
mikami
September 30, 2025
Tweet
Share
More Decks by mikami
See All by mikami
クロスクラウドデータ管理の未来:BigLakeで実現するAWS S3とBigQueryのデータ統合戦略/cross-cloud-biglake-s3-strategy-20240712
cm_mikami
0
610
Other Decks in Technology
See All in Technology
Databricks Free Editionで始めるMLflow
taka_aki
0
880
Sansan BIが実践する AI on BI とセマンティックレイヤー / data_summit_findy
sansan_randd
0
130
メタプログラミングRuby問題集の活用
willnet
2
720
Logik: A Free and Open-source FPGA Toolchain
omasanori
0
260
ソフトウェアテストのAI活用_ver1.50
fumisuke
0
280
AWS IAM Identity Centerによる権限設定をグラフ構造で可視化+グラフRAGへの挑戦
ykimi
2
680
Data & AIの未来とLakeHouse
ishikawa_satoru
0
710
ソフトウェア開発現代史: 55%が変化に備えていない現実 ─ AI支援型開発時代のReboot Japan #agilejapan
takabow
1
130
バグと向き合い、仕組みで防ぐ
____rina____
0
240
AIエージェントを導入する [ 社内ナレッジ活用編 ] / Implement AI agents
glidenote
1
350
QAEが生成AIと越える、ソフトウェア開発の境界線
rinchsan
0
1k
プロダクトエンジニアとしてのマインドセットの育み方 / How to improve product engineer mindset
saka2jp
2
210
Featured
See All Featured
Making Projects Easy
brettharned
120
6.4k
Optimizing for Happiness
mojombo
379
70k
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
The Cost Of JavaScript in 2023
addyosmani
55
9.2k
Reflections from 52 weeks, 52 projects
jeffersonlam
355
21k
Mobile First: as difficult as doing things right
swwweet
225
10k
Building an army of robots
kneath
306
46k
Embracing the Ebb and Flow
colly
88
4.9k
Docker and Python
trallard
46
3.6k
Statistics for Hackers
jakevdp
799
220k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Transcript
⽣成AI「その前」に! マルチクラウド時代の信頼できるデータ を⽀えるSnowflakeメタデータ活⽤術 三上 裕貴 データ事業本部 ビジネスソリューション部 イニシアティブチーム
2 クラスメソッド株式会社 データ事業本部 ビジネスソリューション部 イニシアティブチーム 三上 裕貴(みかみ ゆき) 出⾝地:東京 現在:名護市在住 職歴
• 組み込みエンジニア • Webエンジニア 業務内容 • データ分析基盤構築 • チーム/プロジェクト管理 • プリセールス • 採⽤活動 ⾃⼰紹介
3 今⽇話すこと/話さないこと 話すこと • Snowflakeのメタデータ管理機能の紹介 • セマンティックビューを利⽤したCortex Analystの回答精度 話さないこと •
環境構築⼿順 • Snowflake Deep Dive
はじめに
5 Snowflakeとは?
6 パブリッククラウド上のSaaS型データ分析プラットフォーム • マルチクラスタ共有データアーキテクチャ • 柔軟なスケーラビリティ • (ほぼ)ゼロメンテナンス • 標準SQL対応
• タイムトラベル機能あり • セキュアデータ共有 • 従量課⾦性 ※抜粋:https://docs.snowflake.com/ja/user-guide/intro-key-concepts
7 メタデータって、何?
8 メタデータ = データに関するデータ データの取扱説明書。 例えば、 • 本の⽬次 • 商品のバーコード
• 映画の字幕 • 写真のExif情報 • HTMLの<head>タグ
9 ⽣成AIとメタデータ、どんな関係があるの?
10 メタデータは⽣成AIの精度を左右する要素 料理のレシピのようなもの。 例えば、 「ふーチャンプルーを作りたい!」 • AI = ⼈ •
データ = 麩、卵、ポーク、にんじん、ニラ • メタデータ = レシピ
Snowflakeのメタデータ管理
12 データ品質管理
データ品質管理 13 「データ品質」タグ表⽰ • NULLチェック • 最⼤/最⼩値チェック • データの分布
データ品質管理 14 DMFs(Data Metric Functions) • データ品質チェック • データプロファイリング •
システムDMFs/カスタムDMFs ※抜粋:https://docs.snowflake.com/ja/user-guide/data-quality-system-dmfs
データ品質管理 15 カスタムDMFs マスタに存在しない商品 コードがないかチェック
データ品質管理 16 品質チェックタスク実装 email⽂字列の正当性 チェック チェック結果(アラート送信)
17 データリネージ
データリネージ 18 • データの繋がりを可視化 • ソースデータがどこにあるかも確認可能 「系列」タブ
データリネージ 19 • どうやって作成されたかも確認できるので、どれが正しいデータか分かる。 例えば:同名テーブルがあって、どちらが正しいデータかわからない。。
20 セマンティックレイヤー
セマンティックレイヤー 21 • ビジネス⽤語とデータのマッピング • データの抽象化レイヤー • データアクセスの抽象化層 • ⼈やAIとデータの仲介役
セマンティックレイヤーとは? LookerにおけるLookMLや JavaにおけるDAOのようなもの
セマンティックレイヤー 22 セマンティックモデル • Cortex Analystの精度向上のた めのオブジェクト • YAMLファイルとしてステージ に保存
セマンティックビュー • セマンティックモデルの進化系 • SQLでアクセス可能 • スキーマレベルオブジェクト ※抜粋:https://docs.snowflake.com/en/user-guide/views-semantic/overview Snowflakeのセマンティックモデル/ビュー
セマンティックビュー 23 テーブル状況 • 顧客、商品、注⽂、注⽂商品テーブル • データ投⼊済み
セマンティックビュー 24 ビュー作成 TABLES 対象テーブル RELATIONSHIPS 外部キー関係 FACTS 分析⽤の事実データ(数値、識別⼦) DIMENSIONS
分析の軸となる属性データ (商品名、注⽂⽇など) METRICS ビジネス指標の計算ロジック
セマンティックビュー 25 Cortex Analystから⾃然⾔語で問い合わせ Cortex AnalystのURL作成 「最も多く購⼊している顧客は?」 「最も⼈気のある商品カテゴリは?」
セマンティックビュー 26 SQLで答え合わせ 「最も多く購⼊している顧客は?」 →佐藤花⼦:158,500円 「最も⼈気のある商品カテゴリは?」 →ファッション:12個
マルチクラウド環境で セマンティックビューを活⽤
マルチクラウド×セマンティックビュー 28 テーブル状況 • AWS S3に顧客マスタ ◦ 顧客ID:CUSTOMER_ID • Google
Cloud Storageに売上データ ◦ 顧客ID:CLIENT_ID • Snowflakeで外部テーブル作成
29 セマンティックビュー作成&Cortex Analystで問い合わせ 認識してもらえなかった。。 マルチクラウド×セマンティックビュー
30 セマンティックビュー修正 マルチクラウド×セマンティックビュー 物理クエリも良さそう。 ※ビューのエイリアスが⽇本語だと、 ⽂字列を計算しようとしてSQLエラー。。
31 答え合わせ マルチクラウド×セマンティックビュー → ID 1:153,000(150,000 + 3000) ID 2:80,000 ID
3:45,000 ID 4:8,000
まとめ
まとめ 33 • メタデータ整備は⼤事 ◦ データ品質管理、リネージ、セマンティックレイヤーが⽣成AI活⽤に影響 • ⽣成AIの正確な答えはデータ&メタデータ次第 ◦ セマンティックビューでCortex
Analystの回答精度が向上 • Snowflakeのメタデータ管理機能はマルチクラウドに対応 ◦ DMFs、データリネージ、セマンティックビュー ◦ プレビュー機能や⽇本語精度など、実運⽤への適⽤には注意が必要
ちょっと宣伝です。
35 Snowflake データ基盤構築⽀援
36 データエンジニア募集中!
None