Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データカタログ運用物語 〜令和6年夏の理想と現実〜
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
kuro
July 26, 2024
Programming
370
1
Share
データカタログ運用物語 〜令和6年夏の理想と現実〜
Cloud Operator Days2024で登壇した時のスライドです。
kuro
July 26, 2024
More Decks by kuro
See All by kuro
nilとは何か 〜interfaceの構造とnil!=nilから理解する〜
kuro_kurorrr
3
2.5k
GoLab2025 Recap
kuro_kurorrr
0
5.1k
OpenFeatureに学ぶ コミュニティの広げ方
kuro_kurorrr
0
48
Module Proxyのマニアックな話 / Niche Topics in Module Proxy
kuro_kurorrr
0
3.6k
Weak References in Go 1.24: Memory Management Superpowers
kuro_kurorrr
0
87
サプライチェーン攻撃に学ぶModuleの仕組みと セキュリティ対策
kuro_kurorrr
3
1.9k
PipeCD と Bucketeer の Document MCP Serverを作って公開した話
kuro_kurorrr
0
240
近頃の気になるGo testingパッケージ
kuro_kurorrr
3
650
Go1.25からのGOMAXPROCS
kuro_kurorrr
4
1.9k
Other Decks in Programming
See All in Programming
柔軟なPDFレイアウトエディタを支える型システム設計 — Discriminated UnionとConditional Typeの実践
minako__ph
4
1.2k
プロパティの順序で型推論が壊れる!? TypeScript6.0の修正からContext-Sensitivityの仕組みを追う
bicstone
2
1.2k
誰も頼んでない機能を出荷した話
zekutax
0
150
今さら聞けないCancellationToken
htkym
0
200
TypeSpec で繋ぐ複数プロダクトの型安全
maroon8021
1
260
Inside Stream API
skrb
1
370
肥大化するレガシーコードに立ち向かうためのインターフェース分離と依存の逆転 / JJUG CCC 2026 Spring
hirokunimaeta
0
210
色即是空、空即是色、データサイエンス
kamoneggi
1
210
Migrations : C'est une question d'hygiène !
vinceamstoutz
0
2.5k
AI駆動開発勉強会 広島支部 第一回勉強会 AI駆動開発概要とワークショップ
hayatoshimiu
0
410
プラグインで拡張される Context をtype-safe にする難しさと設計判断
kazupon
2
460
初めてのRubyKaigiはこう見えた
jellyfish700
0
340
Featured
See All Featured
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
Deep Space Network (abreviated)
tonyrice
0
160
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
190
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
150
sira's awesome portfolio website redesign presentation
elsirapls
0
260
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
820
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
270
The AI Search Optimization Roadmap by Aleyda Solis
aleyda
1
5.8k
From π to Pie charts
rasagy
0
190
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.7k
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
180
Transcript
データカタログ運用物語 〜令和6年夏の理想と現実〜 Cloud Operator Days Tokyo 2024 kuroda naoki
自己紹介 - 名前:kuroda naoki - 所属:株式会社サイバーエージェン トAI事業本部 プリズムパートナーカンパニー kuro @knkurokuro7
データカタログとは データカタログとは、データレイクなどからユーザーが取得したいデータを容易に取得できるよう にするために管理されているメタデータのカタログ。 引用: https://www.techtarge t.com/searchdataman agement/definition/da ta-catalog
データカタログとは - DataHubという LinkedIn製のOSSをホ スティング。 - EKS,Helm,OpenSear ch,MSK(Kafka),RDS を使ってホスティングし て、CI/CDには、
GitHub Actions ,Terraform等
データカタログとは メタデータを検索できる
データカタログで解決したい課題 - 散乱するメタデータ - 誰かが知っているテーブルの意味 - 使われているかどうかわからないカラム - データ抽出の際のコミュニケーションコスト -
DSはもちろんビジネスサイド、エンジニアの間でデータの知識に差 がある。
理想の形 1. データカタログをまずは見にいく習慣がある。 2. どこに何のデータがあるかわかる。 3. 過度なコミュニケーションコストがかかることなく、データに関する意思決定が行わ れる。 →まずはここさえ見ればデータのことはなんでもわかる形を目指す
当初の目論見 まずは使われることを目指して、 1. 明確なユースケース 2. メタデータが更新され続けていること の2つの要素があればなんとかなりそう?
1. 明確なユースケース 1.データ抽出の際にどのカラムを使えばいいのかを把握できるようなカタログとして使う。 - よく使うテーブルやカラムの中身がすぐにわかる。 - 同じような名前のカラムがあるときにその違いがわかる。 2. エンジニアがシステム開発の際にカラム同士の関係や使われ方を理解するために使う。 -
mysqlやdynamodb,snowflakeのカラムの意味や関係性を把握する。 3. 新しい人が入ってきた時にデータ理解のオンボーディング資料として使う。 4. あるデータに対して属人化しそうな特殊な意味が追加されたときにメモとして使う。
2. データが更新され続けていること 1. メタデータを人が更新するタイミングがあること。 - 作業のついでにメタデータを書き込んでもらう。 - 例えば)テーブルAは古いので2024年6月時点で使っていませ ん。カラムBにはこの抽出で使うデータが入ってます。 2.
メタデータがシステムが更新するタイミングがあること。 - システム的に毎日自動連携する。 - 例えば)Snowflakeのカラム情報をGitHub Actions で連携す る。
1. 明確なユースケース はある程度固まってるから、 2. メタデータが更新され続けていること に注力しよう!
施策①連携できるメタデータの幅を増やす - DataHubのメタデータ自動連携をGithubActionsで毎日実行。 - Snowflake,dbt,MySQL,DynamoDB、Business Glossary(DataHubでの用語集 みたいな感じのもの、カラムやテーブルに紐付けられる。)等を連携する。
施策②散らばったテーブルメタデータを取り込む - 外部から連携されるSnowflakeテーブルごとのExcelカラム情報がGoogleDrive だったり、Slackだったり、個人のローカルだったりに散らばっていた。 - それを、CSVに変換して、DataHubのCSV Ingestionという機能で連携。
これで使ってもらえる!→実際データ抽出の際に参照してもらった り。。。
それでも残る課題 最初は物珍しさと集約したテーブルメタデータのため多少使われていた が、徐々に使われなくなりつつある。。
それでも残る課題 実際にヒアリングしてみると、想定していたユースケースでは使い慣れた他のツールで 代替されている。 →定期的に必要な業務に組み込む =データカタログがないと成り立たない業務フロー
これからやりたいこと - データの鮮度をデータワークフローの中で管理する。 - 毎日データを連携するStep FunctionsでのETLフローがあり、 その中でクエリの履歴やカラムの更新情報を取得して、 DataHub APIで「deprecated」 tagを付与する。
これからやりたいこと
これからやりたいこと - 今まであまりできていなかった「不要なテーブルの棚卸し」という業務に組 み込むことでよりデータカタログを見に行く機会が増えるのではないか。 - ここまでを実際にやりたかったのですが、間に合わなかったので、またどこ かでお話しできれば。。
まとめ - ユースケースを定義して周知するだけではツールは使ってもらえな い。 - 他のツールでは代替できないような用途に使えるように、業務フ ローに組み込む。 - そもそも既にデータカタログ起点で、「どこで使えるのか」を考えてし まっている。→心底必要でないなら作らない方が良かったのかもし
れない。