Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DMBOKを参考にしたデータマネジメントの取り組み
Search
Toshiki Tsuchikawa
November 16, 2023
Technology
6
2.7k
DMBOKを参考にしたデータマネジメントの取り組み
データマネジメントチームのマネジメントの方が難しかった話 のイベント登壇用
https://timeedev.connpass.com/event/299088/
Toshiki Tsuchikawa
November 16, 2023
Tweet
Share
More Decks by Toshiki Tsuchikawa
See All by Toshiki Tsuchikawa
タイミーのデータ活用を支えるdbt Cloud導入とこれから
ttccddtoki
2
680
タイミーにおけるデータ活用の未来
ttccddtoki
0
120
急成長する組織を支えるデータ基盤のこれまで、これから
ttccddtoki
6
740
アジリティの高いデータ基盤を目指して
ttccddtoki
4
1.6k
dbt_Cloudとdbt_Core併用の試み
ttccddtoki
3
1.4k
データ品質を重視したデータ基盤プロダクト開発
ttccddtoki
8
2.4k
タイミーの未来を支えるデータ基盤プロダクト
ttccddtoki
1
840
datatech-jp Casual Talks #3
ttccddtoki
0
1.1k
Lookerとdbtの共存
ttccddtoki
1
1.4k
Other Decks in Technology
See All in Technology
Рекомендации с нуля: как мы в Lamoda превратили главную страницу в ключевую точку входа для персонализированного шоппинга. Данил Комаров, Data Scientist, Lamoda Tech
lamodatech
0
690
AI Agentを「期待通り」に動かすために:設計アプローチの模索と現在地
kworkdev
PRO
2
430
Spring Bootで実装とインフラをこれでもかと分離するための試み
shintanimoto
7
770
Spice up your notifications/try!Swift25
noppefoxwolf
2
350
低レイヤを知りたいPHPerのためのCコンパイラ作成入門 / Building a C Compiler for PHPers Who Want to Dive into Low-Level Programming
tomzoh
0
220
CloudWatch 大好きなSAが語る CloudWatch キホンのキ
o11yfes2023
0
150
はてなの開発20年史と DevOpsの歩み / DevOpsDays Tokyo 2025 Keynote
daiksy
6
1.5k
Road to Go Gem #rubykaigi
sue445
0
240
DETR手法の変遷と最新動向(CVPR2025)
tenten0727
2
1.3k
AIと開発者の共創: エージェント時代におけるAIフレンドリーなDevOpsの実践
bicstone
1
300
こんなデータマートは嫌だ。どんな? / waiwai-data-meetup-202504
shuntak
6
1.9k
LLM とプロンプトエンジニアリング/チューターをビルドする / LLM, Prompt Engineering and Building Tutors
ks91
PRO
1
250
Featured
See All Featured
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
34
2.2k
Building Flexible Design Systems
yeseniaperezcruz
329
38k
Agile that works and the tools we love
rasmusluckow
328
21k
BBQ
matthewcrist
88
9.6k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
Rails Girls Zürich Keynote
gr2m
94
13k
Gamification - CAS2011
davidbonilla
81
5.2k
A better future with KSS
kneath
239
17k
It's Worth the Effort
3n
184
28k
Transcript
2023/11/16 土川稔生 DMBOKを参考にしたデータマネジメントの取り組み @tvtg_24 データマネジメントチームのマネジメントの方が難しかった話
目次 • DMBOKとは? • DMBOKに取り掛かる順番 • 13章 データ品質
土川 稔生 (Tsuchikawa Toshiki) 株式会社タイミーに2020年入社 DRE (Data Reliability Engineering) チーム
1人目データエンジニアとしてデータ基盤を構築 現在はプロダクトオーナーとして、データ基盤プロダクト作りに 励む 3 自己紹介
4
5
6
DMBOKとは? 「Data Management Body Of Knowledge」の略で、「データマネジメント知識体系ガイド」と訳される。 データマネジメントプロフェッショナルにとって有益な資料かつ指針となることを目指し、 データ管理のもっとも信頼できる入門書となるよう編集される。 2nd editionであるDMBOK
2は全17章からなり、 データマネジメントの知識領域を定義した DAMAホイール図で元に説明される。
DMBOKとは? https://www.dama-japan.org/Introduction.html より画像引用
どれからやったらいいの???
DMBOKピラミッド (Aiken) Aikenのピラミッド https://blogs.sap.com/2020/07/09/why-hr-data-management-strategy-is-important-in-your-hr-transformation/ より画像引用 フェーズ1 フェーズ2 フェーズ3 フェーズ4
そんな順序よく進まなかった...
タイミー初期 (2020年ごろ) 💡様々なデータを統合したデータ分析ニーズ Redashがプロダクトのデータベースに接続されていて、データ分析・可視化業務がされていた。 少し経つとユーザー行動ログ、広告、 CRMツールなどのデータが溜まり、データの統合ニーズが出てきた。 → この頃はエンタープライズなデータウェアハウス製品がすでにあった。 embulk, digdagなどの収集ツールを利用しながらデータを統合する。
データをひたすら収集しながら社内データ利用ユーザーのニーズをひたすら叶えていくフェーズ。 収集 活用 ・・・
DMBOKピラミッドでみると...? Aikenのピラミッド https://blogs.sap.com/2020/07/09/why-hr-data-management-strategy-is-important-in-your-hr-transformation/ より画像引用 フェーズ1 フェーズ2 フェーズ3 フェーズ4 取り組めていそうな項目 •
Data Storage & Operations データストレージ周りは、データソース管理者であるプロダ クト側などで多く運用されていた。 一部のログなどのデータについてはデータを利用可能にする ため、データの生成・収集なども行った。 • Data Integration & interoperability ETL、オーケストレーションツールを用いて、データ ソースごとに転送頻度、変換・マスキング要件を適用。 • Data warehousing / Business intelligence 統合データの分析環境・可視化ツールなどを準備した。 • Data Security マスキングなどにより一部取り組めた。
データパイプラインの増加によって... 🔥特にデータ品質周りにおいてたくさんの問題が起こった データソースの抽出しているツールがバラバラだったため、たくさんのパイプラインができる。 当時は選択肢も少なく仕方がなかった ... 自分たちでインフラ管理していることもあり、色々なパイプラインで障害が発生する。 データエンジニアも少なかった (ほぼ1人) ため、必死の対応が続く。 収集
活用 ・・・ 🔥 🔥 🔥 🔥
他のデータマネジメント領域に取り 組む余裕がない...
早めにデータ品質に取り組んだ!
データ品質 (Data Quality) における取り組み フェーズ1 フェーズ2 フェーズ3 フェーズ4 💡データ品質とは...データ利用者の期待と要求を満たす度合い データパイプラインに何か障害が発生した際の即対応により、
品質が高いデータが保守できていそう。 しかし、品質高いデータは分析ユーザーにとって本当に必要なのか ? 必死に守っている品質の高さは分析のその先にあるビジネス価値に 繋がっているのだろうか?
データ品質 (Data Quality) とは?? 一意性 データに重複はないか THE SIX PRIMARY DIMENSIONS
FOR DATA QUALITY ASSESSMENT より 適時性 一意性 完全性 一貫性 正確性 有効性
データ品質 (Data Quality) における取り組み 適時性の定義と保守 データが日々の業務での意思決定に利用されることが多かった。 その時点で利用しているデータが、いつ時点のデータを示すかが大事な指標とな るため、適時性を最初に保守対象に選定した。 正確に測ると、1つの行データごとに (ユーザーにデータが届いた時刻
- データが生成された時刻) を比較して計測を行うことになる。 工数軽くするために、BigQueryの最終更新日時メタデータと現在時刻を比較する ことで、適時性の保守を試みた。 SLI, SLO, SLAを分析ユーザーと定義、公開し保守・改善を行った 適時性 元データが更新されてからどの くらいの遅延で分析可能になる か
20 Service Level Indicator データパイプラインの適時性 (データソースの更新からど のくらい遅れて転送先で実用可能になるか) SLI SLA SLO
Service Level Agreement データソースごとにデータ使用者と結ばれた適時性 に関する契約 破った場合はポストモーテムを実施 例: データソースAは1日の適時性での転送 Service Level Objective DREチーム内で決定されたデータソースごとの適 時性の目標 例: データソースAは2hourの適時性での転送 データ品質 (Data Quality) における取り組み
21 データ品質 (Data Quality) における取り組み SLAを決める際、気をつけたこと。 ユーザーが求める品質と、こちら側が提供できる品質で時間を調整する必要がある。 ユーザーは基本的に品質が高ければ高いほど嬉しくはあるので、データを利用したビジネスの目的を把握し、 こちらから品質を提案しにいくことが大切そう。 またSLAはデータ利用ユーザからアクセスしやすい場所においておき、データ利用の目的やデータの種類に
よってアップデートしていくことが必要。 (難しい...)
22 データ品質 (Data Quality) における取り組み こうして、DRE (データ基盤開発チーム) は障害対応を計画的に行うことができるようになった。 空いた余力で、他の開発に取り組む時間の確保にも成功した。 また、データ品質が可視化されたことにより、品質改善への取り組みも多く発生した。
データ利用ユーザーもどれくらいの期待値でデータが利用できるのか把握できるし、改善が回っていくので、 信頼してデータを利用できるようになる。 → 早めにデータ品質に取り組んでよかった !!!
現在やっている取り組みの紹介 Aikenのピラミッド https://blogs.sap.com/2020/07/09/why-hr-data-management-strategy-is-important-in-your-hr-transformation/ より画像引用 フェーズ1 フェーズ2 フェーズ3 フェーズ4 データサイエンス・MLOps 利用者アセスメントレベル測定
・向上 dbtによるデータモデリング Lookerによる BIユーザービリティ向上
まとめ DMBOKはデータマネジメントの知識や、取り組むべき順番などがまとめられている。 しかし、順番通りこなすのは難しかった ... タイミーでは障害が頻発していた関係で、 13章のデータ品質に早急に取り組まざるをえなかった。 結果としては、データ基盤開発側もデータ利用ユーザー側にもポジティブなことは多く、 とても良い取り組みになった。 そのおかげで、その他のデータマネジメント関連の取り組みを行う余裕が生まれ、 データマネジメントの向上ができている
!!
まだまだ道半ばなのでお力を貸してください!!! https://hrmos.co/pages/timee/jobs/1682251404118319115 積極的に採用中です!!!