Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ品質を重視したデータ基盤プロダクト開発
Search
Toshiki Tsuchikawa
April 11, 2023
Technology
8
2.5k
データ品質を重視したデータ基盤プロダクト開発
データ基盤アーキテクチャトレンド 2023 LTとパネルで学ぶ (
https://findy.connpass.com/event/278140/
)
の登壇資料になります。
Toshiki Tsuchikawa
April 11, 2023
Tweet
Share
More Decks by Toshiki Tsuchikawa
See All by Toshiki Tsuchikawa
タイミーのデータモデリング事例と今後のチャレンジ
ttccddtoki
6
3.7k
タイミーのデータ活用を支えるdbt Cloud導入とこれから
ttccddtoki
2
1.2k
タイミーにおけるデータ活用の未来
ttccddtoki
0
300
急成長する組織を支えるデータ基盤のこれまで、これから
ttccddtoki
6
820
アジリティの高いデータ基盤を目指して
ttccddtoki
4
1.7k
DMBOKを参考にしたデータマネジメントの取り組み
ttccddtoki
6
3.1k
dbt_Cloudとdbt_Core併用の試み
ttccddtoki
3
1.5k
タイミーの未来を支えるデータ基盤プロダクト
ttccddtoki
1
980
datatech-jp Casual Talks #3
ttccddtoki
0
1.1k
Other Decks in Technology
See All in Technology
[mercari GEARS 2025] Keynote
mercari
PRO
0
190
Flutter DevToolsで発見! 本番アプリのパフォーマンス問題と改善の実践
goto_tsl
1
420
從裝潢設計圖到 Home Assistant:打造智慧家庭的實戰與踩坑筆記
kewang
0
160
技術の総合格闘技!?AIインフラの現在と未来。
ebiken
PRO
0
250
AIと共に開発する時代の組織、プロセス設計 freeeでの実践から見えてきたこと
freee
3
630
Amazon ECS デプロイツール ecspresso の開発を支える「正しい抽象化」の探求 / YAPC::Fukuoka 2025
fujiwara3
11
2k
「データ無い! 腹立つ! 推論する!」から 「データ無い! 腹立つ! データを作る」へ チームでデータを作り、育てられるようにするまで / How can we create, use, and maintain data ourselves?
moznion
7
3.9k
ソフトウェア開発現代史: 55%が変化に備えていない現実 ─ AI支援型開発時代のReboot Japan #agilejapan
takabow
2
1.9k
『HOWはWHY WHATで判断せよ』 〜『ドメイン駆動設計をはじめよう』の読了報告と、本質への探求〜
panda728
PRO
5
1.5k
手を動かしながら学ぶデータモデリング - 論理設計から物理設計まで / Data modeling
soudai
PRO
22
4.7k
コミュニティと共に変化する 私とFusicの8年間
ayasamind
0
450
明日から真似してOk!NOT A HOTELで実践している入社手続きの自動化
nkajihara
1
150
Featured
See All Featured
Writing Fast Ruby
sferik
630
62k
A Tale of Four Properties
chriscoyier
162
23k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.1k
How to train your dragon (web standard)
notwaldorf
97
6.4k
Automating Front-end Workflow
addyosmani
1371
200k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
GraphQLとの向き合い方2022年版
quramy
49
14k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
11
920
Building Flexible Design Systems
yeseniaperezcruz
329
39k
Optimising Largest Contentful Paint
csswizardry
37
3.5k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
Transcript
2023/04/11 土川稔生 データ品質を重視した データ基盤プロダクト開発 @tvtg_24 データ基盤アーキテクチャトレンド 2023 LTとパネルで学ぶ
土川 稔生 (Tsuchikawa Toshiki) • 株式会社タイミーに2020年入社 • DRE (Data Reliability
Engineering) チーム ◦ データエンジニアとしてデータ基盤プロダク トを構築 ◦ 現在はプロダクトオーナーとして、データ基 盤プロダクト作りに励む • Twitter: @tvtg_24 2 自己紹介
目次 • データ品質とは...? • タイミーのデータ品質向上のために
1 データ品質とは...???
データ利用者の期待と要求を 満たす度合い DMBOK 13章より
高品質なデータとは... データニーズA 経営に関する意思決定 • 前日分のデータを用いる • データにズレがあると意思決定を 間違い、大きな問題になる データニーズB 機械学習アルゴリズム
• リアルタイムに近いデータを用いる • データに多少誤差があっても精度 には大きな影響がない データ基盤プ ロダクト ⭕ リアルタイム性 高 データの正確性 低 リアルタイム性 低 データの正確性 高
高品質なデータとは... データニーズA 経営に関する意思決定 • 前日分のデータを用いる • データにズレがあると意思決定を 間違い、大きな問題になる データニーズB 機械学習アルゴリズム
• リアルタイムに近いデータを用いる • データに多少誤差があっても精度 には大きな影響がない データ基盤プ ロダクト ❌ リアルタイム性 高 データの正確性 高
高品質なデータとは... • あらゆるデータに対応できる最強なデータ基盤は高品質なデータを提供しているとは言えない ◦ データ利用ユーザーはそんなものは求めていない • 余分な時間と工数の投資により、大事な開発に時間が使えなくなる • 運用も辛くなり、開発チームに負担がかかる バランスが大切🥖
データの目的と提供データの品質が合致していることが大事
2 タイミーのデータ品質向上の ために
現在のデータ基盤概要
品質の高いデータ提供のために 適時性 一意性 完全性 元データが更新されてからどの くらいの遅延で分析可能になる か データに重複はないか データに欠損はないか
データ品質目標はバランスが大事 データ利用ユーザ 適時性??? データが新しければ新し いほど嬉しい データ基盤開発者 品質守るために無限労 働つらい... ちょうどいい感じのバランスを取る 必要がある
データニーズを把握し、品質を交渉していく データ利用ユーザ こういうケースで、こういう 課題を解決するためにデー タ利用をしてます データ基盤開発者 普段どのようにデータを 利用していますか? (他のユーザーも 困っていたな...
ちょっとチームで話 し合おう...) ですが現状の最新データ が少し古くて、こういう運用 の際に困っています
14 Service Level Indicator サービスの品質を守るための指標 SLI SLA SLO Service Level
Agreement SLIで定義した指標に関するサービス提供者と の契約 (破った時にどうするかなど) Service Level Objective SLIで定義した指標の具体的な目安 一般的なSLI, SLA, SLOの定義
15 Service Level Indicator データパイプラインの適時性 (データソースの更新からど のくらい遅れて転送先で実用可能になるか) SLI SLA SLO
Service Level Agreement データソースごとにデータ使用者と結ばれた適時性 に関する契約 破った場合はポストモーテムを実施 例: データソースAは1日の適時性での転送 Service Level Objective DREチーム内で決定されたデータソースごとの適 時性の目標 例: データソースAは2hourの適時性での転送 DREチームにおけるSLI, SLA, SLOの定義
SLAが定義されていると...! データ利用ユーザ データ基盤開発者 どんなデータがどんな状態 で利用可能なのかがわか りやすい! データの細かい状態まで 管理していて信頼して使え る...!!! データの品質を無理せず
守れる!! 品質を担保しながらユー ザーのためのデータ基盤 開発に時間を使える !!
まだまだ道半ばなのでお力を貸してください!!! Timee Product Org Entrance Book https://timee.notion.site/timee/Timee-Product-Org-Entrance-Book-b7380eb4f6954e29b2664fe6f5e775f9