Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して -
Search
hase-ryo
December 22, 2020
Business
0
260
水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して -
・メルカリ・メルペイのデータ分析環境の話をします
・データの品質とその未来像について知ってもらうのが目的です
・半分以上は歴史の話です。
hase-ryo
December 22, 2020
Tweet
Share
More Decks by hase-ryo
See All by hase-ryo
20231212_DataEngineeringStudy#22_デジタル庁のデータ分析基盤「sukuna」の立ち上げと発展
haseryo
1
250
20230725_データエンジニアに求められるソフトスキル
haseryo
4
5k
20230126 10X-Data-Management-for-Social-Issues Data Standards Initiatives by the Digital Agency of Japan
haseryo
1
230
20230118 kazaneya TeckTalk3 Data Standards and Open Data Initiatives by the Digital Agency of Japan
haseryo
5
5.1k
DataEngineeringStudy #12 明日から真似できる! ケース別データ可視化のノウハウ
haseryo
6
2.7k
メルカリにおけるDashboard Replacementの事例 / 20190906 Looker User Meetup Merpay
haseryo
5
50k
Concept of Data Management
haseryo
1
360
Other Decks in Business
See All in Business
GLP_SustainabilityReport_2023
glp_jp
1
370
ポートフォリオEC「ENRAI」_概要資料
booklista_nakaya
1
910
株式会社STANDARD_会社紹介資料
std2017
0
230
Manage-Up! A Guide for Product Builders to Understand and Influence Leadership
petra_wille
0
140
インキュデータ会社紹介資料
okitsu
3
31k
ELEMENTS_CULTURE DECK
hrxteam
0
1.9k
Company Introduction Slides
recruiting
0
1k
タスクブレイクダウンのすすめ / Recommendations for Task Breakdown
maca_route
1
230
一般社団法人ディレクションサポート協会(DiSA)
masakisukeda
0
360
HRBP&RPOのご紹介
masakisukeda
0
430
VANISH STANDARD Company Deck
vstandard
PRO
2
21k
Theoria technologies:About Us
theoriatec2024
1
880
Featured
See All Featured
A better future with KSS
kneath
238
17k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
27
4.2k
Gamification - CAS2011
davidbonilla
80
5k
Building Flexible Design Systems
yeseniaperezcruz
327
38k
No one is an island. Learnings from fostering a developers community.
thoeni
19
3k
Speed Design
sergeychernyshev
24
570
How GitHub (no longer) Works
holman
311
140k
Measuring & Analyzing Core Web Vitals
bluesmoon
1
40
Mobile First: as difficult as doing things right
swwweet
222
8.9k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
27
790
Teambox: Starting and Learning
jrom
132
8.7k
Build The Right Thing And Hit Your Dates
maggiecrowley
32
2.4k
Transcript
水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して - merpay data management @hase-ryo
何の話をするか ・メルカリ・メルペイのデータ分析環境の話をします ・データの品質とその未来像について知ってもらうのが目的です ・半分以上は歴史の話です。 TechTalkの息抜きとして聞いてください
Data Management Team Mission データをインフラのように使えるようにする Objective データをあんしん、あんぜん、かんたんに使えるようにする
メルカリにおけるデータ分析環境の過去・現在・未来 身近なインフラである都水道の歴史になぞらえて説明します!
江戸(1654, Tokyo) の水道事情 @Google Map 2020 多摩川→ 玉川上水 井の頭池 善福寺池
→神田上水 1590年ごろ 井の頭池、善福寺池(現在の吉祥寺あたり)を水源とする神田上水を敷設 1654年ごろ 人口増加と共に増えた水需要に対応するため、多摩川を水源とする玉川上水を敷設 →江戸の中心地で水道の水を井戸に汲み入れ、飲料水として使えるようにした
江戸(1654, Tokyo) の水道事情 水道の水で産湯を使う →誰でも水道の水を利用できる江戸生まれであることを自慢した言葉
一方、メルカリのデータ事情(〜2018) メルカリでは「データドリブンな文化」がすでに根付いていて、個人情報を除いたプロダ クト関連データが一か所に集められ、社内メンバーであれば誰でも分析できる環境が ありました。 「メルカリを“もっと”データドリブンにする、VP of Analyticsが掲げた2つのミッション」 →誰でもデータを利用できるメルカリ →mercari-apiのデータ、Client logのデータなどがBigQueryに集約
Data Analystに限らずPMやCSメンバーもBigQueryでデータを活用できる環境
明治維新後(1866 ~ )の水道事情 明治維新後、近代化&人口増加により水需要も増加 一方で木や石の水道が腐食して水質悪化 さらに1886年、コレラが流行 → 近代的な水道の需要&敷設が加速 1887年の横浜に続き、1898年に 河川の水をろ過し、鉄製の管に圧力をかけて流す近代水道が完成 →汲み上げる水道から湧き出す水道へ
1890年 水道条例の制定 「水道トハ市町村ノ住民ノ需要ニ應シ給水ノ目的ヲ以テ布設スル水道ヲ云ヒ…」 明治維新後(1866 ~ )の水道事情 →住民の給水需要に答えるものとして水道を規定。 公営化、水源の水質検査などを定めた
一方、メルカリ・メルペイのデータ事情(2019~現在) 決済サービスというセンシティブな情報を扱うこともあり、連携時に個人情報のマスキン グもできるようにしています。 メルペイにおける大規模バッチ処理 → MicroServiceアーキテクチャでのデータ分析需要に対応 > Dataplatform Team →個人情報などの情報を取らない
or パイプラインの途中でろ過して見れなくする メルカリではデータの活用が盛んな一方で、実はデータ処理を専門にやるエンジニアが最近まで存在し ておらず、そんなこんなで僕がSREチームにデータエンジニア第1号としてjoinしました(実はこのあたりは メルペイのが少し先んじていて、あっちにはすでにデータプラットフォームチームがあって、僕は今彼らと 一緒に並んでコードを書いている) GCPでStreamなデータパイプライン始めました
これからのデータ分析環境が目指す姿は・・?
1945年から1970年にかけて東京都の人口が3倍に&高度経済成長 → 水需要がさらに増加 → ダム建設による奥多摩湖の誕生、 利根川水系からの取水開始など 需要に対応する 新たなパイプラインの敷設 WW2後(1945 ~ )の水道事情 @Google
Map 2020
1957年 水道条例廃止、水道法制定 WW2後(1945 ~ )の水道事情 清浄にして豊富低廉な水の供給を図り、もつて公衆衛生の向上と生活環境の改善とに寄与すること →きれいな水を安く大量に供給して環境を改善する 水質基準、施設基準、認可基準、供給条件(供給規程)等の事業要件を規定 →提供する水の品質や供給基準を決めた
(例:蛇口から出た水の残留塩素濃度が0.1mg/L以上=衛生面の基準)
これからのメルカリ・メルペイのデータ分析環境 • 新たなデータ活用需要に対応するパイプライン敷設(CRM, AML, ML, etc..) • 十分なデータを安全に、使いやすく供給する • 提供するデータの品質基準(SLA)やモニタリング方法を決める
→DataManagementTeamは データをあんしん、あんぜん、かんたんに使えるようにするために 様々な基準やルールを作っていく =データガバナンス活動
具体的に何をやっているのか データをあんしんして使うために・・・ • 一意性(Uniqueness) • 完全性(Integrity) • 適時性(Timeliness) • 有効性(Validity)
などの機械的に判定できるデータ品質を計測するFramework導入 →Deequ - Unit Tests for Data
具体的に何をやっているのか データをあんぜんに使うために・・・ セキュリティグループの定める情報の機密レベルに即したデータ管理 • 住所氏名 • 信用情報 などのTopSecret級データを、 一般にアクセスできるデータ分析環境から取り除く →Filteringによる安全性(Security)確保
具体的に何をやっているのか データをかんたんに使うために・・・ データを説明するデータ = メタデータのプラットフォームを作成。→ dbt & 複雑なMSのデータを複数層に分けて加工、使いやすくする raw data → component層 → data_model層
その他にも必要なこと Monitoring Maintainance
東京都水道局「水道水の安定供給を支える人」 より引用 インフラとして提供できるデータを目指して
Reference • 「世界と日本の水道・下水道の起源」 • 東京水道の歴史 • 東京都水道局 • PROJECT TOEI