Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して -
Search
hase-ryo
December 22, 2020
Business
0
270
水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して -
・メルカリ・メルペイのデータ分析環境の話をします
・データの品質とその未来像について知ってもらうのが目的です
・半分以上は歴史の話です。
hase-ryo
December 22, 2020
Tweet
Share
More Decks by hase-ryo
See All by hase-ryo
20231212_DataEngineeringStudy#22_デジタル庁のデータ分析基盤「sukuna」の立ち上げと発展
haseryo
2
260
20230725_データエンジニアに求められるソフトスキル
haseryo
4
5k
20230126 10X-Data-Management-for-Social-Issues Data Standards Initiatives by the Digital Agency of Japan
haseryo
1
230
20230118 kazaneya TeckTalk3 Data Standards and Open Data Initiatives by the Digital Agency of Japan
haseryo
5
5.1k
DataEngineeringStudy #12 明日から真似できる! ケース別データ可視化のノウハウ
haseryo
6
2.7k
メルカリにおけるDashboard Replacementの事例 / 20190906 Looker User Meetup Merpay
haseryo
5
51k
Concept of Data Management
haseryo
1
360
Other Decks in Business
See All in Business
【DearOne】Dear Newest Member
hrm
2
6k
建築計画概要書の電子閲覧
tokyo_metropolitan_gov_digital_hr
0
320
SmartBank - Recruiting Deck
smartbank
10
200k
G.U.Group 会社紹介資料
gugroup
0
280
ログラス会社紹介資料 新卒採用 ビジネス職[経営幹部候補]/ Loglass Company Deck
loglass2019
0
700
【metimo】「『似合う』を楽しもう。」
hinalin
0
600
エンジニア向けオープンワーク会社紹介資料 / company profile
openwork
1
17k
GovTech Express
botexpress
1
230
5 Things Every L&D Pro Should Steal From Marketing
trainlikeamarketer
0
420
UPSIDER Company Deck
upsider_official
0
77k
Nstock 採用資料 / We are hiring
nstock
26
250k
Arches 会社説明資料/ HR Deck
arches0501
0
7.5k
Featured
See All Featured
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
126
18k
Documentation Writing (for coders)
carmenintech
65
4.4k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
720
For a Future-Friendly Web
brad_frost
175
9.4k
Mobile First: as difficult as doing things right
swwweet
222
8.9k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
6.9k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.8k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
159
15k
Rails Girls Zürich Keynote
gr2m
94
13k
Visualization
eitanlees
145
15k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
25
1.8k
Fantastic passwords and where to find them - at NoRuKo
philnash
50
2.9k
Transcript
水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して - merpay data management @hase-ryo
何の話をするか ・メルカリ・メルペイのデータ分析環境の話をします ・データの品質とその未来像について知ってもらうのが目的です ・半分以上は歴史の話です。 TechTalkの息抜きとして聞いてください
Data Management Team Mission データをインフラのように使えるようにする Objective データをあんしん、あんぜん、かんたんに使えるようにする
メルカリにおけるデータ分析環境の過去・現在・未来 身近なインフラである都水道の歴史になぞらえて説明します!
江戸(1654, Tokyo) の水道事情 @Google Map 2020 多摩川→ 玉川上水 井の頭池 善福寺池
→神田上水 1590年ごろ 井の頭池、善福寺池(現在の吉祥寺あたり)を水源とする神田上水を敷設 1654年ごろ 人口増加と共に増えた水需要に対応するため、多摩川を水源とする玉川上水を敷設 →江戸の中心地で水道の水を井戸に汲み入れ、飲料水として使えるようにした
江戸(1654, Tokyo) の水道事情 水道の水で産湯を使う →誰でも水道の水を利用できる江戸生まれであることを自慢した言葉
一方、メルカリのデータ事情(〜2018) メルカリでは「データドリブンな文化」がすでに根付いていて、個人情報を除いたプロダ クト関連データが一か所に集められ、社内メンバーであれば誰でも分析できる環境が ありました。 「メルカリを“もっと”データドリブンにする、VP of Analyticsが掲げた2つのミッション」 →誰でもデータを利用できるメルカリ →mercari-apiのデータ、Client logのデータなどがBigQueryに集約
Data Analystに限らずPMやCSメンバーもBigQueryでデータを活用できる環境
明治維新後(1866 ~ )の水道事情 明治維新後、近代化&人口増加により水需要も増加 一方で木や石の水道が腐食して水質悪化 さらに1886年、コレラが流行 → 近代的な水道の需要&敷設が加速 1887年の横浜に続き、1898年に 河川の水をろ過し、鉄製の管に圧力をかけて流す近代水道が完成 →汲み上げる水道から湧き出す水道へ
1890年 水道条例の制定 「水道トハ市町村ノ住民ノ需要ニ應シ給水ノ目的ヲ以テ布設スル水道ヲ云ヒ…」 明治維新後(1866 ~ )の水道事情 →住民の給水需要に答えるものとして水道を規定。 公営化、水源の水質検査などを定めた
一方、メルカリ・メルペイのデータ事情(2019~現在) 決済サービスというセンシティブな情報を扱うこともあり、連携時に個人情報のマスキン グもできるようにしています。 メルペイにおける大規模バッチ処理 → MicroServiceアーキテクチャでのデータ分析需要に対応 > Dataplatform Team →個人情報などの情報を取らない
or パイプラインの途中でろ過して見れなくする メルカリではデータの活用が盛んな一方で、実はデータ処理を専門にやるエンジニアが最近まで存在し ておらず、そんなこんなで僕がSREチームにデータエンジニア第1号としてjoinしました(実はこのあたりは メルペイのが少し先んじていて、あっちにはすでにデータプラットフォームチームがあって、僕は今彼らと 一緒に並んでコードを書いている) GCPでStreamなデータパイプライン始めました
これからのデータ分析環境が目指す姿は・・?
1945年から1970年にかけて東京都の人口が3倍に&高度経済成長 → 水需要がさらに増加 → ダム建設による奥多摩湖の誕生、 利根川水系からの取水開始など 需要に対応する 新たなパイプラインの敷設 WW2後(1945 ~ )の水道事情 @Google
Map 2020
1957年 水道条例廃止、水道法制定 WW2後(1945 ~ )の水道事情 清浄にして豊富低廉な水の供給を図り、もつて公衆衛生の向上と生活環境の改善とに寄与すること →きれいな水を安く大量に供給して環境を改善する 水質基準、施設基準、認可基準、供給条件(供給規程)等の事業要件を規定 →提供する水の品質や供給基準を決めた
(例:蛇口から出た水の残留塩素濃度が0.1mg/L以上=衛生面の基準)
これからのメルカリ・メルペイのデータ分析環境 • 新たなデータ活用需要に対応するパイプライン敷設(CRM, AML, ML, etc..) • 十分なデータを安全に、使いやすく供給する • 提供するデータの品質基準(SLA)やモニタリング方法を決める
→DataManagementTeamは データをあんしん、あんぜん、かんたんに使えるようにするために 様々な基準やルールを作っていく =データガバナンス活動
具体的に何をやっているのか データをあんしんして使うために・・・ • 一意性(Uniqueness) • 完全性(Integrity) • 適時性(Timeliness) • 有効性(Validity)
などの機械的に判定できるデータ品質を計測するFramework導入 →Deequ - Unit Tests for Data
具体的に何をやっているのか データをあんぜんに使うために・・・ セキュリティグループの定める情報の機密レベルに即したデータ管理 • 住所氏名 • 信用情報 などのTopSecret級データを、 一般にアクセスできるデータ分析環境から取り除く →Filteringによる安全性(Security)確保
具体的に何をやっているのか データをかんたんに使うために・・・ データを説明するデータ = メタデータのプラットフォームを作成。→ dbt & 複雑なMSのデータを複数層に分けて加工、使いやすくする raw data → component層 → data_model層
その他にも必要なこと Monitoring Maintainance
東京都水道局「水道水の安定供給を支える人」 より引用 インフラとして提供できるデータを目指して
Reference • 「世界と日本の水道・下水道の起源」 • 東京水道の歴史 • 東京都水道局 • PROJECT TOEI