Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して -
Search
hase-ryo
December 22, 2020
Business
0
270
水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して -
・メルカリ・メルペイのデータ分析環境の話をします
・データの品質とその未来像について知ってもらうのが目的です
・半分以上は歴史の話です。
hase-ryo
December 22, 2020
Tweet
Share
More Decks by hase-ryo
See All by hase-ryo
20231212_DataEngineeringStudy#22_デジタル庁のデータ分析基盤「sukuna」の立ち上げと発展
haseryo
2
280
20230725_データエンジニアに求められるソフトスキル
haseryo
4
5k
20230126 10X-Data-Management-for-Social-Issues Data Standards Initiatives by the Digital Agency of Japan
haseryo
1
230
20230118 kazaneya TeckTalk3 Data Standards and Open Data Initiatives by the Digital Agency of Japan
haseryo
5
5.1k
DataEngineeringStudy #12 明日から真似できる! ケース別データ可視化のノウハウ
haseryo
6
2.8k
メルカリにおけるDashboard Replacementの事例 / 20190906 Looker User Meetup Merpay
haseryo
5
51k
Concept of Data Management
haseryo
1
370
Other Decks in Business
See All in Business
NEXERA inc. | Company Deck
nexera
0
7.7k
_HP掲載用_株式会社CloudSoft会社説明資料.pdf
csmatsushita
0
1.4k
【エンジニア採用】BuySell Technologies会社説明資料
buyselltechnologies
2
55k
クロス・オペレーショングループ採用資料
xopg
2
24k
東京都教育委員会 情報共有掲示板
tokyo_metropolitan_gov_digital_hr
0
290
デジタルで創れ!未来の東京消防庁
tokyo_metropolitan_gov_digital_hr
1
320
【After】サービス紹介資料③_HP掲載用
redeslide
0
500
The AI-savvy operating model - Matthew Skelton, Conflux - Agile to Agility conference
matthewskelton
PRO
2
190
株式会社miibo|採用デック
natsumidnx
0
160
Japan Open Chain ホワイトペーパー
gugroup
0
310
Japan Open Chain White Paper
gugroup
0
260
概要
_connect
0
700
Featured
See All Featured
Optimizing for Happiness
mojombo
376
70k
Scaling GitHub
holman
458
140k
KATA
mclloyd
29
14k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
0
98
Site-Speed That Sticks
csswizardry
2
190
Faster Mobile Websites
deanohume
305
30k
[RailsConf 2023] Rails as a piece of cake
palkan
53
5k
A designer walks into a library…
pauljervisheath
204
24k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
48
2.2k
How to Ace a Technical Interview
jacobian
276
23k
Transcript
水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して - merpay data management @hase-ryo
何の話をするか ・メルカリ・メルペイのデータ分析環境の話をします ・データの品質とその未来像について知ってもらうのが目的です ・半分以上は歴史の話です。 TechTalkの息抜きとして聞いてください
Data Management Team Mission データをインフラのように使えるようにする Objective データをあんしん、あんぜん、かんたんに使えるようにする
メルカリにおけるデータ分析環境の過去・現在・未来 身近なインフラである都水道の歴史になぞらえて説明します!
江戸(1654, Tokyo) の水道事情 @Google Map 2020 多摩川→ 玉川上水 井の頭池 善福寺池
→神田上水 1590年ごろ 井の頭池、善福寺池(現在の吉祥寺あたり)を水源とする神田上水を敷設 1654年ごろ 人口増加と共に増えた水需要に対応するため、多摩川を水源とする玉川上水を敷設 →江戸の中心地で水道の水を井戸に汲み入れ、飲料水として使えるようにした
江戸(1654, Tokyo) の水道事情 水道の水で産湯を使う →誰でも水道の水を利用できる江戸生まれであることを自慢した言葉
一方、メルカリのデータ事情(〜2018) メルカリでは「データドリブンな文化」がすでに根付いていて、個人情報を除いたプロダ クト関連データが一か所に集められ、社内メンバーであれば誰でも分析できる環境が ありました。 「メルカリを“もっと”データドリブンにする、VP of Analyticsが掲げた2つのミッション」 →誰でもデータを利用できるメルカリ →mercari-apiのデータ、Client logのデータなどがBigQueryに集約
Data Analystに限らずPMやCSメンバーもBigQueryでデータを活用できる環境
明治維新後(1866 ~ )の水道事情 明治維新後、近代化&人口増加により水需要も増加 一方で木や石の水道が腐食して水質悪化 さらに1886年、コレラが流行 → 近代的な水道の需要&敷設が加速 1887年の横浜に続き、1898年に 河川の水をろ過し、鉄製の管に圧力をかけて流す近代水道が完成 →汲み上げる水道から湧き出す水道へ
1890年 水道条例の制定 「水道トハ市町村ノ住民ノ需要ニ應シ給水ノ目的ヲ以テ布設スル水道ヲ云ヒ…」 明治維新後(1866 ~ )の水道事情 →住民の給水需要に答えるものとして水道を規定。 公営化、水源の水質検査などを定めた
一方、メルカリ・メルペイのデータ事情(2019~現在) 決済サービスというセンシティブな情報を扱うこともあり、連携時に個人情報のマスキン グもできるようにしています。 メルペイにおける大規模バッチ処理 → MicroServiceアーキテクチャでのデータ分析需要に対応 > Dataplatform Team →個人情報などの情報を取らない
or パイプラインの途中でろ過して見れなくする メルカリではデータの活用が盛んな一方で、実はデータ処理を専門にやるエンジニアが最近まで存在し ておらず、そんなこんなで僕がSREチームにデータエンジニア第1号としてjoinしました(実はこのあたりは メルペイのが少し先んじていて、あっちにはすでにデータプラットフォームチームがあって、僕は今彼らと 一緒に並んでコードを書いている) GCPでStreamなデータパイプライン始めました
これからのデータ分析環境が目指す姿は・・?
1945年から1970年にかけて東京都の人口が3倍に&高度経済成長 → 水需要がさらに増加 → ダム建設による奥多摩湖の誕生、 利根川水系からの取水開始など 需要に対応する 新たなパイプラインの敷設 WW2後(1945 ~ )の水道事情 @Google
Map 2020
1957年 水道条例廃止、水道法制定 WW2後(1945 ~ )の水道事情 清浄にして豊富低廉な水の供給を図り、もつて公衆衛生の向上と生活環境の改善とに寄与すること →きれいな水を安く大量に供給して環境を改善する 水質基準、施設基準、認可基準、供給条件(供給規程)等の事業要件を規定 →提供する水の品質や供給基準を決めた
(例:蛇口から出た水の残留塩素濃度が0.1mg/L以上=衛生面の基準)
これからのメルカリ・メルペイのデータ分析環境 • 新たなデータ活用需要に対応するパイプライン敷設(CRM, AML, ML, etc..) • 十分なデータを安全に、使いやすく供給する • 提供するデータの品質基準(SLA)やモニタリング方法を決める
→DataManagementTeamは データをあんしん、あんぜん、かんたんに使えるようにするために 様々な基準やルールを作っていく =データガバナンス活動
具体的に何をやっているのか データをあんしんして使うために・・・ • 一意性(Uniqueness) • 完全性(Integrity) • 適時性(Timeliness) • 有効性(Validity)
などの機械的に判定できるデータ品質を計測するFramework導入 →Deequ - Unit Tests for Data
具体的に何をやっているのか データをあんぜんに使うために・・・ セキュリティグループの定める情報の機密レベルに即したデータ管理 • 住所氏名 • 信用情報 などのTopSecret級データを、 一般にアクセスできるデータ分析環境から取り除く →Filteringによる安全性(Security)確保
具体的に何をやっているのか データをかんたんに使うために・・・ データを説明するデータ = メタデータのプラットフォームを作成。→ dbt & 複雑なMSのデータを複数層に分けて加工、使いやすくする raw data → component層 → data_model層
その他にも必要なこと Monitoring Maintainance
東京都水道局「水道水の安定供給を支える人」 より引用 インフラとして提供できるデータを目指して
Reference • 「世界と日本の水道・下水道の起源」 • 東京水道の歴史 • 東京都水道局 • PROJECT TOEI