Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Business Intelligence Engineer in Mercari
Search
Shu Suzuki
May 29, 2019
Programming
170
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Business Intelligence Engineer in Mercari
2018年12月から、BI組織の技術側面をリードする専属データエンジニアの募集用資料
https://mercari.connpass.com/event/130642/
Shu Suzuki
May 29, 2019
More Decks by Shu Suzuki
See All by Shu Suzuki
SaaSがこの先生きのこるには #1 オープニング資料
shoe116
0
33
AI時代にデータを売る SaaSの生存戦略を語る
shoe116
2
600
バフェットコード株式会社 開発チームカルチャーデック
shoe116
1
1.3k
Data & Analytics 井戸端会議 #02
shoe116
0
570
Data & Analytics 井戸端会議 #01
shoe116
1
74
財務データを題材に、 ETLとは何であるかを考える
shoe116
9
3.8k
Ruby on Railsで作る銘柄スクリーニング
shoe116
0
1k
Creating Stream DataPipeline on GCP Using Apache Beam
shoe116
3
3k
Creating a New Stream Data Pipeline on Google Cloud Platform 20190719
shoe116
1
3.9k
Other Decks in Programming
See All in Programming
AI時代のUIはどこへ行く?その2!
yusukebe
21
7.1k
Go1.27で導入されるジェネリクスメソッドでできること
mackee
0
110
脅威をエンジニアリングの糧にして――現場編 / Turning Threats into Engineering Fuel — Field Edition
nrslib
0
270
運用エージェントは "作る" から "育てる" へ - 記憶と自己進化の3層設計パターン / self-evolving-agents-three-layer-agent-design
gawa
12
3.6k
コンテキストの使い捨てをやめる — ビジネスルール駆動開発と miko —
ioki
0
190
Spec Driven Development | AI Summit Lisbon
danielsogl
PRO
0
190
TypeScript+Orvalで実現する型安全かつ堅牢でスケーラブルなマルチチャネル通知基盤 / TSKaigi Night talks ~after conference~
d0riven
0
330
TSKaigi Night Talks 2026_TypeScriptでサプライチェーンの整合性を型に閉じ込める
geekplus_tech
0
340
Inside Stream API
skrb
1
700
Datadog × OpenTelemetry 入門と実践のあいだ
kn_to_maxpno
1
150
RTSPクライアントを自作してみた話
simotin13
0
600
過去最大のMCPアップデート! 2026-07-28 RC版の謎に迫る
licux
6
270
Featured
See All Featured
Skip the Path - Find Your Career Trail
mkilby
1
150
Visualization
eitanlees
152
17k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
2k
Principles of Awesome APIs and How to Build Them.
keavy
128
18k
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
1.4k
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
420
Everyday Curiosity
cassininazir
0
230
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
2
1.5k
Rebuilding a faster, lazier Slack
samanthasiow
85
9.5k
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
770
GitHub's CSS Performance
jonrohan
1033
470k
Java REST API Framework Comparison - PWX 2021
mraible
34
9.4k
Transcript
1 Confidential - Do Not Share mercariのデータパイプライン開発 {“id”: “@shoe116”, “team”:
“SRE/Data Processing”}
2 Confidential - Do Not Share mercariのデータパイプラインの歴史 mercariのデータパイプライン開発 Streamなデータパイプライン Batchなデータパイプライン
今日のまとめ 02 03 04 01
3 Confidential - Do Not Share - Mercari SRE -
Stream/Batch Pipeline Developer - Scala, Python, Java, Go, etc - Apache Beam, Kafka, Hadoop… Shu Suzuki @shoe116
4 Confidential - Do Not Share 指定された区間(data sources - data
sinks)で データパイプライン? 信頼性のあるデータ処理やデータ転送を 安定的に提供する仕組み 2. 3. 1. 今回は「本番環境のデータを、DWH等の分析環境に届ける」ことを 主眼にしたデータパイプラインについて話します。
5 Confidential - Do Not Share mercariのデータパイプラインの歴史
6 Confidential - Do Not Share 既存のStreamデータパイプライン モノリスのWebアプリケーションのlogをfluentdで伝搬しbatch処理
7 Confidential - Do Not Share 既存のbatchデータパイプライン ProductionのMySQLを匿名化した、ReadReplicaを経由してBigQuery Production DB-1
slaves DB-1 backup DB-1 master DB-2 slaves DB-2 backup DB-2 master DB-3 slaves DB-3 backup DB-3 master anon-db active anon-db standby anon-db batch multi-source replication
8 Confidential - Do Not Share マイクロサービス化とデータパイプライン
9 Confidential - Do Not Share マイクロサービスのアーキテクチャ データパイプライン的に言うと、data-sourceが不特定多数になる ??
10 Confidential - Do Not Share 新しい Stream データパイプライン 各MSのRamp
TopicからDataHubへ集約、スキーマ変換してBigQueryへ
11 Confidential - Do Not Share 新しい batch データパイプライン 各MSのデータストアからAvro
Fileをdump、集約してBigQueryへ
12 Confidential - Do Not Share サービスのMS化に伴いパイプラインも進化が求められる 今日のまとめ 不特定多数のdata sourceを想定して設計、開発中
Google Cloud Pratformのマネージドサービスを活用 We are hiring! 02 03 04 01