Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Business Intelligence Engineer in Mercari
Search
Shu Suzuki
May 29, 2019
Programming
0
160
Business Intelligence Engineer in Mercari
2018年12月から、BI組織の技術側面をリードする専属データエンジニアの募集用資料
https://mercari.connpass.com/event/130642/
Shu Suzuki
May 29, 2019
Tweet
Share
More Decks by Shu Suzuki
See All by Shu Suzuki
AI時代のSaaSとETL
shoe116
1
150
バフェットコード株式会社 開発チームカルチャーデック
shoe116
1
570
Data & Analytics 井戸端会議 #02
shoe116
0
480
Data & Analytics 井戸端会議 #01
shoe116
1
58
財務データを題材に、 ETLとは何であるかを考える
shoe116
9
3.5k
Ruby on Railsで作る銘柄スクリーニング
shoe116
0
890
Creating Stream DataPipeline on GCP Using Apache Beam
shoe116
3
2.9k
Creating a New Stream Data Pipeline on Google Cloud Platform 20190719
shoe116
1
3.9k
Other Decks in Programming
See All in Programming
文字コードの話
qnighy
44
17k
PostgreSQL を使った快適な go test 環境を求めて
otakakot
0
550
go directiveを最新にしすぎないで欲しい話──あるいは、Go 1.26からgo mod initで作られるgo directiveの値が変わる話 / Go 1.26 リリースパーティ
arthur1
2
550
20260315 AWSなんもわからん🥲
chiilog
2
150
AI時代でも変わらない技術コミュニティの力~10年続く“ゆるい”つながりが生み出す価値
n_takehata
2
750
Understanding Apache Lucene - More than just full-text search
spinscale
0
120
CS教育のDX AIによる育成の効率化
niftycorp
PRO
0
120
TipKitTips
ktcryomm
0
170
Vuetify 3 → 4 何が変わった?差分と移行ポイント10分まとめ
koukimiura
0
140
Claude Codeログ基盤の構築
giginet
PRO
7
3.3k
AI Assistants for Your Angular Solutions
manfredsteyer
PRO
0
140
DevinとClaude Code、SREの現場で使い倒してみた件
karia
1
1.1k
Featured
See All Featured
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
199
73k
Agile that works and the tools we love
rasmusluckow
331
21k
Building Applications with DynamoDB
mza
96
7k
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.2k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
0
160
The Curious Case for Waylosing
cassininazir
0
270
Are puppies a ranking factor?
jonoalderson
1
3.1k
Leo the Paperboy
mayatellez
4
1.5k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.7k
4 Signs Your Business is Dying
shpigford
187
22k
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
150
Un-Boring Meetings
codingconduct
0
220
Transcript
1 Confidential - Do Not Share mercariのデータパイプライン開発 {“id”: “@shoe116”, “team”:
“SRE/Data Processing”}
2 Confidential - Do Not Share mercariのデータパイプラインの歴史 mercariのデータパイプライン開発 Streamなデータパイプライン Batchなデータパイプライン
今日のまとめ 02 03 04 01
3 Confidential - Do Not Share - Mercari SRE -
Stream/Batch Pipeline Developer - Scala, Python, Java, Go, etc - Apache Beam, Kafka, Hadoop… Shu Suzuki @shoe116
4 Confidential - Do Not Share 指定された区間(data sources - data
sinks)で データパイプライン? 信頼性のあるデータ処理やデータ転送を 安定的に提供する仕組み 2. 3. 1. 今回は「本番環境のデータを、DWH等の分析環境に届ける」ことを 主眼にしたデータパイプラインについて話します。
5 Confidential - Do Not Share mercariのデータパイプラインの歴史
6 Confidential - Do Not Share 既存のStreamデータパイプライン モノリスのWebアプリケーションのlogをfluentdで伝搬しbatch処理
7 Confidential - Do Not Share 既存のbatchデータパイプライン ProductionのMySQLを匿名化した、ReadReplicaを経由してBigQuery Production DB-1
slaves DB-1 backup DB-1 master DB-2 slaves DB-2 backup DB-2 master DB-3 slaves DB-3 backup DB-3 master anon-db active anon-db standby anon-db batch multi-source replication
8 Confidential - Do Not Share マイクロサービス化とデータパイプライン
9 Confidential - Do Not Share マイクロサービスのアーキテクチャ データパイプライン的に言うと、data-sourceが不特定多数になる ??
10 Confidential - Do Not Share 新しい Stream データパイプライン 各MSのRamp
TopicからDataHubへ集約、スキーマ変換してBigQueryへ
11 Confidential - Do Not Share 新しい batch データパイプライン 各MSのデータストアからAvro
Fileをdump、集約してBigQueryへ
12 Confidential - Do Not Share サービスのMS化に伴いパイプラインも進化が求められる 今日のまとめ 不特定多数のdata sourceを想定して設計、開発中
Google Cloud Pratformのマネージドサービスを活用 We are hiring! 02 03 04 01