Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Creating a New Stream Data Pipeline on Google C...
Search
Shu Suzuki
July 19, 2019
Programming
1
3.8k
Creating a New Stream Data Pipeline on Google Cloud Platform 20190719
大量のログデータを、より効率的に、より柔軟に扱うためのパイプラインをGCP使って作った話
Shu Suzuki
July 19, 2019
Tweet
Share
More Decks by Shu Suzuki
See All by Shu Suzuki
バフェットコード株式会社 開発チームカルチャーデック
shoe116
1
220
Data & Analytics 井戸端会議 #02
shoe116
0
410
Data & Analytics 井戸端会議 #01
shoe116
1
39
財務データを題材に、 ETLとは何であるかを考える
shoe116
9
3.3k
Ruby on Railsで作る銘柄スクリーニング
shoe116
0
780
Creating Stream DataPipeline on GCP Using Apache Beam
shoe116
3
2.9k
Business Intelligence Engineer in Mercari
shoe116
0
150
Other Decks in Programming
See All in Programming
Context is King? 〜Verifiability時代とコンテキスト設計 / Beyond "Context is King"
rkaga
10
1.3k
Canon EOS R50 V と R5 Mark II 購入でみえてきた最近のデジイチ VR180 事情、そして VR180 静止画に活路を見出すまで
karad
0
130
脳の「省エネモード」をデバッグする ~System 1(直感)と System 2(論理)の切り替え~
panda728
PRO
0
100
生成AIを利用するだけでなく、投資できる組織へ
pospome
2
350
ローカルLLMを⽤いてコード補完を⾏う VSCode拡張機能を作ってみた
nearme_tech
PRO
0
100
TestingOsaka6_Ozono
o3
0
170
マスタデータ問題、マイクロサービスでどう解くか
kts
0
110
認証・認可の基本を学ぼう前編
kouyuume
0
250
モデル駆動設計をやってみようワークショップ開催報告(Modeling Forum2025) / model driven design workshop report
haru860
0
270
Deno Tunnel を使ってみた話
kamekyame
0
110
実は歴史的なアップデートだと思う AWS Interconnect - multicloud
maroon1st
0
210
堅牢なフロントエンドテスト基盤を構築するために行った取り組み
shogo4131
8
2.4k
Featured
See All Featured
Product Roadmaps are Hard
iamctodd
PRO
55
12k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
7.9k
Code Review Best Practice
trishagee
74
19k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
The Invisible Side of Design
smashingmag
302
51k
We Have a Design System, Now What?
morganepeng
54
7.9k
Raft: Consensus for Rubyists
vanstee
141
7.2k
Visualization
eitanlees
150
16k
A Tale of Four Properties
chriscoyier
162
23k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.8k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
122
21k
Transcript
1 GCPでStreamなデータパイプライン作った {“id”: “@shoe116”, “team”: “Data Platform”}
2 mercariのlog収集の歴史とマイクロサービス化 GCPでStreamなデータパイプライン作った GCPで作ったStreamなデータパイプラインの概要 AvroとDataFlowを使ったETL処理 今日のまとめ 02 03 04 01
3 - Mercari Data Platform - Stream/Batch Pipeline Developer -
Scala, Python, Java, Go, etc - Apache Beam, Kafka, Storm, Hive, Hadoop… Shu Suzuki @shoe116
4 指定された区間(data sources - data sinks)で データパイプライン? 信頼性のあるデータ処理やデータ転送を 安定的に提供する仕組み 2.
3. 1. 今回は「本番環境のlogを、DWH等の分析環境に届ける」ことを 主眼にしたデータパイプラインについて話します。
5 Mercariのlog収集の歴史と マイクロサービス化
6 既存のlog収集の仕組み モノリスのWebアプリケーションのlogをfluentdで伝搬しbatch処理
7 マイクロサービスのアーキテクチャ データパイプライン的に言うと、data-sourceが不特定多数になる ??
8 GCPで作った Streamなデータパイプラインの概要
9 メッセージ志向ミドルウェア(G製Kafka) 使っているGCPのサービス Beamで記述できる処理エンジン(G製Flink) Cloud Dataflow Cloud Pub/Sub Cloud Storage
マルチリージョナルなオブジェクトストレージ BigQuery 大量データ向けのG製DWH、GCSからも読める。
10 新しい Stream データパイプライン 各MSのRamp TopicからDataHubへ集約、GCSとBigQueryへStore
11 各MSごとに設けられたデータの投入口 各Cloud Pub/SubのTopicの役割 Rampsのデータを1つのTopicに集約したTopic Raw DataHub Ramps 構造化されたSchema付きAvroが流れるTopic Structured
DataHub
12 Raw DataHubのデータを出力するGCS bucket 各データストアの役割 Structurd Datahubのデータを出力するGCS bucket Structured DataLake
Raw DataLake Structured DataHubのデータを出力するBig Query DWH
13 AvroとDataflowを使ったETL処理
14 DataHub Avro format {"type": "record", "name": "DataHubAvro", "namespace": "com.mercari.data.model.v3",
"fields": [{ {"name": "uuid", "type": "string"}, {"name": "timestamp", "type": { "type": "long", "logicalType": "timestamp-micros" }}, {"name": "topic_name", "type": "string"}, {"name": "service_name", "type": "string"}, {"name": "log_name", "type": "string"}, {"name": "content_type", "type": ["null", "string"], "default": null}, {"name": "user_agent", "type": ["null", "string"], "default": null}, {"name": "payload","type": "bytes"} ]} } パイプラインの共通フォーマット Avroを採用した理由 - AvroはそのままGCSに書ける - AvroはそのままBQに書ける - Avro fileはBQから直接読める DataHub Avro に含まれるもの - パイプラインのdestination - Schemaの引き当て情報 - データ本体
15 Map処理でRampsからデータを読む Ramps -> Raw DataHubのETL 共通のDataHub Avro formatに変換 全レコードをRaw
DataHubにwrite T L E
16 Raw DataHubからデータを読む Raw DataHub -> Structured DataHub のETL DataHub
Avroのpayloadのbyte[]を、 構造化されたAvroに変換する T L E 全レコードをStructured DataHubにwrite
17 サービスのMS化に伴いパイプラインも進化が求められる 今日のまとめ 不特定多数のdata sourceを想定して設計、開発中 Google Cloud Pratformの各サービスとAvroを利用 We are
hiring! 02 03 04 01 https://mercari.workable.com/jobs/765272