Upgrade to Pro — share decks privately, control downloads, hide ads and more …

レガシー化したdata pipelineの廃止

nagai shinya
December 13, 2021
960

レガシー化したdata pipelineの廃止

データ基盤に制限なくデータセットを追加して行けば、運用コストは際限なく膨らんでいきます。
そこで必要になるのが、不要になったデータセットの廃止です。
この発表では、株式会社メルカリにおいて日次の利用者が150名以上居たデータセットをどのように廃止したのか事例を紹介します。

Data Engineering Study #11で発表しました。
https://forkwell.connpass.com/event/226276/

Link
* [meety] https://meety.net/matches/OxHNFIEoIlJk
* [twitter] https://twitter.com/__hiza__
* [blog記事] https://note.com/mercari_data/n/n09145e3f4740
* [job description] https://mercari.wd3.myworkdayjobs.com/ja-JP/mercari_external/job/Roppongi/Data-Analyst--Architect_JR-000000188-4?source=APPLICANT_SOURCE-3-150

nagai shinya

December 13, 2021
Tweet

Transcript

  1. 2 • ӬҪ৳໻ (@__hiza__ ) • גࣜձࣾϝϧΧϦ / Analytics Infra

    ॴଐ • Analystʹཱ͍ۙ৔Ͱ෼ੳ؀ڥͷ੔උΛਐΊ͍ͯ·͢ ൃදऀ
  2. 6 ͳͥഇࢭͰ͖ͳ͔͔ͬͨ? • ࠶ݱࠔ೉ͳσʔλ ◦ σʔλΛՃ޻ͭͭ͠BigQueryʹΞοϓϩʔυɻՃ޻ͷϩδοΫ͕෼͔Βͳ͍ ◦ Batch͕ಈ࡞͢ΔλΠϛϯάʹґଘͨ͠σʔλ
 • ۀ຿ͱ͍͏ݟ͑ͳ͍ґଘؔ܎

    ◦ ͦͷσʔλʹґଘͨ͠KPI / ۀ຿͕͋Δ ◦ σʔλͷར༻ऀ͕ଟ͍ (150໊/೔ ) ➡ ഇࢭ΋ҡ࣋΋ࠔ೉ͳ൘ڬΈ͕ੜ·ΕΔ
 ͜ΕΛ”ϨΨγʔԽͨ͠data pipeline” ͱশ͍ͯ͠·͢
  3. 7 • ඞཁͳͷ͸ ňٕज़తʹແཧ͕ͳ͘ɺۀ຿্े෼ͳ࢓༷ʼn ◦ ୯ʹٕज़తʹγϯϓϧͳ࢓༷͸ɺۀ຿తʹड͚ೖΕΒΕͳ͔ͬͨ ◦ ٕज़ͱۀ຿ͷτϨʔυΦϑΛߟྀͨ͠࢓༷͕ඞཁ
 • ňσʔλʼn

    ͱ ň଍ʼn Ͱղ͖໌͔͢ ◦ BigQueryͷjob historyΛ෼ੳͯ͠ར༻ऀΛಛఆ (σʔλ ) ◦ ώΞϦϯάΛ௨ͨ͡ۀ຿ཧղ (଍) Ͳ͏΍ͬͯഇࢭͨ͠ͷ͔? ᶃ
  4. 9 • ഇࢭʹ͸ଟେͳίετֻ͕͔Δ • ݹ͍data pipelineΛഇࢭͨ݁͠ՌԿ͕ಘΒΕΔͷ͔ ? ◦ ӡ༻ίετͷ௿ݮ ←

    ଌΓΑ͏͕͋Δ ◦ ো֐ൃੜʹΑΔۀ຿ఀࢭϦεΫͷ௿ݮ ← ఆྔԽ͠ʹ͍͘ • ޙ೔ஊ ◦ ར༻ऀ͕΄΅0ਓʹͳͬͨλΠϛϯάͰো֐ൃੜ ◦ ԾʹഇࢭͷऔΓ૊ΈΛਐΊ͍ͯͳ͔ͬͨΒ૬౰ʹେ͖ͳӨڹ͕ग़͍ͯͨ ➡ ޮՌ͕ఆྔԽ͠ʹ͍͘ ≠ ޮՌ͕௿͍
 ݟੵ΋Γ͕ग़དྷͳͯ͘΋΍Δ΂͖ࣄ͸΍ͬͨํ͕ྑ͍ औΓ૊Έͷҙٛ