Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ整備の優先順位付けに役立つテクニック
Search
nagai shinya
July 11, 2023
5
2.8k
データ整備の優先順位付けに役立つテクニック
nagai shinya
July 11, 2023
Tweet
Share
More Decks by nagai shinya
See All by nagai shinya
Analytics Engineeringチームを立ち上げて学んだこと
__hiza__
4
1.7k
1日50万件貯まるクエリのログを活かして、SQLの生成に挑戦している話
__hiza__
7
1.6k
Analytics Engineeringチームの目標管理
__hiza__
62
36k
データマネジメントがちょっと楽になるBigQuery監査ログの使い方
__hiza__
0
5.1k
レガシー化したdata pipelineの廃止
__hiza__
0
980
メルカリにおける分析環境整備の取り組み
__hiza__
8
7.7k
LookerのDashboardをより柔軟に作る
__hiza__
0
1.5k
Featured
See All Featured
Docker and Python
trallard
43
3.2k
Build The Right Thing And Hit Your Dates
maggiecrowley
33
2.5k
Designing for Performance
lara
604
68k
Facilitating Awesome Meetings
lara
51
6.2k
Mobile First: as difficult as doing things right
swwweet
222
9k
Bash Introduction
62gerente
610
210k
Six Lessons from altMBA
skipperchong
27
3.6k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
3
360
The Language of Interfaces
destraynor
155
24k
Building a Scalable Design System with Sketch
lauravandoore
460
33k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
28
2.2k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
Transcript
1 σʔλඋͷ༏ઌॱҐ͚ʹཱͭςΫχοΫ 2023/07/11 Nagai Shinya (@__hiza__)
2 • ӬҪ৳ (@__hiza__) • גࣜձࣾϝϧΧϦ / BI Product Team
ॴଐ • Analystʹཱ͍ۙͰੳڥͷඋΛਐΊ͍ͯ·͢ ൃදऀ
3 σʔλඋΛߦ͏ʹ͋ͨͬͯͷ༏ઌॱҐ͚ʹཱͭςΫχοΫ • σʔλඋʹͱͬͯ༏ઌॱҐ͚ॏཁɻ • ใͷूΊํ ◦ ఆྔతͳใΛूΊΔ (ࠪϩάͷੳ) ◦
ఆੑతͳใΛूΊΔ (ώΞϦϯά) ◦ σʔλ͕ɺͲͷۀʹΘΕ͍ͯΔͷ͔? ͦͷۀͲΕ͘Β͍ॏཁͳͷ͔? ࠓͷςʔϚ
4 ϝϧΧϦͷσʔλ׆༻ঢ়گ ར༻ऀ͕ଟ͘ɺ༻్͕෯͍ ར༻ऀ 900໊+ / ݄ σʔληοτ 1500+ ༻్
σʔλੳɺMLɺϚʔέςΟϯάɺΧελϚʔα ϙʔτͳͲ ͪͳΈʹج൫ͱͯ͠BigQuery / dbt / LookerͳͲΛ༻ɻ
5 σʔλඋͷ՝ : ༏ઌॱҐͷඞཁੑ • ࣮ࢪ͍ͨ͠උ ◦ ੳ͍͢͠தؒςʔϒϧ࡞ΓɺLookerͷඋɺσʔλʹର͢ΔςετɺσʔλΧλϩά Λ࡞ΓࠐΉ etc…
• Ϧιʔεͷ੍ ◦ 900໊×1500σʔληοτʹରͯ͠ҰʹඋͰ͖ͳ͍ɻ ◦ ࡞ͬͨͷʹϝϯςφϯε͕͏ͷͰɺશͯʹରͯ͠උΛߦ͏͖Ͱແ͍ɻ ◦ ༏ઌॱҐ͚͕ඞཁɻ શͯͷςʔϒϧΛҰʹඋ͢Δ͜ͱͰ͖ͳ͍ͨΊ༏ઌॱҐ͚͕ඞཁ
6 • ࣄྫ : Looker Explorerͷඋ ◦ ಛʹॏཁͳ4ͭͷfactςʔϒϧʹରͯ͠Looker ExploreΛඋɻ ◦
1500+σʔληοτͷதͰͨͬͨ4ͭɻ • 4ͭͷfactςʔϒϧ͕ͩར༻֦େ ◦ ؒͰར༻Ϣʔβʔ͕40໊ɺ30νʔϜ΄Ͳʹɻ ◦ είʔϓΛߜͬͯͪΌΜͱʹཱͬͯΔɻ ༏ઌॱҐ͚ͷࣄྫ దͳ༏ઌॱҐ͚σʔλඋͷίετΛܶతʹݮΒͯ͘͠ΕΔ
7 1. ఆྔతͳใΛूΊΔ (audit logͷੳ) ◦ ςʔϒϧ͝ͱʹԿਓ͕ɺԿճ͘Β͍ࢀরͨ͠ͷ͔ௐΔɻ ◦ ॴଐνʔϜใͱͷΫϩεूܭɻ 2.
ఆੑతͳใΛूΊΔ (ࣾͷώΞϦϯά) ◦ σʔλΛͬͯԿΛ͍ͯ͠Δͷ͔ฉ͖औΔɻ ◦ ར༻ྔগͳ͍͕ॏཁͳϢʔεέʔεΛฉ͖औΔɻ 3. ༏ઌॱҐΛ͚Δ ◦ ͲͷσʔλΛ୭͕Կʹ͍ͬͯΔͷ͔ɺͲ͏͍͏Ռʹ݁ͼ͍͍ͭͯΔͷ͔ཧ → ༏ઌॱҐΛܾΊΔɻ ༏ઌॱҐ͚ͷେ·͔ͳεςοϓ ϩάௐࠪɺώΞϦϯάͰใΛूΊɺձࣾશମͷ༏ઌΛݩʹ༏ઌॱҐ͚
8 ఆྔใͷੳᶃ ςʔϒϧຖͷඃࢀরྔͷௐࠪˠ୯७ʹར༻ྔ͕ଟ͍ςʔϒϧ͕͔Δ ࠪϩά (BigQueryͷjobs_by_organizationͳͲ)͔Βɺςʔ ϒϧ͝ͱͷඃࢀরྔΛௐΔɻ ϝϧΧϦͷ߹ɺBQϢʔβʔͷ1ׂҎ্͕ࢀর͢Δςʔϒϧ 1500σʔληοτͷ40ςʔϒϧ΄Ͳʹ͗͢ͳ͔ͬͨɻ
9 ఆྔใͷੳᶄ ॴଐใͱͷΫϩεूܭˠಛఆͷνʔϜʹͱͬͯྑ͘͏σʔλ͕͔Δ ͋Δςʔϒϧʹରͯ͠ɺॴଐνʔϜ͝ ͱʹɺΞΫηεͨ͠ྻͷใΛௐࠪɻ ҹͷྻʮଞͷνʔϜ͋·Γͬ ͯͳ͍͕Team D͚ͩྑ͍ͬͯ͘ Δʯࣄ͕͔Δɻ શମͷྔ͔Βݟ͑ͳ͔ͬͨॏཁੑ͕
ݟ͑ͯ͘Δɻ
10 ఆੑใͷੳᶃ ࣮ࡍͷར༻ऀͷฉ͖औΓˠྔগͳ͍͕ॏཁͳϢʔεέʔεͷѲ • ฉ͖औΓͷେ·͔ͳྲྀΕ ◦ ఆྔใ͔ΒɺσʔλΛར༻͍ͯ͠ΔओͳνʔϜΛϦετΞοϓɻ ◦ ͦΕͧΕͷνʔϜʹରͯ͠ώΞϦϯάΛߦͬͯใΛ·ͱΊΔɻ •
ώΞϦϯάͷ༰ ◦ ྔগͳ͍͚Ͳॏཁͳ༻్Λฉ͖औΔɻ ▪ ྫ : 2໊͔ͬͯ͠ͳ͍͠ɺ1࢛ظʹ1ճ͔͍ͬͯ͠ͳ͍͕ɺܾࢉൃදʹඞཁͳ KPIΛूܭ͍ͯ͠Δɻ
11 searchϩάͱߪങϩάΛඥ ͚ͮͯੳ͍ͯ͠Δɻ ఆੑใͷੳᶄ • σʔλͰͲΜͳۀΛ͍ͯ͠Δͷ͔? ͦͷۀձࣾશମͷՌʹͲ͏݁ͼ͍͍ͭͯΔͷ͔ฉ͖औΔɻ ࣮ࡍͷར༻ऀͷฉ͖औΓˠϢʔεέʔεͱతͷௐࠪ σʔλ ۀ
Ռ searchͷΞϧΰϦζϜมߋ ͰߪങCVR͕ͲΕ͘Β͍ม ΘΔ͔ABςετ͍ͨ͠ɻ ཉ͍͕͠ݟ͔ͭΓ͢ ͘ͳΔ͜ͱͰɺ͓٬͞· ങ͍͕͘͢͠ͳΔ͠ɺ ձࣾͷऩӹ্͕͢Δɻ ྫ ʮͰɺऩӹͷ্ͱ͍͏؍Ͱ Ͳͷۀͷσʔλͷඋ͕࠷ޮ Ռతͳͷ͔?ʯͱൺֱͰ͖Δɻ ۀ͕ࢦ͍ͯ͠ΔՌ(త)·Ͱ Ѳͯ͠͡Ίͯ༏ઌॱҐ͚͕ Մೳʹɻ
12 ՌΛஅ͢Δ࣌ʹཱͭࢹ • ʮՌ৫ͷ֎෦ʹ͔͋͠Γ͑ͳ͍ʯby ϐʔλʔɾυϥοΧʔ ◦ ސ٬Ձ͕࣮ݱ͢Δͷձࣾͷ֎ɺࣄۀརӹ͕࣮ݱ͢Δͷձࣾͷ֎ɻ ◦ ձࣾͷ֎ʹ·ͰΠϯύΫτ͕ग़ͤͯॳΊͯʮՌʯ ◦
ͦͷσʔλΛඋ͢Δ͜ͱͰɺۀʹͲ͏ཱ͔ͭ? ͚ͩͰͳ͘ɺͦͷۀ͕ྑ͘ͳΔ͜ ͱͰɺձࣾͷ֎ʹͲΜͳΠϯύΫτΛग़ͤΔ͔? ͱ͍͏ࢹ͕େࣄɻ ͦͷۀʹऔΓΉ͜ͱͰɺձࣾͷ֎ʹͲΜͳΠϯύΫτ͕ग़ͤΔ͔?
13 • σʔλΛඋ͢Δʹ͋ͨͬͯ༏ઌॱҐ͚͕ඞཁɻ • ͦͷͨΊʹࠪϩάͷੳͱώΞϦϯάཱ͕ͭɻ ◦ ࠪϩά ▪ ୯७ʹར༻ྔ͕ଟ͍Ϣʔεέʔε͕͔Δɻ ▪
ͩΕʹώΞϦϯάʹߦ͘ͱྑͦ͞͏͔͋ͨΓ͕͘ɻ ◦ ώΞϦϯά ▪ ྔʹදΕ͍ͯͳ͍ॏཁͳϢʔεέʔε͕͔Δɻ ▪ ͦΕͧΕͷσʔλΛͲΜͳۀʹ͍ͬͯΔͷ͔͔Δɻ • ༏ઌॱҐΛܾΊΔ ◦ ʮσʔλˠۀˠՌʯͷྲྀΕΛཧղͯ͠͡Ίͯ༏ઌॱҐ͕ܾΊΒΕΔΑ͏ʹͳΔɻ ◦ σʔλͷඋ͢Δਓɺձ͕࣮ࣾݱ͖͢ՌԿ͔? Λ͍ɺܾΊΔඞཁ͕͋Δɻ ·ͱΊ