Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
機械学習PJのデータ収集における課題を解決する データ基盤の取組み/Efforts of da...
Search
Shoichiro Nagai(shnagai)
February 25, 2021
Technology
1
2.2k
機械学習PJのデータ収集における課題を解決する データ基盤の取組み/Efforts of data infrastructure to solve problems in data collection of machine learning PJ
コネヒトマルシェオンライン「機械学習・データ分析」の資料です
Shoichiro Nagai(shnagai)
February 25, 2021
Tweet
Share
More Decks by Shoichiro Nagai(shnagai)
See All by Shoichiro Nagai(shnagai)
テックビジョンを活用した技術戦略の実践/Implementation-of-Technology-Strategy-leveraging-Tech-Vision
shoichiron
0
20
GoでBigQueryを操作する時にStructを使うか悩んでる話/go-bigquery-struct-worries
shoichiron
1
150
AWS Step Functions × AWS SAMで実現する家族ノートの低運用コストETL基盤/ kazokunote-stepfunctions-awssam-etl
shoichiron
4
5k
ECS×Fargateで実現する運用コストほぼ0なコンテナ運用の仕組み/ ecs fargate low cost operation
shoichiron
14
18k
ママリで動くカテゴリ類推エンジンの仕組み ~機械学習導入の4つの勘所を添えて~/mamari category analogy
shoichiron
0
750
SIGNATEの練習問題コンペで 57位までスコアを上げた話/ The story of the signate competition
shoichiron
2
5.6k
AWSサービスで実現するバッチ実行環境のコンテナ/サーバレス化/ Container service of batch execution environment realized by AWS service
shoichiron
11
6.7k
Fargateは何がうれしいのか/ fargate-whats-nice
shoichiron
4
11k
コンテナ導入の正攻法〜ママリのコンテナ移行舞台裏〜/Confrontation-of-Container-Transfer
shoichiron
1
3.6k
Other Decks in Technology
See All in Technology
Microsoft の SSE の現在地
skmkzyk
0
250
【Oracle Cloud ウェビナー】ご希望のクラウドでOracle Databaseを実行〜マルチクラウド・ソリューション徹底解説〜
oracle4engineer
PRO
1
130
持続可能なドキュメント運用のリアル: 1年間の成果とこれから
akitok_
1
250
MCPが変えるAIとの協働
knishioka
1
110
AIエージェント開発手法と業務導入のプラクティス
ykosaka
9
2.5k
Terraform Cloudで始めるおひとりさまOrganizationsのすゝめ
handy
2
210
30代からでも遅くない! 内製開発の世界に飛び込み、最前線で戦うLLMアプリ開発エンジニアになろう
minorun365
PRO
16
4.9k
AIにおけるソフトウェアテスト_ver1.00
fumisuke
1
300
地味にいろいろあった! 2025春のAmazon Bedrockアップデートおさらい
minorun365
PRO
2
530
Road to Go Gem #rubykaigi
sue445
0
1k
CodePipelineのアクション統合から学ぶAWS CDKの抽象化技術 / codepipeline-actions-cdk-abstraction
gotok365
5
330
更新系と状態
uhyo
8
2.1k
Featured
See All Featured
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
23
2.7k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
12k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
14
1.4k
Product Roadmaps are Hard
iamctodd
PRO
52
11k
StorybookのUI Testing Handbookを読んだ
zakiyama
29
5.7k
Site-Speed That Sticks
csswizardry
6
520
Testing 201, or: Great Expectations
jmmastey
42
7.5k
A Tale of Four Properties
chriscoyier
158
23k
It's Worth the Effort
3n
184
28k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
4 Signs Your Business is Dying
shpigford
183
22k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.4k
Transcript
ػցֶश1+ͷσʔλऩूʹ͓͚Δ՝Λղܾ͢Δ σʔλج൫ͷऔΈ ӬҪউҰ!TIOBHBJ ίωώτϚϧγΣΦϯϥΠϯʮػցֶशɾσʔλੳʯ
ࣗݾհ ओͳ׆ಈ "84Πϯϑϥؔ࿈Ͱͷొஃ͕ଟ͘ػցֶशΠϕϯτͰͷొஃճ ίωώτΤϯδχΞϒϩάIUUQTUFDIDPOOFIJUPDPNBSDIJWFBVUIPSOBHBJT ίωώτגࣜձࣾɹςΫϊϩδʔਪਐGɹ Πϯϑϥ/σʔλɾػցֶश @shnagai ӬҪউҰ
σʔλج൫Λ࡞Δ্Ͱɺ ಛʹػցֶश1+Ͱͷར༻ʹ͋ͨΓߟ͍͑ͯΔ͜ͱΛ͠·͢ɻ
ػցֶशΛͱΓ·͘σʔλੳڥͷ՝ ۀσʔλ Ϛελʔσʔλ ߦಈϩά Aͱ͍͏՝Λղͨ͘Ίʹ ߦಈϩάͱϚελʔσʔλΛ ֻ͚߹ΘͤͯϞσϧΛ࡞Δͧʂʂ
ػցֶशΛͱΓ·͘σʔλੳڥͷ՝ ۀσʔλ Ϛελʔσʔλ ߦಈϩά σʔλ͕ͳ͍ͱԿग़དྷͳ͍ͷͰɺ ·ͣඞཁͳσʔλΛϩʔΧϧʹ࣋ͬͯ͘Δ
ػցֶशΛͱΓ·͘σʔλੳڥͷ՝ ۀσʔλ Ϛελʔσʔλ ߦಈϩά ᶆσʔλ४උऴΘͬͨͷͰ ੳͯ͠લॲཧͯ͠ϞσϦϯά͍ͯͧ͘͠ʂʂ ᶃԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর ᶄԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর
ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ੳ͍͢͠Α͏ʹpandasͰσʔλܗ
ࢼߦࡨޡͷ্ɺखݩͰྑͦ͞͏ͳϞσϧ͕ग़དྷͨʂʂ
1P$͢ΔͨΊʹຊ൪Ͱಈ͘Ϟσϧ࡞Δͧʂʂ
Ϟσϧ࡞ͷલʹఆظతͳσʔλऩू͕ඞཁ ۀσʔλ Ϛελʔσʔλ ߦಈϩά ϞσϧΛ࡞Δલʹɺ ᶃᶄᶅͷσʔλऩूͱܗ͢ΔॲཧΛॻ͍ͯ ຊ൪/stgͰಈ͔͢ඞཁ͕͋Δ… ᶃԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর ᶄԿ͔͠ΒͷखஈͰcsvμϯϩʔυ
ϥΠϒϥϦ͔Βࢀর ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ੳ͍͢͠Α͏ʹpandasͰσʔλܗ
σʔλऩूͷॲཧߟ͑Δ͜ͱ͕ଟ͍ɻɻ ۀσʔλ Ϛελʔσʔλ ߦಈϩά ͦΕͧΕͲͷݖݶͰΞΫηε͢Ε͍͍ͷ͔? ͲͷDBࢀর͢Ε͍͍ͷ͔ͳ? ऩू͕࣮֬ʹग़དྷΔΑ͏ʹΤϥʔϋϯυϦϯά͠ͳ͍ͱ େྔͷσʔλ݁߹͢Δͷʹେ͖ͳίϯϐϡʔτࢿݯ͕ඞཁ ᶃԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর
ᶄԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ੳ͍͢͠Α͏ʹpandasͰσʔλܗ
σʔλऩूͷॲཧߟ͑Δ͜ͱ͕ଟ͍ɻɻ ۀσʔλ Ϛελʔσʔλ ߦಈϩά ͦΕͧΕͲͷݖݶͰΞΫηε͢Ε͍͍ͷ͔? ͲͷDBࢀর͢Ε͍͍ͷ͔ͳ? ऩू͕࣮֬ʹग़དྷΔΑ͏ʹΤϥʔϋϯυϦϯά͠ͳ͍ͱ େྔͷσʔλ݁߹͢Δͷʹେ͖ͳίϯϐϡʔτࢿݯ͕ඞཁ ᶃԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর
ᶄԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ੳ͍͢͠Α͏ʹpandasͰσʔλܗ खݩͰ࡞ͬͨσʔλΛఆظతʹߋ৽͍͚ͨͩ͠ͳͷʹ ѹతʹߟྀ͢Δ͜ͱ͕ଟ͘πϥΠ
ࣗલͰॻ͘ͱେมͳσʔλऩूσʔλج൫Ͱٵऩ
ඞཁͳσʔλલͬͯσʔλج൫Ͱऩू ۀσʔλ Ϛελʔσʔλ ࣍ͰඞཁͳσʔλΛBigQueryʹసૹ DataLake ߦಈϩά ۀσʔλ Ϛελʔσʔλ DataMart ML͔Βࢀর͢ΔϏϡʔ
DataWarehouse ूܭσʔλ ຊ൪/stgͰͷϞσϧ࡞ ։ൃڥͰͷϞσϧ࡞
৽ͨʹσʔλऩूॲཧΛॻ͘ඞཁͳ͍ ۀσʔλ Ϛελʔσʔλ ࣍ͰඞཁͳσʔλΛBigQueryʹసૹ DataLake ߦಈϩά ۀσʔλ Ϛελʔσʔλ DataMart ML͔Βࢀর͢ΔϏϡʔ
DataWarehouse ूܭσʔλ ຊ൪/stgͰͷϞσϧ࡞ ։ൃڥͰͷϞσϧ࡞ ։ൃத
ࢦ͍ͯ͠Δະདྷ w %8)ج൫Λ͑Δ͜ͱͰػցֶश1+ʹ͓͚Δσʔλऩूͷ՝Λղܾ w .-ΤϯδχΞσʔλαΠΤϯςΟετ࠷ՁΛൃشग़དྷΔ ϞσϦϯάνϡʔχϯάʹྗ w εϐʔσΟʔʹػցֶशͷ1P$Λճͤͯ݁Ռͱͯ͠ޭ֬Λ্͛Δ
͞ΒͳΔαʔϏεͷػցֶश׆༻ͷΛݻΊΔͨΊʹ σʔλج൫Ұॹʹҭ͍ͯͯ͘ 8F`SF)JSJOH