Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データサイエンス100本ノック(構造化データ加工編) No1~40までをSQLで書いてみて
Search
wakama1994
June 21, 2022
Programming
0
190
データサイエンス100本ノック(構造化データ加工編) No1~40までをSQLで書いてみて
社内のML技術情報共有会
wakama1994
June 21, 2022
Tweet
Share
More Decks by wakama1994
See All by wakama1994
ド文系だった私が、 KaggleのNCAAコンペでソロ金取れるまで
wakamatsu_takumu
2
1.6k
Kaggleの歩き方-関西Kaggler会に参加してみて-
wakamatsu_takumu
2
560
BQで天気基盤をつくって、役立つ情報を可視化してみた!
wakamatsu_takumu
4
1.2k
「データモデリング実践入門」は20年経っても色あせない
wakamatsu_takumu
3
1.2k
いろんな可視化ツールあるけどggplotて何がいいの?- 複数ツールで比較してみた!-
wakamatsu_takumu
1
1.5k
文系出身でも「アルゴリズム×数学」はスッキリ理解できた!話
wakamatsu_takumu
0
560
ChatGPTにどんなときRを使えばいいか聞いてみた!
wakamatsu_takumu
0
700
A/Bテスト実践ガイド ~真のデータドリブンへ至る信用できる実験とは~
wakamatsu_takumu
1
1.5k
EBImageを用いたVR画像の変化域抽出と生態系への活用.pdf
wakamatsu_takumu
0
400
Other Decks in Programming
See All in Programming
オフライン対応!Flutterアプリに全文検索エンジンを実装する @FlutterKaigi2025
itsmedreamwalker
1
140
HTTPじゃ遅すぎる! SwitchBotを自作ハブで動かして学ぶBLE通信
occhi
0
230
OSS開発者の憂鬱
yusukebe
5
2.5k
知られているようで知られていない JavaScriptの仕様 4選
syumai
0
350
CSC509 Lecture 13
javiergs
PRO
0
240
AI駆動開発カンファレンスAutumn2025 _AI駆動開発にはAI駆動品質保証
autifyhq
0
150
Functional Calisthenics in Kotlin: Kotlinで「関数型エクササイズ」を実践しよう
lagenorhynque
0
110
PyCon mini 東海 2025「個人ではじめるマルチAIエージェント入門 〜LangChain × LangGraphでアイデアを形にするステップ〜」
komofr
3
910
例外処理を理解して、設計段階からエラーを見つけやすく、起こりにくく #phpconfuk
kajitack
12
5.7k
SUZURIの規約違反チェックにおけるクリエイタフィードバックの試⾏錯誤/Trial and Error in Creator Feedback for SUZURI's Terms of Service Violation Checks
ae14watanabe
1
140
問題の見方を変える「システム思考」超入門
panda_program
0
190
Promise.tryで実現する新しいエラーハンドリング New error handling with Promise try
bicstone
2
120
Featured
See All Featured
Thoughts on Productivity
jonyablonski
73
4.9k
Scaling GitHub
holman
463
140k
Embracing the Ebb and Flow
colly
88
4.9k
How STYLIGHT went responsive
nonsquared
100
5.9k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
Making the Leap to Tech Lead
cromwellryan
135
9.6k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
192
56k
4 Signs Your Business is Dying
shpigford
186
22k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.7k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Mobile First: as difficult as doing things right
swwweet
225
10k
BBQ
matthewcrist
89
9.9k
Transcript
データサイエンス100本ノック(構造化データ加工編) No1~40までをSQLで書いてみて Machine learning 技術情報共有会 Takumu Wakamatsu Date 2022.06.21
取り組んだ理由 最近仕事でGoogle Data portalを活用した案件を担当 ➢ Data portalとの連携上、Google Big Queryを活用する機会も増えた ➢
pythonに比べ使いやすいケースも結構ある ➢ その一方、複雑な処理になると、コーディングが難しい • SQLの練習ができつつも、その他の言語との比較をして、適切なタイミング でBig Queryを使えるようになりたい!
本書に関して 2020年にデータサイエンティスト協会 が、GitHub上に公開 2022年の1月にソシム社から「データサ イエンス100本ノック構造化データ加工編ガイ ドブックが発売され、こちらを購入し て、実施中 https://digitalpr.jp/r/39499
構成と進捗 https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess/blob/master/docker/doc/100knocks_guide.pdf 6/12(日)から初めて、1〜40まで実施(No7の途中まで、疲れてできない日もあり) →SQLのみで実施(解答見るときに、pythonコードもたまにみてる)
構築したい方は以下で https://github.com/The-Japan-DataScientist-Society/100knocks -preprocess/blob/master/docker/doc/100knocks_guide.pdf
実際やってみて
感想 • 基礎統計量(最大、平均とか)をサクッと出す分には、SQLの方が書きやすい • 一方、複雑な結合とかに当たると、SQLの場合サブクエリが長くなったり、連 携がやりにくかったりするので、記述量が多くなるので、python(で実装され ているpandasの処理)の方が良さげ • 趣味程度にやる分だと、楽しい •
Dockerの環境に触れられるので、知見が広がった
SQLが楽な場合 SQL python S-024: レシート明細データ(receipt)に対し、顧客ID(customer_id)ごとに最も新しい売上年月日(sales_ymd)を求め、10件表示せよ。
SQLが面倒な場合 SQL python P-038: 顧客データ(df_customer)とレシート明細データ(df_receipt)から、顧客ごとの売上金額合計を求め、10件表示せよ。ただし、売上実績がない 顧客については売上金額を0として表示させること。また、顧客は性別コード(gender_cd)が女性(1)であるものを対象とし、非会員(顧客IDが"Z"から 始まるもの)は除外すること。
今後に関して 本書に関して • 6月末を目処に、SQLに関して、100問全てやり切るのを目標 • 実務で使える場面も多いので、サンプルコードで蓄積しておきたい(特に基 礎統計量のあたりとかは) • 暇なので、オラクルのSQLがらみの検定とかは受けてみたい(ただし、お金が高 い)
実務で使いたい方(参考) データベースの構築は厳しいと思うので、 Google Big Queryが個人的にはオススメ • csvがローカルからのアップロードが可能 な他、S3やドライブからもアップロード 可能 •
社内だと、csvデータの処理が現状多いで すが、サクッとデータ切り出したい時は pythonよりは楽(と思う) ◦ ただしカラム表記が日本語対応していないの が、欠点 uery-create-table-by-local-file-upload/