Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DuckDBを使ってみたら分析プロジェクトが動き出した
Search
ふくすけ
April 25, 2025
Programming
7
1.6k
DuckDBを使ってみたら分析プロジェクトが動き出した
2025/04/25 めぐろLT #26 「データエンジニアリングよもやま」
ふくすけ
April 25, 2025
Tweet
Share
More Decks by ふくすけ
See All by ふくすけ
TypeSpecで実現する辛くないOpenAPIスキーマ駆動開発
tonegawa07
0
47
構造化・自動化・ガードレール - Vibe Coding実践記 -
tonegawa07
0
200
Other Decks in Programming
See All in Programming
DockerからECSへ 〜 AWSの海に出る前に知っておきたいこと 〜
ota1022
5
1.8k
画像コンペでのベースラインモデルの育て方
tattaka
3
1.9k
Claude Codeで実装以外の開発フロー、どこまで自動化できるか?失敗と成功
ndadayo
2
1.4k
STUNMESH-go: Wireguard NAT穿隧工具的源起與介紹
tjjh89017
0
390
The Past, Present, and Future of Enterprise Java
ivargrimstad
0
180
CSC305 Summer Lecture 12
javiergs
PRO
0
130
LLMOpsのパフォーマンスを支える技術と現場で実践した改善
po3rin
8
990
250830 IaCの選定~AWS SAMのLambdaをECSに乗り換えたときの備忘録~
east_takumi
0
230
コーディングは技術者(エンジニア)の嗜みでして / Learning the System Development Mindset from Rock Lady
mackey0225
2
580
UbieのAIパートナーを支えるコンテキストエンジニアリング実践
syucream
2
730
エンジニアのための”最低限いい感じ”デザイン入門
shunshobon
0
130
兎に角、コードレビュー
mitohato14
0
150
Featured
See All Featured
Measuring & Analyzing Core Web Vitals
bluesmoon
9
570
Become a Pro
speakerdeck
PRO
29
5.5k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.6k
VelocityConf: Rendering Performance Case Studies
addyosmani
332
24k
Embracing the Ebb and Flow
colly
87
4.8k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.6k
Balancing Empowerment & Direction
lara
2
590
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
Typedesign – Prime Four
hannesfritz
42
2.8k
Into the Great Unknown - MozCon
thekraken
40
2k
Mobile First: as difficult as doing things right
swwweet
223
9.9k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
Transcript
DuckDBを使ってみたら 分析プロジェクトが動き出した ふくすけ (@tonegawa07) 2025/04/25 | めぐろLT 1
自己紹介 ふくすけ (@tonegawa07) スタークス株式会社 仕事: Engineer 主戦場はバックエンド Ruby on Rails,
TypeScript(Node.js) 趣味: サッカー観戦 (Jサポ) 2025/04/25 | めぐろLT 2
自社プロダクトの成果指標を計測したい 指標が決まっているわけではなく、まず仮説を出す必要がある 仮説は出たが、データソースは複数 データレイクやDWHに一元化されておらず、気軽に分析できない 2025/04/25 | めぐろLT 3
とりあえず検証結果を出したい 仮説段階でETLパイプラインを作り込むわけにもいかず、 とりあえずRawデータをJSONやCSVでストレージに置いて手を動かしてみることに 2025/04/25 | めぐろLT 4
分析どうしよう Python (pandas) データフレームを扱う 一通り触ったことはある 忘れた R (dplyr) データフレームを扱う 学生時代めっちゃ使ってた
忘れた 2025/04/25 | めぐろLT 5
SQLで考えたほうが楽かも Python (pandas) で始めてみたものの、 、 、 出したい数字が出せているのか? LLMの出力が合っているのか? ちょっとデータ出力想定と違うけどどこがおかしいんだ? SQLで出してくれれば判断できるんだけどな〜
2025/04/25 | めぐろLT 6
DuckDB https://duckdb.org OLAP(オンライン分散処理)分析に特化した組み込み型DBMS SQLiteのOLAP版のイメージ CSV、JSON、Parquet、Excelなど、様々なファイル形式に対応 2025/04/25 | めぐろLT 7
DuckDBならSQLで書けた LLMに出力してもらったSQLを修正しつつ分析結果確認 SQLで思考できるのが本職バックエンドにはかなりありがたい import duckdb duckdb.sql(''' SELECT * FROM users
WHERE 1=1; ''') 2025/04/25 | めぐろLT 8
DuckDBでPoC用軽量ETLができた 2025/04/25 | めぐろLT 9
検証スピードUP!! 分析プロジェクトが動き出した 2025/04/25 | めぐろLT 10
社内LT会でも発表してみた pandasとの速度比較 行数、列数ともに大きくなるほどDuckDBが速い 2025/04/25 | めぐろLT 11
まとめ DuckDBを採用することで検証スピードが上がった やっぱり速かった 2025/04/25 | めぐろLT 12
ご清聴ありがとうございました 2025/04/25 | めぐろLT 13