Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
BigQueryで作る簡単なFeature Store
Search
Yudai Hayashi
August 23, 2024
2
160
BigQueryで作る簡単なFeature Store
AI/MLなんでもLT会での登壇資料
https://ncdc-dev.connpass.com/event/325184/
Yudai Hayashi
August 23, 2024
Tweet
Share
More Decks by Yudai Hayashi
See All by Yudai Hayashi
プロダクトのコードをPandasからPolarsへ書き換えた話
yudai00
7
2.2k
データサイエンティストになって得た学び
yudai00
1
69
社内での継続的な機械学習勉強会の開催のコツ
yudai00
2
600
会社訪問アプリ「Wantedly Visit」における新規ユーザーの行動量に基づいた推薦方策の選択
yudai00
0
1.2k
Polarsを活用した機械学習ジョブの高速化
yudai00
1
140
Voyagerを利用した宿画像の最近傍探索による候補生成
yudai00
1
150
推薦データ分析コンペに参加して得た知見
yudai00
2
350
論文紹介:Unbiased Delayed Feedback Label Correction for Conversion Rate Prediction
yudai00
0
260
機械学習プロジェクトでのPythonアップデートの難しさと得られた知見
yudai00
3
280
Featured
See All Featured
Principles of Awesome APIs and How to Build Them.
keavy
125
16k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
24
600
How STYLIGHT went responsive
nonsquared
93
5.1k
Producing Creativity
orderedlist
PRO
340
39k
A better future with KSS
kneath
235
17k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
326
21k
Product Roadmaps are Hard
iamctodd
PRO
48
10k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
38
9.2k
Statistics for Hackers
jakevdp
793
220k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
157
15k
How To Stay Up To Date on Web Technology
chriscoyier
786
250k
Debugging Ruby Performance
tmm1
72
12k
Transcript
© 2024 Wantedly, Inc. BigQueryで作る簡単なFeature Store AI/MLなんでもLT会 Aug. 23 2024
- Yudai Hayashi
© 2024 Wantedly, Inc. INTERNAL ONLY 自己紹介 林 悠大 • 経歴:
◦ 東京大学工学系研究科でPh.D取得 ◦ 2022年にウォンテッドリーにデータ サイエンティストとして新卒入社。 推薦システムの開発を行う • X: @python_walker • 趣味: ◦ 読書 ◦ 音楽聴くこと ◦ ウイスキー
© 2024 Wantedly, Inc. INTERNAL ONLY 今日話すこと・話さないこと 話すこと 🙆 •
機械学習ジョブでFeature Storeがあることで何が嬉しいのか • できるだけシンプルにFeature Storeを自前実装するとどうなるのか 話さないこと 🙅 • フルマネージド型のFeature Storeの使い方 • (ニア)リアルタイムの学習・推論の話
© 2024 Wantedly, Inc. INTERNAL ONLY Feature Storeがあることの嬉しさ 機械学習のタスク:特徴量からターゲットの値を予測する or
予測するモデルを作る 予め学習・予測タスクの前に必要な特徴量を計算しておいて別の場所に保持しておく → Feature Store • 特徴量の計算と学習・予測を分離することができる • 複数のモデルで共通の特徴量を使い回すことができる • …
© 2024 Wantedly, Inc. INTERNAL ONLY 今日話すFeature Storeの構成 Argo Workflows
特徴量生成ジョブ 機械学習ジョブ 機械学習ジョブ 機械学習ジョブ BigQuery データ取得/ 特徴量計算 利用 • Argo Workflows で依存管理 • BigQueryをソースとして特徴量 を計算、BigQueryに書き込む • BigQueryのテーブルから必要な 特徴量を取得してモデルを学習 ・推論
© 2024 Wantedly, Inc. INTERNAL ONLY 特徴量を作る側の実装 特徴量の計算の仕方は大雑把に分類すると そんなに種類はない •
BigQuery(BQ) → BQ • BQ → Pythonで加工 → BQ 型を何種類か用意しておけば特徴量を新た に作るコストも、管理するコストも抑えら れる
© 2024 Wantedly, Inc. INTERNAL ONLY 特徴量を使う側の実装 特徴量の数は何百にもなることが多い。それをSQLで管理するのは大変。。。 YAML Jinja
Template 特徴量をYAMLに書いておけば BigQueryのクエリに変換するシ ステムを作れる • 特徴量を一覧化することで 管理しやすく • 特徴量を入れ替えた実験も しやすくなった
© 2024 Wantedly, Inc. INTERNAL ONLY まとめ • Feature Storeを用意することによって機械学習ジョブの構成をシンプルにし、
保守・開発の効率性を上げることができる • 簡単なFeature Storeであれば自前で実装することも十分可能