Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
BigQueryで作る簡単なFeature Store
Search
Yudai Hayashi
August 23, 2024
2
380
BigQueryで作る簡単なFeature Store
AI/MLなんでもLT会での登壇資料
https://ncdc-dev.connpass.com/event/325184/
Yudai Hayashi
August 23, 2024
Tweet
Share
More Decks by Yudai Hayashi
See All by Yudai Hayashi
ユーザーのプロフィールデータを活用した推薦精度向上の取り組み
yudai00
0
490
MCP Clientを活用するための設計と実装上の工夫
yudai00
1
990
人とシゴトのマッチングを実現するための機械学習技術
yudai00
1
23
MCPを理解する
yudai00
16
11k
データバリデーションによるFeature Storeデータ品質の担保
yudai00
1
120
「仮説行動」で学んだ、仮説を深め ていくための方法
yudai00
8
1.8k
相互推薦システムでのPseudo Label を活用したマッチ予測精度向上の取り組み
yudai00
1
850
Wantedly Visitにおけるフリーワード検索時の推薦のオンライン化事例紹介
yudai00
1
230
RustとPyTorchで作る推論サーバー
yudai00
12
7.2k
Featured
See All Featured
Designing for humans not robots
tammielis
253
25k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
31
1.2k
Why You Should Never Use an ORM
jnunemaker
PRO
56
9.4k
What's in a price? How to price your products and services
michaelherold
245
12k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
657
60k
Building an army of robots
kneath
306
45k
For a Future-Friendly Web
brad_frost
179
9.8k
Unsuck your backbone
ammeep
671
58k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
790
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Practical Orchestrator
shlominoach
188
11k
Transcript
© 2024 Wantedly, Inc. BigQueryで作る簡単なFeature Store AI/MLなんでもLT会 Aug. 23 2024
- Yudai Hayashi
© 2024 Wantedly, Inc. INTERNAL ONLY 自己紹介 林 悠大 • 経歴:
◦ 東京大学工学系研究科でPh.D取得 ◦ 2022年にウォンテッドリーにデータ サイエンティストとして新卒入社。 推薦システムの開発を行う • X: @python_walker • 趣味: ◦ 読書 ◦ 音楽聴くこと ◦ ウイスキー
© 2024 Wantedly, Inc. INTERNAL ONLY 今日話すこと・話さないこと 話すこと 🙆 •
機械学習ジョブでFeature Storeがあることで何が嬉しいのか • できるだけシンプルにFeature Storeを自前実装するとどうなるのか 話さないこと 🙅 • フルマネージド型のFeature Storeの使い方 • (ニア)リアルタイムの学習・推論の話
© 2024 Wantedly, Inc. INTERNAL ONLY Feature Storeがあることの嬉しさ 機械学習のタスク:特徴量からターゲットの値を予測する or
予測するモデルを作る 予め学習・予測タスクの前に必要な特徴量を計算しておいて別の場所に保持しておく → Feature Store • 特徴量の計算と学習・予測を分離することができる • 複数のモデルで共通の特徴量を使い回すことができる • …
© 2024 Wantedly, Inc. INTERNAL ONLY 今日話すFeature Storeの構成 Argo Workflows
特徴量生成ジョブ 機械学習ジョブ 機械学習ジョブ 機械学習ジョブ BigQuery データ取得/ 特徴量計算 利用 • Argo Workflows で依存管理 • BigQueryをソースとして特徴量 を計算、BigQueryに書き込む • BigQueryのテーブルから必要な 特徴量を取得してモデルを学習 ・推論
© 2024 Wantedly, Inc. INTERNAL ONLY 特徴量を作る側の実装 特徴量の計算の仕方は大雑把に分類すると そんなに種類はない •
BigQuery(BQ) → BQ • BQ → Pythonで加工 → BQ 型を何種類か用意しておけば特徴量を新た に作るコストも、管理するコストも抑えら れる
© 2024 Wantedly, Inc. INTERNAL ONLY 特徴量を使う側の実装 特徴量の数は何百にもなることが多い。それをSQLで管理するのは大変。。。 YAML Jinja
Template 特徴量をYAMLに書いておけば BigQueryのクエリに変換するシ ステムを作れる • 特徴量を一覧化することで 管理しやすく • 特徴量を入れ替えた実験も しやすくなった
© 2024 Wantedly, Inc. INTERNAL ONLY まとめ • Feature Storeを用意することによって機械学習ジョブの構成をシンプルにし、
保守・開発の効率性を上げることができる • 簡単なFeature Storeであれば自前で実装することも十分可能