Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
BigQueryで作る簡単なFeature Store
Search
Yudai Hayashi
August 23, 2024
2
360
BigQueryで作る簡単なFeature Store
AI/MLなんでもLT会での登壇資料
https://ncdc-dev.connpass.com/event/325184/
Yudai Hayashi
August 23, 2024
Tweet
Share
More Decks by Yudai Hayashi
See All by Yudai Hayashi
MCPを理解する
yudai00
14
10k
データバリデーションによるFeature Storeデータ品質の担保
yudai00
1
99
「仮説行動」で学んだ、仮説を深め ていくための方法
yudai00
7
1.6k
相互推薦システムでのPseudo Label を活用したマッチ予測精度向上の取り組み
yudai00
1
800
Wantedly Visitにおけるフリーワード検索時の推薦のオンライン化事例紹介
yudai00
1
220
RustとPyTorchで作る推論サーバー
yudai00
12
7.2k
プロダクトのコードをPandasからPolarsへ書き換えた話
yudai00
8
3.6k
データサイエンティストになって得た学び
yudai00
1
240
社内での継続的な機械学習勉強会の開催のコツ
yudai00
2
790
Featured
See All Featured
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
23
2.7k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
The Power of CSS Pseudo Elements
geoffreycrofte
75
5.8k
Six Lessons from altMBA
skipperchong
28
3.8k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
Building Better People: How to give real-time feedback that sticks.
wjessup
368
19k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.7k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
19
1.2k
Building Adaptive Systems
keathley
41
2.5k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
31
1.2k
Transcript
© 2024 Wantedly, Inc. BigQueryで作る簡単なFeature Store AI/MLなんでもLT会 Aug. 23 2024
- Yudai Hayashi
© 2024 Wantedly, Inc. INTERNAL ONLY 自己紹介 林 悠大 • 経歴:
◦ 東京大学工学系研究科でPh.D取得 ◦ 2022年にウォンテッドリーにデータ サイエンティストとして新卒入社。 推薦システムの開発を行う • X: @python_walker • 趣味: ◦ 読書 ◦ 音楽聴くこと ◦ ウイスキー
© 2024 Wantedly, Inc. INTERNAL ONLY 今日話すこと・話さないこと 話すこと 🙆 •
機械学習ジョブでFeature Storeがあることで何が嬉しいのか • できるだけシンプルにFeature Storeを自前実装するとどうなるのか 話さないこと 🙅 • フルマネージド型のFeature Storeの使い方 • (ニア)リアルタイムの学習・推論の話
© 2024 Wantedly, Inc. INTERNAL ONLY Feature Storeがあることの嬉しさ 機械学習のタスク:特徴量からターゲットの値を予測する or
予測するモデルを作る 予め学習・予測タスクの前に必要な特徴量を計算しておいて別の場所に保持しておく → Feature Store • 特徴量の計算と学習・予測を分離することができる • 複数のモデルで共通の特徴量を使い回すことができる • …
© 2024 Wantedly, Inc. INTERNAL ONLY 今日話すFeature Storeの構成 Argo Workflows
特徴量生成ジョブ 機械学習ジョブ 機械学習ジョブ 機械学習ジョブ BigQuery データ取得/ 特徴量計算 利用 • Argo Workflows で依存管理 • BigQueryをソースとして特徴量 を計算、BigQueryに書き込む • BigQueryのテーブルから必要な 特徴量を取得してモデルを学習 ・推論
© 2024 Wantedly, Inc. INTERNAL ONLY 特徴量を作る側の実装 特徴量の計算の仕方は大雑把に分類すると そんなに種類はない •
BigQuery(BQ) → BQ • BQ → Pythonで加工 → BQ 型を何種類か用意しておけば特徴量を新た に作るコストも、管理するコストも抑えら れる
© 2024 Wantedly, Inc. INTERNAL ONLY 特徴量を使う側の実装 特徴量の数は何百にもなることが多い。それをSQLで管理するのは大変。。。 YAML Jinja
Template 特徴量をYAMLに書いておけば BigQueryのクエリに変換するシ ステムを作れる • 特徴量を一覧化することで 管理しやすく • 特徴量を入れ替えた実験も しやすくなった
© 2024 Wantedly, Inc. INTERNAL ONLY まとめ • Feature Storeを用意することによって機械学習ジョブの構成をシンプルにし、
保守・開発の効率性を上げることができる • 簡単なFeature Storeであれば自前で実装することも十分可能