Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricks Lakebaseで見る、ML/LLMシステムでのPostgreSQLの使...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
camay
November 21, 2025
610
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Databricks Lakebaseで見る、ML/LLMシステムでのPostgreSQLの使いどころ
PostgreSQL Conference Japan 2025(
https://www.postgresql.jp/jpug-pgcon2025
) での発表スライドです。
camay
November 21, 2025
More Decks by camay
See All by camay
Databricks (と気合い)で頑張るAI Agent 運用
kameitomohiro
0
570
Databricks AI/BI Genie の「値ディクショナリー」をAmazonの奥地(S3)まで見に行く
kameitomohiro
1
600
Lakebaseを使ったAIエージェントを実装してみる
kameitomohiro
0
500
新卒3年目の後悔〜機械学習モデルジョブの運用を頑張った話〜
kameitomohiro
0
600
SnowflakeとDatabricks両方でRAGを構築してみた
kameitomohiro
1
1.8k
SPCSでMLflow~初心者によるMLOps事始め~
kameitomohiro
0
220
Featured
See All Featured
Building a Modern Day E-commerce SEO Strategy
aleyda
45
9.1k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
10k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
62
44k
How GitHub (no longer) Works
holman
316
150k
Side Projects
sachag
455
43k
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
170
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
250
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
6k
Art, The Web, and Tiny UX
lynnandtonic
304
22k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
28
3.5k
Transcript
Databricks Lakebaseで見る、 ML/LLMシステムでの PostgreSQLの使いどころ DATUM STUDIO株式会社 亀井友裕 2025/11/21 PostgreSQL Conference
Japan 2025
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 2
今日話すこと、話さないこと 話すこと 話さないこと ✓ OLTP の DB が絡む ML/LLM システムの紹介 ✓ Databricks Lakebase を使った際の実装イメージ ✓ Lakebase の独自機能 ✓ 他 RDBMS 製品(MySQL など)を使った実装との違い ✓ 各種ユースケースにおける詳細な実装 ✓ PostgreSQL の内部構造まで立ち入った機能紹介
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 3
講演者 亀井 友裕 会社 DATUM STUDIO 株式会社 職業 データエンジニア / AIエンジニア 主な 業務経験 データパイプラインの構築(Databricks) 需要予測モデルの運用(Databricks) RAGの精度改善(AWS) AIエージェントの構築(AWS, Databricks) X @Camay119 (アイコンは→)
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. イントロ
今、データプラットフォームの間で PostgreSQL がアツい!!
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 6
データプラットフォームって? データ分析~AI活用の一連の業務を担うサービスは「データプラットフォーム」と呼ばれ、Snowflake と Databricks はDWH構築からAI・データアプリのホスティングまで幅広いワークロードに対応しています。 Snowflake Databricks ETL AI・ML DWH BI オーケストレー ション データシェアリング アプリケーション
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 7
Databricks Mooncake Labsの買収を発表 今、データプラットフォームの間で PostgreSQL がアツい!! 2025年6月、Databricks / Snowflake 両社が PostgreSQL のマネージドプロバイダを買収し、マネージド PostgreSQL 機能を公開しました。両サービスのユーザーグループでは今、PostgreSQLは激アツトピックです! Snowflake Crunchy Dataの買収を発表 併せて Snowflake Postgres の開発をアナウンス Databricks Lakebase のパブリックプレビューを発表 Databricks Neon の買収を発表 2025/05/14 2025/06/02 2025/06/11 2025/10/01 Snowflake PostgreSQL Conference Japan 2025 にてキーノートを発表 Snowflake Snowflake Postgres の 開発チーム紹介ブログを公開 2025/09/24 2025/11/21 2025年、Snowflake/Databricks での PostgreSQL 関連の出来事
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 8
両社が示す PostgreSQL 機能のユースケース 両社が示す PostgreSQL 機能のユースケースには若干の戦略の違いが現れつつも、共通して AI/ML 機 能との統合をあげています。 Snowflake Databricks データ戦略(トランザクション・分析・非構造化データ)の統合 AI 開発の加速 運用の複雑さを軽減 エンタープライズ グレードのセキュリティとガバナンスを実現 顧客向けアプリケーションへの分析データの提供 オンライン特徴サービング アプリケーションの状態を保存 両社とも、AI/ML 機能との統合をユースケースとして取り上げている
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 9
ML/LLM システムにおける PostgreSQL のユースケース 本発表では、Databricks Lakebase を用いて、 ML/LLM システムにおける PostgreSQL のユースケー スを2つ紹介します! オンライン特徴ストア AIエージェントのステート管理
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. ユースケース
その1 オンライン特徴ストア
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 11
特徴ストアとは 特徴ストアとは、その名の通り特徴量を格納したテーブルのことです。機械学習モデルの学習 / 推論に使われ ます。 user_id Event_timestamp 特徴量1 特徴量2 特徴量3 … 001 2025-11-20 00:00:00 100 0.02 東京都 … 001 2025-11-21 00:00:00 200 0.05 東京都 … 002 2025-11-20 00:00:00 100 0.01 大阪府 … 002 2025-11-21 00:00:00 150 0.04 大阪府 … 003 2025-11-20 00:00:00 200 0.05 北海道 … 003 2025-11-21 00:00:00 100 0.02 北海道 … … … … … … … Entity Feature (特徴量) Timestamp
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 12
特徴量ストアへのアクセス 特徴量ストアから特徴量を作成する方法を定義した FeatureSpec という yaml ファイルを用意しておき、ク ライアントはこの定義に沿ってデータを取得します。 特徴ストア user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … クライアント (機械学習モデル など) ①entity を添えて特徴量をリクエスト { "user_id": "001” } ②entity に紐づく特徴量を返却 { "user_id": "001", “特徴量1": ”100”, “特徴量1のmax": ”200”, … } FeatureSpec - 特徴量1 - max(特徴量1)
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 13
オフライン特徴ストアとオンライン特徴ストア 特徴ストアは、オフラインとオンライン特徴ストアに分かれます。オンライン特徴ストアは、低レイテンシで推論に 必要な情報を提供するため、PostgreSQL などの OLTP システムが使われます。 user_id event_timestamp 特徴量1 特徴量2 … 001 2025-11-20 00:00:00 100 0.02 … 001 2025-11-21 00:00:00 200 0.05 … 002 2025-11-20 00:00:00 100 0.01 … 002 2025-11-21 00:00:00 150 0.04 … … … … … … user_id event_timestamp 特徴量1 特徴量2 … 001 2025-11-21 00:00:00 200 0.05 … 002 2025-11-21 00:00:00 150 0.04 … … … … … … オフライン特徴ストア オンライン特徴ストア 過去の特徴量を全て保持する 学習に用いる 最新断面のみを保持する (リアルタイムの)推論で使用する Delta Table(Databricks の標準テーブル)で実装される Lakebase(postgres) テーブルで実装される 高スループット 低レイテンシ 保持するデータ 用途 実体の実装 強み
…?
Q. 普通のテーブルを 使えばよくない?
A. よくない(場合がある)
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 17
例: シンプルな機械学習アプリケーション 例として、シンプルな機械学習モデルのAPIを叩くアプリケーションを考えます。 アプリケーション 機械学習モデル API ①特徴量を入力 {“特徴量1": ”100", "特徴量2": 0.02, “特徴量3”: “東京都”} ②推論結果を返却 {“おすすめ商品ID”: 201}
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 18
機械学習システムを本番運用する際の悩み事 モデルの学習時 / 推論時でデータ作成ロジックが揃えるのが難しかったり、学習データのリークが起こったりし ます。 user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … ①データをSQLで取得 特徴量が入ったテーブル ②返却 ③特徴量 エンジニアリング (集約値,比率) ②返却 ①データをSQLで取得 アプリケーション 機械学習モデル API ④特徴量を入力 ⑤推論結果を返却 赤色:学習 水色:推論 ④学習 ③特徴量 エンジニアリング (集約値、比率)
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 19
アプリケーション ①特徴量を入力 ④推論結果を返却 機械学習システムを本番運用する際の悩み事 モデルの学習時 / 推論時でデータ作成ロジックが揃えるのが難しかったり、学習データのリークが起こったりし ます。 ②返却 ①データをSQLで取得 ④学習 赤色:学習 水色:推論 user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … ①データをSQLで取得 特徴量が入ったテーブル ②返却 機械学習モデル API イベント発生時には 知り得ない情報を使って 学習を行なってしまうリスク がある(データリーク) ③特徴量 エンジニアリング (集約値,比率) ③特徴量 エンジニアリング (集約値、比率)
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 20
機械学習システムを本番運用する際の悩み事 モデルの学習時 / 推論時でデータ作成ロジックが揃えるのが難しかったり、学習データのリークが起こったりし ます。 user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … ①データをSQLで取得 特徴量が入ったテーブル ②返却 ②返却 ①データをSQLで取得 ①特徴量を入力 ④推論結果を返却 ④学習 アプリケーション 機械学習モデル API 赤色:学習 水色:推論 学習と推論で データ作成ロジックがを揃 えるのが難しい ③特徴量 エンジニアリング (集約値,比率) ③特徴量 エンジニアリング (集約値、比率)
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 21
便利機能その1: Point-in time Joins Databricks の特徴量ストアには、「観測時の最新断面のみ」を取得する機能が備わっています。これにより、 未来の情報を使って学習してしまうリスク(リーケージ)を予防できます。 https://docs.databricks.com/aws/ja/machine-learning/feature-store/time-series より引用 FeatureSpec で定義します
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 22
便利機能その2: FeatureFunction 推論時にのみ使用できる情報(ユーザーの現在地など)を特徴量の計算に使いたい場合があります。計算ロ ジック(=Function)を定義しておき、特徴量をリアルタイムでを作成する機能があります。 https://docs.databricks.com/aws/ja/machine-learning/feature-store/concepts より引用 FeatureSpec で定義します
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 23
便利機能その3: automatic feature lookup Databricks の Mosaic AI Model Serving 機能を使えば、特徴ストアと連携して自動で特徴量を検索 することが可能です。 https://docs.databricks.com/aws/ja/machine-learning/feature-store/online-workflows より引用
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 24
特徴ストアが解決すること 特徴ストアがあると、データリークの予防や、学習 / 推論でデータ作成のロジックの統一などのメリットを享受 でき、MLアプリケーションの開発がスムーズになります。 user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … user_id event_timestamp 特徴量1 … 001 2025-11-21 00:00:00 200 … 002 2025-11-21 00:00:00 150 … … … … … ①特徴量をリクエスト オフライン特徴ストア オンライン特徴ストア FeatureSpec ②返却 ③学習 ③返却 アプリケーション 機械学習モデル API ①推論をリクエスト ②特徴量をリクエスト ④推論結果を返却 赤色:学習 水色:推論
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 25
特徴ストアが解決すること 特徴ストアがあると、データリークの予防や、学習 / 推論でデータ作成のロジックの統一などのメリットを享受 でき、MLアプリケーションの開発がスムーズになります。 user_id event_timestamp 特徴量1 … 001 2025-11-21 00:00:00 200 … 002 2025-11-21 00:00:00 150 … … … … … オンライン特徴ストア ③学習 ③返却 アプリケーション 機械学習モデル API ①推論をリクエスト ②特徴量をリクエスト ④推論結果を返却 赤色:学習 水色:推論 データリークを 予防できる! ①特徴量をリクエスト ②返却 FeatureSpec user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … オフライン特徴ストア
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 26
特徴ストアが解決すること 特徴ストアがあると、データリークの予防や、学習 / 推論でデータ作成のロジックの統一などのメリットを享受 でき、MLアプリケーションの開発がスムーズになります。 ③学習 アプリケーション 機械学習モデル API ①推論をリクエスト ④推論結果を返却 赤色:学習 水色:推論 学習と推論で データ取得ロジックを 揃えられる! ①特徴量をリクエスト ②返却 ③返却 FeatureSpec ②特徴量をリクエスト user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … user_id event_timestamp 特徴量1 … 001 2025-11-21 00:00:00 200 … 002 2025-11-21 00:00:00 150 … … … … … オフライン特徴ストア オンライン特徴ストア
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 27
特徴ストアが解決すること 特徴ストアがあると、データリークの予防や、学習 / 推論でデータ作成のロジックの統一などのメリットを享受 でき、MLアプリケーションの開発がスムーズになります。 user_id event_timestamp 特徴量1 … 001 2025-11-20 00:00:00 100 … 001 2025-11-21 00:00:00 200 … 002 2025-11-20 00:00:00 100 … 002 2025-11-21 00:00:00 150 … … … … … ①特徴量をリクエスト オフライン特徴ストア ②返却 ③学習 アプリケーション 機械学習モデル API ①推論をリクエスト ④推論結果を返却 ③返却 ②特徴量をリクエスト FeatureSpec user_id event_timestamp 特徴量1 … 001 2025-11-21 00:00:00 200 … 002 2025-11-21 00:00:00 150 … … … … … 赤色:学習 水色:推論 オンライン特徴ストア 低レイテンシで 特徴量を提供できる!
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 28
公式のサンプル実装 Databricks の公式ドキュメントにて、Lakebase を使用したオンライン特徴量ストアのサンプル実装が公開 されています。ご興味ある方は、ぜひ動かしてみてください! https://docs.databricks.com/aws/ja/machine-learning/feature-store/online-feature-store
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. ユースケース
その2 ステートフルエージェント
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 30
エージェントシステムとは エージェントシステムとは、 目標を達成するための環境を自律的に認識し、決定し、行動することができるAI駆 動型のシステムです (※ https://docs.databricks.com/aws/ja/generative-ai/guide/introduction-generative-ai-apps より引用) https://docs.databricks.com/aws/ja/generative-ai/guide/introduction-generative-ai-apps より引用
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 31
エージェントのメモリ エージェントにメモリを持たせることで、セッション内、セッション間で情報を共有するステートフルなエージェントを 実現することが可能です。 https://blog.langchain.com/semantic-search-for-langgraph-memory/ より引用
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 32
例:ChatGPT のメモリ機能 メモリ機能は ChatGPT にも実装されており、ユーザーとの対話情報をもとに保存してくれます。
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 33
短期記憶と長期記憶 LangGraph(AIエージェントの開発フレームワーク)には、セッション内で使用する短期記憶と、セッション横 断で共有する長期記憶があります。どちらも Postgres による実装がパッケージ化されています。 短期記憶 (Short-term) ✓ 進行中の会話コンテキストを保持し、同一スレッド 内の応答精度・一貫性を向上 ✓ メッセージ履歴 ✓ アップロードファイル ✓ 生成物 など ✓ InMemory + Checkpointer(標準) ✓ SQLiteSaver langgraph-checkpoint-sqlite ✓ PostgresSaver langgraph-checkpoint- postgres ✓ RedisSaver langgraph-checkpoint-redis 長期記憶 (Long-term) ✓ ユーザ/アプリ全体で共有し、学習内容やパーソナ ライズ情報を永続化 ✓ セマンティック(事実) ✓ エピソード(経験) ✓ プロシージャル(ルール)など ✓ InMemoryStore(開発用) ✓ PostgresStore(pgvector 検索対応) ✓ RedisStore(高速+ベクトル検索) 用途 格納する情報 使えるストレージ
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 34
短期記憶 短期記憶が接続されたエージェントは、ユーザーとの会話を自動的に逐一保存します。
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 35
例: 短期記憶を使ったコンテキストの節約 会話が進むごとに、会話履歴の要約 + 履歴の削除を行うことで、会話が進むたびに入力トークンが増大し続 け(=コンテキスト爆発)応答性能が下がることを防ぐことができます。 https://blog.langchain.com/semantic-search-for-langgraph-memory/ より引用
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 36
長期記憶 store = PostgresStore( connection_string="postgresql://user:pass@localhost:5432/dbname", index={ "dims": 1536, "embed": init_embeddings("openai:text-embedding-3-small"), "fields": ["text"], }, ) store.setup() store.put(("docs",), "doc1", {"text": "Python tutorial"}) results = store.search( ("user_123", "interactions"), query=state["messages"][-1].content, filter={"type": "conversation"}, limit=3 ) 長期記憶が接続されたエージェントは、セッションを跨いで記憶を共有することが可能です。pgvector による セマンティック検索も可能です。 長期記憶のセットアップ (埋め込みモデルを指 定) データ挿入 長期記憶へのクエリ (pgvector によるセマ ンティック検索) https://blog.langchain.com/semantic-search-for-langgraph-memory/ より転載
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 37
例: 長期記憶を使った行動履歴の保存 長期記憶にAIエージェントの行動・経験を記録しておいて、似たようなタスクでの再現性、回答精度の向上を 図ることができます。 〇〇について調査して △△について調査して 計画 ツールA利用 評価 ツールB利用 ︙ 行動履歴を書き出し 行動記録を読み出し 計画 ツールA利用 評価 ツールB利用 ︙ 行動を再現
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 38
公式のサンプル実装 Databricks の公式ドキュメントにて、Lakebase を使用したステートフル エージェントのサンプル実装が公 開されています。ご興味ある方は、ぜひ動かしてみてください! https://docs.databricks.com/aws/ja/generative-ai/agent-framework/stateful-agents
© 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. EOF