Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricks (と気合い)で頑張るAI Agent 運用
Search
camay
February 24, 2026
Technology
0
140
Databricks (と気合い)で頑張るAI Agent 運用
JEDAI Meetup! 2026年2月(
https://jedai.connpass.com/event/383582/
)の発表資料です
camay
February 24, 2026
Tweet
Share
More Decks by camay
See All by camay
Databricks Lakebaseで見る、ML/LLMシステムでのPostgreSQLの使いどころ
kameitomohiro
0
500
Databricks AI/BI Genie の「値ディクショナリー」をAmazonの奥地(S3)まで見に行く
kameitomohiro
1
550
Lakebaseを使ったAIエージェントを実装してみる
kameitomohiro
0
420
新卒3年目の後悔〜機械学習モデルジョブの運用を頑張った話〜
kameitomohiro
0
560
SnowflakeとDatabricks両方でRAGを構築してみた
kameitomohiro
2
1.5k
SPCSでMLflow~初心者によるMLOps事始め~
kameitomohiro
0
190
Other Decks in Technology
See All in Technology
vol11_ねこIoTLT_お遊びVibeCoding
1027kg
0
160
衛星画像即時マッピングサービスの実現に向けて
lehupa
1
300
もう怖くないバックグラウンド処理 Background Tasks のすべて - Hakodate.swift #1
kantacky
0
100
Oracle Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
3
800
Scrum Fest Morioka 2026
kawaguti
PRO
2
570
LINEアプリ開発のための Claude Code活用基盤の構築
lycorptech_jp
PRO
0
410
AIに視覚を与えモバイルアプリケーション開発をより円滑に行う
lycorptech_jp
PRO
0
190
LLMOpsのこれまでとこれからを学ぶ
nsakki55
2
660
AITuberKit+Bedrock AgentCoreで作る 3Dキャラクターエージェント
yokomachi
2
1.5k
「OSアップデート:年に一度の「大仕事」を乗り切るQA戦略」_Mobile Tech Flex 〜4社合同!私たちのモバイル開発自慢大会〜
gu3
0
210
AI時代のAPIファースト開発
nagix
1
420
Kubernetes環境周りの責任範囲をいい機会なので考える / Taking the Opportunity to Clarify Kubernetes Responsibilities
kohbis
1
110
Featured
See All Featured
How to Talk to Developers About Accessibility
jct
2
140
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
180
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.8k
sira's awesome portfolio website redesign presentation
elsirapls
0
160
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
170
Designing for Performance
lara
611
70k
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
110
What's in a price? How to price your products and services
michaelherold
247
13k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.4k
Side Projects
sachag
455
43k
Code Review Best Practice
trishagee
74
20k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.5k
Transcript
Databricks(と気合い)で 頑張る AI Agent 運用 DATUM STUDIO株式会社 亀井友裕 2026/02/24 JEDAI
Meetup! 2026年2月
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 2
講演者 亀井 友裕 会社 DATUM STUDIO 株式会社 職業 データエンジニア / AIエンジニア 主な 業務経験 データパイプラインの構築(Databricks) 需要予測モデルの運用(Databricks) RAGの精度改善(AWS) AIエージェントの構築(AWS, Databricks) X @Camay119 (アイコンは→)
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. AI
エージェント、作ってますか?
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 4
AI エージェントの作成 Databricks でも、コーディングエージェントに統合できるAI Dev Kit や Agent Bricks などによって、AI エージェントは簡単に作れるようになってきました。 Databricks AI Dev Kit Agent Bricks (日本リージョンはよ) • コーディングエージェントに統合できる Skills, MCP Tools をまとめた公式パッケージ • Databricks SDK, CLI で操作可能なリソースは大体内包されており、Mlflow Experiment, Model Serving などもコーディングエージェントに操作させることができ る • AIエージェントをノーコードで作成できる機能 • 情報抽出、RAG、スーパーバイザーなどの典型的なエージェントをぽちぽちで作成できる
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. AI
エージェント、運用してますか?
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 6
AI エージェントの運用 AI エージェントを真面目に運用していくのはとても大変です。たくさんやることがあります。 ロギング・トレーシング オフライン評価 オンライン評価 ユーザーフィードバック収集 フィードバック分析 回答不可ケース収集 評価用データセット管理 プロンプトインジェクション検知・対応 システムプロンプト運用 LLMモデルバージョン管理 メモリ管理 ガードレール設計 個人情報混入検知・対応 デプロイメント
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 7
代表的な運用タスク 代表的なタスクに、エージェントのバージョン管理、ロギング、オンライン評価、オフライン評価があります。本発 表では、それぞれのタスク実行に使う Databricks の機能を紹介します。 ロギング トレーシング ✓ リクエストデータのトレースをリアルタイムで評価・監視し、問題があればアラー ト バージョン管理 デプロイメント ✓ プロンプトや基盤モデル、ツールの更新をバージョン管理し、最新版をサービ ング オンライン評価 ✓ リクエスト/ツール呼び出し/応答を時系列で記録・可視化 オフライン評価 ✓ 事前定義した評価用データセットを用いて、エージェント更新前後で品質変 化がないかを確認 ✓ 常時 ✓ エージェント更新時 ✓ 常時 ✓ エージェント更新時 概要 タスク 実行タイミング
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. Databricks
のエージェント運用に関連する機能
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 9
Databricks のエージェント運用に関連する機能 Databricks Mlflow Experiment Unity Catalog Serving endpoint 外部からのリクエストを受け付ける API agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) evaluate runs Traces Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Logs Charts ダッシュボード Agent versions model agent.py や依存ライブラリをまと めたファイル群 trace archiving table model Trace エージェントのログ evaluate run 評価の実行結果 → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 10
バージョン管理、デプロイメント 何をやるのか ✓ プロンプトや基盤モデル、ツールの更新をバージョン管理し、最新版をサービング なぜやるのか ✓ 外部ツールからのエージェントクエリ ✓ モデルに異変が起こった場合のグレードダウン ✓ エージェント変更時の A/B テスト Serving Endpoint の画面
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 11
バージョン管理、デプロイメント Mlflow Experiment Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) evaluate runs Traces Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Logs Charts ダッシュボード trace archiving table Trace エージェントのログ evaluate run 評価の実行結果 → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価 Serving endpoint 外部からのリクエストを受け付ける API agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 Agent versions model agent.py や依存ライブラリをまと めたファイル群 model Databricks ①agent.py を作成 ② モデルのバージョン更新 mlflow.pyfunc.log_model() ③ モデルを UC に登録 mlflow.register_model() Unity Catalog ④ デプロイ agents.deploy()
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 12
ロギング、トレーシング 何をやるのか ✓ リクエスト / ツール呼び出し/応答を時系列で記録・可視化 なぜやるのか ✓ モニタリングによって検出した問題の原因探索 ✓ ユーザー体験の深掘りによる改善の機会の発見 Tracing の画面 https://docs.databricks.com/gcp/ja/mlflow3/genai/getting-started/tracing/tracing-notebook より
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 13
ロギング、トレーシング Unity Catalog agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) evaluate runs Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Charts ダッシュボード trace archiving table model evaluate run 評価の実行結果 → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価 Databricks Mlflow Experiment Serving endpoint 外部からのリクエストを受け付ける API Traces Logs Agent versions model agent.py や依存ライブラリをまと めたファイル群 Trace エージェントのログ ①ユーザーがエージェント とやり取り ②やりとりの履歴をTrace に保存 mlflow.pyfunc.autolog()
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 14
オンライン評価(ベータ機能) 何をやるのか ✓ リクエストデータのトレースをリアルタイムで評価・監視 なぜやるのか ✓ アプリケーションの障害やセキュリティ攻撃、ドリフト等のリスク軽減 ✓ 改善の機会の発見 Production Monitoring の画面 https://mlflow.org/docs/3.1.3/genai/tracing/prod-tracing/#querying-traces-with-context より
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 15
オンライン評価(ベータ機能) Unity Catalog Serving endpoint 外部からのリクエストを受け付ける API agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 evaluate runs Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Agent versions model agent.py や依存ライブラリをまと めたファイル群 model evaluate run 評価の実行結果 → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価 Databricks Mlflow Experiment Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) Traces Logs trace archiving table Trace エージェントのログ Charts ダッシュボード ①スコアラーを作成 Automatically evaluate future traces using this scorer ②出力されたトレースを自動評価 ③トレースの Delta Sync を on に設定 (Delta Table が作成され、同期される) ④ダッシュボードに反映される
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 16
オフライン評価 何をやるのか ✓ 事前定義した評価用データセットを用いて、エージェント更新前に品質変化がないかを確認 なぜやるのか ✓ ベンチマーク評価 ✓ 弱点となるユースケースの特定 Evaluation の画面 https://www.databricks.com/jp/blog/introducing-enhanced-agent-evaluation より
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 17
オフライン評価 Unity Catalog Serving endpoint 外部からのリクエストを受け付ける API Traces Logs Charts ダッシュボード trace archiving table model Trace エージェントのログ → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価 ①agent.py を作成 Databricks Mlflow Experiment agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Agent versions model agent.py や依存ライブラリをまと めたファイル群 evaluate runs evaluate run 評価の実行結果 ③スコアラーを定義 ②モデルのバージョン更新 mlflow.pyfunc.log_model() ④評価用データセットを用意 ⑤評価を実行
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 18
Databricks には、AI エージェント運用に役立つ 機能がたくさんあります
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 19
とはいえ…
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 20
「あるべき姿」は 人間が決めないといけない
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 21
エージェントの「あるべき姿」は人間が決めないといけない 前述の運用業務には、前提として集計するメトリクスや評価観点、評価データの整理が必要です。これら全て、 エージェントのあるべき姿を定義することに他なりません。 ロギング トレーシング バージョン管理 デプロイメント オンライン評価 オフライン評価 集計メトリクスの定義 = どの失敗パターンを捕捉したいの? LLM as a Judge による評価観点 = どの観点の品質を重視するの? 評価用データ = どんな振る舞いをよしとするの? これら全て、「理想の AI エージェント」が決まらないと定義できない
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 22
「あるべき姿」を定めるために ◼ 「このエージェントで解決したかった問題」を問い続ける ✓ RAG アプリケーションに届いた「エクセルの使い方に関する質問」は、回答できるようにすべき? ✓ どのような要求まで対応できるようにする?をチーム内で話し合う ◼ 利用ユーザーから直接 FB を集める(明示的な FB) ✓ アプリケーション UI に good / bad や自然言語フィードバックの入力機構をつける ✓ 利用ユーザーに直接聞く ◼ 実際のユーザーの利用履歴(トレース)を観察する(暗示的な FB) ✓ ユーザーから、表現を変えた同様の質問を受け取っていないかを確認する ✓ ユーザーグループ間で会話あたりのターン数に差がないか、あるならその原因は何かを確認する エージェントの「あるべき姿」を定めるためには、ユーザーのフィードバックに根気強く向き合い続け、理想のエー ジェントについて考え続けることが必要です。 根気強くユーザー体験に向き合っていきましょう!