Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricks (と気合い)で頑張るAI Agent 運用
Search
camay
February 24, 2026
Technology
520
0
Share
Databricks (と気合い)で頑張るAI Agent 運用
JEDAI Meetup! 2026年2月(
https://jedai.connpass.com/event/383582/
)の発表資料です
camay
February 24, 2026
More Decks by camay
See All by camay
Databricks Lakebaseで見る、ML/LLMシステムでのPostgreSQLの使いどころ
kameitomohiro
0
570
Databricks AI/BI Genie の「値ディクショナリー」をAmazonの奥地(S3)まで見に行く
kameitomohiro
1
580
Lakebaseを使ったAIエージェントを実装してみる
kameitomohiro
0
480
新卒3年目の後悔〜機械学習モデルジョブの運用を頑張った話〜
kameitomohiro
0
580
SnowflakeとDatabricks両方でRAGを構築してみた
kameitomohiro
1
1.7k
SPCSでMLflow~初心者によるMLOps事始め~
kameitomohiro
0
210
Other Decks in Technology
See All in Technology
おいらのAWSアップデートの追い方〜Slack×AgentCore〜
yakumo
1
110
社内RAGの導入で気を付けたポイント
yakumo
1
110
エンタープライズの厳格な制約を開発者に意識させない:クラウドネイティブ開発基盤設計/cloudnative-kaigi-golden-path
mhrtech
0
440
そのSLO 99.9%、本当に必要ですか? 〜優先度付きSLOによる責任共有の設計思想〜 / Is that 99.9% SLO really necessary? Design philosophy of shared responsibility through prioritized SLOs
vtryo
0
800
なぜ、IAMロールのプリンシパルに*による部分マッチングが使えないのか? / 20260518-ssmjp-iam-role-principal
opelab
1
130
SpeechTranscriber + AIによる文字起こし機能
kazuki1220
0
110
M&Aで増え続けるプロダクトに少数QAはどう立ち向かうか─GENDAが挑む、全員で取り組む品質標準化戦略 / GENDA Tech Talk #4
genda
0
110
オライリーイベント登壇資料「鉄リサイクル・産廃業界におけるAI技術実応用のカタチ」
takarasawa_
0
410
2026-05-14 要件定義からソース管理まで!IBM Bob基礎ハンズオン
yutanonaka
0
160
アプリブロック機能のつくりかたと、AIとHTMLの不合理な相性の良さについて
kumamotone
1
260
freeeで運用しているAIQAについて
qatonchan
1
630
エムスリーテクノロジーズ株式会社 エンジニア向け紹介資料 / M3 Technologies Company Deck
m3_engineering
0
180
Featured
See All Featured
The Limits of Empathy - UXLibs8
cassininazir
1
330
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
0
230
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
150
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
520
XXLCSS - How to scale CSS and keep your sanity
sugarenia
250
1.3M
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
690
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
380
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.2k
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
180
Building Adaptive Systems
keathley
44
3k
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
240
Paper Plane (Part 1)
katiecoart
PRO
0
7.6k
Transcript
Databricks(と気合い)で 頑張る AI Agent 運用 DATUM STUDIO株式会社 亀井友裕 2026/02/24 JEDAI
Meetup! 2026年2月
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 2
講演者 亀井 友裕 会社 DATUM STUDIO 株式会社 職業 データエンジニア / AIエンジニア 主な 業務経験 データパイプラインの構築(Databricks) 需要予測モデルの運用(Databricks) RAGの精度改善(AWS) AIエージェントの構築(AWS, Databricks) X @Camay119 (アイコンは→)
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. AI
エージェント、作ってますか?
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 4
AI エージェントの作成 Databricks でも、コーディングエージェントに統合できるAI Dev Kit や Agent Bricks などによって、AI エージェントは簡単に作れるようになってきました。 Databricks AI Dev Kit Agent Bricks (日本リージョンはよ) • コーディングエージェントに統合できる Skills, MCP Tools をまとめた公式パッケージ • Databricks SDK, CLI で操作可能なリソースは大体内包されており、Mlflow Experiment, Model Serving などもコーディングエージェントに操作させることができ る • AIエージェントをノーコードで作成できる機能 • 情報抽出、RAG、スーパーバイザーなどの典型的なエージェントをぽちぽちで作成できる
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. AI
エージェント、運用してますか?
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 6
AI エージェントの運用 AI エージェントを真面目に運用していくのはとても大変です。たくさんやることがあります。 ロギング・トレーシング オフライン評価 オンライン評価 ユーザーフィードバック収集 フィードバック分析 回答不可ケース収集 評価用データセット管理 プロンプトインジェクション検知・対応 システムプロンプト運用 LLMモデルバージョン管理 メモリ管理 ガードレール設計 個人情報混入検知・対応 デプロイメント
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 7
代表的な運用タスク 代表的なタスクに、エージェントのバージョン管理、ロギング、オンライン評価、オフライン評価があります。本発 表では、それぞれのタスク実行に使う Databricks の機能を紹介します。 ロギング トレーシング ✓ リクエストデータのトレースをリアルタイムで評価・監視し、問題があればアラー ト バージョン管理 デプロイメント ✓ プロンプトや基盤モデル、ツールの更新をバージョン管理し、最新版をサービ ング オンライン評価 ✓ リクエスト/ツール呼び出し/応答を時系列で記録・可視化 オフライン評価 ✓ 事前定義した評価用データセットを用いて、エージェント更新前後で品質変 化がないかを確認 ✓ 常時 ✓ エージェント更新時 ✓ 常時 ✓ エージェント更新時 概要 タスク 実行タイミング
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. Databricks
のエージェント運用に関連する機能
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 9
Databricks のエージェント運用に関連する機能 Databricks Mlflow Experiment Unity Catalog Serving endpoint 外部からのリクエストを受け付ける API agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) evaluate runs Traces Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Logs Charts ダッシュボード Agent versions model agent.py や依存ライブラリをまと めたファイル群 trace archiving table model Trace エージェントのログ evaluate run 評価の実行結果 → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 10
バージョン管理、デプロイメント 何をやるのか ✓ プロンプトや基盤モデル、ツールの更新をバージョン管理し、最新版をサービング なぜやるのか ✓ 外部ツールからのエージェントクエリ ✓ モデルに異変が起こった場合のグレードダウン ✓ エージェント変更時の A/B テスト Serving Endpoint の画面
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 11
バージョン管理、デプロイメント Mlflow Experiment Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) evaluate runs Traces Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Logs Charts ダッシュボード trace archiving table Trace エージェントのログ evaluate run 評価の実行結果 → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価 Serving endpoint 外部からのリクエストを受け付ける API agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 Agent versions model agent.py や依存ライブラリをまと めたファイル群 model Databricks ①agent.py を作成 ② モデルのバージョン更新 mlflow.pyfunc.log_model() ③ モデルを UC に登録 mlflow.register_model() Unity Catalog ④ デプロイ agents.deploy()
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 12
ロギング、トレーシング 何をやるのか ✓ リクエスト / ツール呼び出し/応答を時系列で記録・可視化 なぜやるのか ✓ モニタリングによって検出した問題の原因探索 ✓ ユーザー体験の深掘りによる改善の機会の発見 Tracing の画面 https://docs.databricks.com/gcp/ja/mlflow3/genai/getting-started/tracing/tracing-notebook より
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 13
ロギング、トレーシング Unity Catalog agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) evaluate runs Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Charts ダッシュボード trace archiving table model evaluate run 評価の実行結果 → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価 Databricks Mlflow Experiment Serving endpoint 外部からのリクエストを受け付ける API Traces Logs Agent versions model agent.py や依存ライブラリをまと めたファイル群 Trace エージェントのログ ①ユーザーがエージェント とやり取り ②やりとりの履歴をTrace に保存 mlflow.pyfunc.autolog()
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 14
オンライン評価(ベータ機能) 何をやるのか ✓ リクエストデータのトレースをリアルタイムで評価・監視 なぜやるのか ✓ アプリケーションの障害やセキュリティ攻撃、ドリフト等のリスク軽減 ✓ 改善の機会の発見 Production Monitoring の画面 https://mlflow.org/docs/3.1.3/genai/tracing/prod-tracing/#querying-traces-with-context より
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 15
オンライン評価(ベータ機能) Unity Catalog Serving endpoint 外部からのリクエストを受け付ける API agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 evaluate runs Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Agent versions model agent.py や依存ライブラリをまと めたファイル群 model evaluate run 評価の実行結果 → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価 Databricks Mlflow Experiment Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) Traces Logs trace archiving table Trace エージェントのログ Charts ダッシュボード ①スコアラーを作成 Automatically evaluate future traces using this scorer ②出力されたトレースを自動評価 ③トレースの Delta Sync を on に設定 (Delta Table が作成され、同期される) ④ダッシュボードに反映される
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 16
オフライン評価 何をやるのか ✓ 事前定義した評価用データセットを用いて、エージェント更新前に品質変化がないかを確認 なぜやるのか ✓ ベンチマーク評価 ✓ 弱点となるユースケースの特定 Evaluation の画面 https://www.databricks.com/jp/blog/introducing-enhanced-agent-evaluation より
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 17
オフライン評価 Unity Catalog Serving endpoint 外部からのリクエストを受け付ける API Traces Logs Charts ダッシュボード trace archiving table model Trace エージェントのログ → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価 ①agent.py を作成 Databricks Mlflow Experiment agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Agent versions model agent.py や依存ライブラリをまと めたファイル群 evaluate runs evaluate run 評価の実行結果 ③スコアラーを定義 ②モデルのバージョン更新 mlflow.pyfunc.log_model() ④評価用データセットを用意 ⑤評価を実行
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 18
Databricks には、AI エージェント運用に役立つ 機能がたくさんあります
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 19
とはいえ…
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 20
「あるべき姿」は 人間が決めないといけない
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 21
エージェントの「あるべき姿」は人間が決めないといけない 前述の運用業務には、前提として集計するメトリクスや評価観点、評価データの整理が必要です。これら全て、 エージェントのあるべき姿を定義することに他なりません。 ロギング トレーシング バージョン管理 デプロイメント オンライン評価 オフライン評価 集計メトリクスの定義 = どの失敗パターンを捕捉したいの? LLM as a Judge による評価観点 = どの観点の品質を重視するの? 評価用データ = どんな振る舞いをよしとするの? これら全て、「理想の AI エージェント」が決まらないと定義できない
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 22
「あるべき姿」を定めるために ◼ 「このエージェントで解決したかった問題」を問い続ける ✓ RAG アプリケーションに届いた「エクセルの使い方に関する質問」は、回答できるようにすべき? ✓ どのような要求まで対応できるようにする?をチーム内で話し合う ◼ 利用ユーザーから直接 FB を集める(明示的な FB) ✓ アプリケーション UI に good / bad や自然言語フィードバックの入力機構をつける ✓ 利用ユーザーに直接聞く ◼ 実際のユーザーの利用履歴(トレース)を観察する(暗示的な FB) ✓ ユーザーから、表現を変えた同様の質問を受け取っていないかを確認する ✓ ユーザーグループ間で会話あたりのターン数に差がないか、あるならその原因は何かを確認する エージェントの「あるべき姿」を定めるためには、ユーザーのフィードバックに根気強く向き合い続け、理想のエー ジェントについて考え続けることが必要です。 根気強くユーザー体験に向き合っていきましょう!