Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricks (と気合い)で頑張るAI Agent 運用
Search
camay
February 24, 2026
Technology
550
0
Share
Databricks (と気合い)で頑張るAI Agent 運用
JEDAI Meetup! 2026年2月(
https://jedai.connpass.com/event/383582/
)の発表資料です
camay
February 24, 2026
More Decks by camay
See All by camay
Databricks Lakebaseで見る、ML/LLMシステムでのPostgreSQLの使いどころ
kameitomohiro
0
580
Databricks AI/BI Genie の「値ディクショナリー」をAmazonの奥地(S3)まで見に行く
kameitomohiro
1
590
Lakebaseを使ったAIエージェントを実装してみる
kameitomohiro
0
490
新卒3年目の後悔〜機械学習モデルジョブの運用を頑張った話〜
kameitomohiro
0
590
SnowflakeとDatabricks両方でRAGを構築してみた
kameitomohiro
1
1.7k
SPCSでMLflow~初心者によるMLOps事始め~
kameitomohiro
0
210
Other Decks in Technology
See All in Technology
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development with AI-DLC
yoshidashingo
0
110
Claude Codeを組織で使いこなす— サーバサイドAIエージェント運用の実践知
techtekt
PRO
0
190
AI フレンドリーなエラー監視を TypeScript で実現する
shinyaigeek
2
250
Mastering Ruby Box
tagomoris
3
140
Strands Agents超入門
kintotechdev
1
160
JJUG CCC 2026 Spring AI時代の開発こそ標準化を武器に! ― 方式・プロセス・プラットフォームの標準化
s27watanabe
2
690
Databricks における 生成AIガバナンスの実践
taka_aki
1
280
関西に縁あるMicrosoft MVPsが語るCopilotの未来
kasada
0
1k
AIガバナンス実践 - 生成AIコネクタのデータ漏洩リスクと実務対策
knishioka
0
170
Terraformモジュールは、なぜ「魔境」化するのか
hayama17
1
180
個人の発見を、組織の知恵に 〜生成AI活用を"探索"から"組織の仕組み"へ〜
kintotechdev
2
830
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.5k
Featured
See All Featured
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
61
44k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.6k
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
230
A better future with KSS
kneath
240
18k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
Testing 201, or: Great Expectations
jmmastey
46
8.2k
Believing is Seeing
oripsolob
1
140
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
350
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4.1k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.9k
Statistics for Hackers
jakevdp
799
230k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
10k
Transcript
Databricks(と気合い)で 頑張る AI Agent 運用 DATUM STUDIO株式会社 亀井友裕 2026/02/24 JEDAI
Meetup! 2026年2月
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 2
講演者 亀井 友裕 会社 DATUM STUDIO 株式会社 職業 データエンジニア / AIエンジニア 主な 業務経験 データパイプラインの構築(Databricks) 需要予測モデルの運用(Databricks) RAGの精度改善(AWS) AIエージェントの構築(AWS, Databricks) X @Camay119 (アイコンは→)
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. AI
エージェント、作ってますか?
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 4
AI エージェントの作成 Databricks でも、コーディングエージェントに統合できるAI Dev Kit や Agent Bricks などによって、AI エージェントは簡単に作れるようになってきました。 Databricks AI Dev Kit Agent Bricks (日本リージョンはよ) • コーディングエージェントに統合できる Skills, MCP Tools をまとめた公式パッケージ • Databricks SDK, CLI で操作可能なリソースは大体内包されており、Mlflow Experiment, Model Serving などもコーディングエージェントに操作させることができ る • AIエージェントをノーコードで作成できる機能 • 情報抽出、RAG、スーパーバイザーなどの典型的なエージェントをぽちぽちで作成できる
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. AI
エージェント、運用してますか?
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 6
AI エージェントの運用 AI エージェントを真面目に運用していくのはとても大変です。たくさんやることがあります。 ロギング・トレーシング オフライン評価 オンライン評価 ユーザーフィードバック収集 フィードバック分析 回答不可ケース収集 評価用データセット管理 プロンプトインジェクション検知・対応 システムプロンプト運用 LLMモデルバージョン管理 メモリ管理 ガードレール設計 個人情報混入検知・対応 デプロイメント
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 7
代表的な運用タスク 代表的なタスクに、エージェントのバージョン管理、ロギング、オンライン評価、オフライン評価があります。本発 表では、それぞれのタスク実行に使う Databricks の機能を紹介します。 ロギング トレーシング ✓ リクエストデータのトレースをリアルタイムで評価・監視し、問題があればアラー ト バージョン管理 デプロイメント ✓ プロンプトや基盤モデル、ツールの更新をバージョン管理し、最新版をサービ ング オンライン評価 ✓ リクエスト/ツール呼び出し/応答を時系列で記録・可視化 オフライン評価 ✓ 事前定義した評価用データセットを用いて、エージェント更新前後で品質変 化がないかを確認 ✓ 常時 ✓ エージェント更新時 ✓ 常時 ✓ エージェント更新時 概要 タスク 実行タイミング
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. Databricks
のエージェント運用に関連する機能
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 9
Databricks のエージェント運用に関連する機能 Databricks Mlflow Experiment Unity Catalog Serving endpoint 外部からのリクエストを受け付ける API agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) evaluate runs Traces Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Logs Charts ダッシュボード Agent versions model agent.py や依存ライブラリをまと めたファイル群 trace archiving table model Trace エージェントのログ evaluate run 評価の実行結果 → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 10
バージョン管理、デプロイメント 何をやるのか ✓ プロンプトや基盤モデル、ツールの更新をバージョン管理し、最新版をサービング なぜやるのか ✓ 外部ツールからのエージェントクエリ ✓ モデルに異変が起こった場合のグレードダウン ✓ エージェント変更時の A/B テスト Serving Endpoint の画面
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 11
バージョン管理、デプロイメント Mlflow Experiment Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) evaluate runs Traces Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Logs Charts ダッシュボード trace archiving table Trace エージェントのログ evaluate run 評価の実行結果 → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価 Serving endpoint 外部からのリクエストを受け付ける API agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 Agent versions model agent.py や依存ライブラリをまと めたファイル群 model Databricks ①agent.py を作成 ② モデルのバージョン更新 mlflow.pyfunc.log_model() ③ モデルを UC に登録 mlflow.register_model() Unity Catalog ④ デプロイ agents.deploy()
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 12
ロギング、トレーシング 何をやるのか ✓ リクエスト / ツール呼び出し/応答を時系列で記録・可視化 なぜやるのか ✓ モニタリングによって検出した問題の原因探索 ✓ ユーザー体験の深掘りによる改善の機会の発見 Tracing の画面 https://docs.databricks.com/gcp/ja/mlflow3/genai/getting-started/tracing/tracing-notebook より
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 13
ロギング、トレーシング Unity Catalog agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) evaluate runs Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Charts ダッシュボード trace archiving table model evaluate run 評価の実行結果 → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価 Databricks Mlflow Experiment Serving endpoint 外部からのリクエストを受け付ける API Traces Logs Agent versions model agent.py や依存ライブラリをまと めたファイル群 Trace エージェントのログ ①ユーザーがエージェント とやり取り ②やりとりの履歴をTrace に保存 mlflow.pyfunc.autolog()
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 14
オンライン評価(ベータ機能) 何をやるのか ✓ リクエストデータのトレースをリアルタイムで評価・監視 なぜやるのか ✓ アプリケーションの障害やセキュリティ攻撃、ドリフト等のリスク軽減 ✓ 改善の機会の発見 Production Monitoring の画面 https://mlflow.org/docs/3.1.3/genai/tracing/prod-tracing/#querying-traces-with-context より
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 15
オンライン評価(ベータ機能) Unity Catalog Serving endpoint 外部からのリクエストを受け付ける API agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 evaluate runs Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Agent versions model agent.py や依存ライブラリをまと めたファイル群 model evaluate run 評価の実行結果 → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価 Databricks Mlflow Experiment Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) Traces Logs trace archiving table Trace エージェントのログ Charts ダッシュボード ①スコアラーを作成 Automatically evaluate future traces using this scorer ②出力されたトレースを自動評価 ③トレースの Delta Sync を on に設定 (Delta Table が作成され、同期される) ④ダッシュボードに反映される
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 16
オフライン評価 何をやるのか ✓ 事前定義した評価用データセットを用いて、エージェント更新前に品質変化がないかを確認 なぜやるのか ✓ ベンチマーク評価 ✓ 弱点となるユースケースの特定 Evaluation の画面 https://www.databricks.com/jp/blog/introducing-enhanced-agent-evaluation より
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 17
オフライン評価 Unity Catalog Serving endpoint 外部からのリクエストを受け付ける API Traces Logs Charts ダッシュボード trace archiving table model Trace エージェントのログ → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価 ①agent.py を作成 Databricks Mlflow Experiment agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Agent versions model agent.py や依存ライブラリをまと めたファイル群 evaluate runs evaluate run 評価の実行結果 ③スコアラーを定義 ②モデルのバージョン更新 mlflow.pyfunc.log_model() ④評価用データセットを用意 ⑤評価を実行
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 18
Databricks には、AI エージェント運用に役立つ 機能がたくさんあります
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 19
とはいえ…
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 20
「あるべき姿」は 人間が決めないといけない
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 21
エージェントの「あるべき姿」は人間が決めないといけない 前述の運用業務には、前提として集計するメトリクスや評価観点、評価データの整理が必要です。これら全て、 エージェントのあるべき姿を定義することに他なりません。 ロギング トレーシング バージョン管理 デプロイメント オンライン評価 オフライン評価 集計メトリクスの定義 = どの失敗パターンを捕捉したいの? LLM as a Judge による評価観点 = どの観点の品質を重視するの? 評価用データ = どんな振る舞いをよしとするの? これら全て、「理想の AI エージェント」が決まらないと定義できない
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 22
「あるべき姿」を定めるために ◼ 「このエージェントで解決したかった問題」を問い続ける ✓ RAG アプリケーションに届いた「エクセルの使い方に関する質問」は、回答できるようにすべき? ✓ どのような要求まで対応できるようにする?をチーム内で話し合う ◼ 利用ユーザーから直接 FB を集める(明示的な FB) ✓ アプリケーション UI に good / bad や自然言語フィードバックの入力機構をつける ✓ 利用ユーザーに直接聞く ◼ 実際のユーザーの利用履歴(トレース)を観察する(暗示的な FB) ✓ ユーザーから、表現を変えた同様の質問を受け取っていないかを確認する ✓ ユーザーグループ間で会話あたりのターン数に差がないか、あるならその原因は何かを確認する エージェントの「あるべき姿」を定めるためには、ユーザーのフィードバックに根気強く向き合い続け、理想のエー ジェントについて考え続けることが必要です。 根気強くユーザー体験に向き合っていきましょう!