Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricksによるエージェント構築
Search
Takaaki Yayoi
December 01, 2025
Technology
1
170
Databricksによるエージェント構築
Databricksによるエージェント構築の流れを説明しているスライドです。
Takaaki Yayoi
December 01, 2025
Tweet
Share
More Decks by Takaaki Yayoi
See All by Takaaki Yayoi
生成AI時代におけるグローバル戦略思考
taka_aki
0
210
初めてのDatabricks AI/BI Genie
taka_aki
0
280
Databricks実習を終えた皆様へ - データサイエンスと生成AIの未来
taka_aki
0
89
生成AIによる データサイエンスの進化 - バイブデータサイエンスがもたらす新しい未来
taka_aki
0
130
データとAIで未来を創るDatabricks - 君の可能性を加速させるプラットフォーム
taka_aki
0
130
Databricks Free Editionで始めるMLflow
taka_aki
0
1.5k
初めてのDatabricks Apps開発
taka_aki
3
1k
日本語で指示するだけ!AIで業務効率化を実現する 〜90分で体感する実践ワークショップ〜
taka_aki
0
1.8k
Apache Spark もくもく会
taka_aki
1
310
Other Decks in Technology
See All in Technology
寫了幾年 Code,然後呢?軟體工程師必須重新認識的 DevOps
cheng_wei_chen
1
1.5k
Database イノベーショントークを振り返る/reinvent-2025-database-innovation-talk-recap
emiki
0
240
AlmaLinux + KVM + Cockpit で始めるお手軽仮想化基盤 ~ 開発環境などでの利用を想定して ~
koedoyoshida
0
120
プロンプトやエージェントを自動的に作る方法
shibuiwilliam
15
15k
Haskell を武器にして挑む競技プログラミング ─ 操作的思考から意味モデル思考へ
naoya
7
1.6k
日本Rubyの会: これまでとこれから
snoozer05
PRO
5
200
生成AI活用の型ハンズオン〜顧客課題起点で設計する7つのステップ
yushin_n
0
260
S3を正しく理解するための内部構造の読解
nrinetcom
PRO
3
210
多様なデジタルアイデンティティを攻撃からどうやって守るのか / 20251212
ayokura
0
500
NIKKEI Tech Talk #41: セキュア・バイ・デザインからクラウド管理を考える
sekido
PRO
0
180
モダンデータスタックの理想と現実の間で~1.3億人Vポイントデータ基盤の現在地とこれから~
taromatsui_cccmkhd
1
100
ExpoのインダストリーブースでみたAWSが見せる製造業の未来
hamadakoji
0
170
Featured
See All Featured
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
0
290
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
9
1k
The SEO identity crisis: Don't let AI make you average
varn
0
32
Code Reviewing Like a Champion
maltzj
527
40k
The World Runs on Bad Software
bkeepers
PRO
72
12k
Claude Code のすすめ
schroneko
65
200k
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
390
Exploring anti-patterns in Rails
aemeredith
2
200
Reflections from 52 weeks, 52 projects
jeffersonlam
355
21k
The Curious Case for Waylosing
cassininazir
0
190
Stop Working from a Prison Cell
hatefulcrawdad
273
21k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Transcript
2025 Databricks Inc. — All rights reserved 1 Databricksによる エージェント構築
Databricks Japan 1
©2025 Databricks Inc. — All rights reserved Mosaic AIにより、本番品質でエンタープライズ対応のエー ジェントをより迅速に構築できます
2 既存のデータおよび AI ガバナンスを尊重する エージェントとツール エンドツーエンドの ガバナンス プライバシーおよび レピュテーションに関す る潜在的なリスクを軽 減 評価およびモニタリングされ る正確なエージェントを提供 本番運用品質 最先端の研究に基づいた、 ネイティブな評価および モニタリングを提供 当社のエージェントツールを 使用して、市場投入までの 時間を数か月短縮可能 迅速にイテレーショ ンと再デプロイを行 い、品質を向上 迅速な開発
©2025 Databricks Inc. — All rights reserved データに基づいて推論しツールを活用するエージェント エージェント 構造化データ
非構造化データ 取り込み 変換 オーケストレーション LakeFlow Vector Search ML特徴量 データ AIモデル ツール /関数 チェーン レイクハウス上に構築された唯一のAI基盤に より、データに対してセキュアに推論 ハルシネーションなしに正確な回答を提供する ツールと関数を活用 データからベクトルインデックスと特徴量を自 動的に生成 エージェントコンポーネント(カスタマイズされた モデル、関数、チェーン)を簡単に 構築および使用 3
©2025 Databricks Inc. — All rights reserved ユースケースに合わせたカスタム評価 ユースケースに適した任意の商用または OSSモデルを比較して使用
AIアシスト型ジャッジにより、出力品質を大 規模に自動測定 品質問題の根本原因を追跡し、修正を 反復的に実装および評価し、迅速に 再デプロイ すべてのAIモ デルを 評価、活用 エージェント システムの評 価 Define ground truth Human grading app LLM Judges OpenAI Anthropic Google Mistral DBRX Meta Llama ファインチュー ンした生成AIモ デル 事前トレーニング した古典的ML モデル 商用 オープンソース カスタム 4
©2025 Databricks Inc. — All rights reserved データとモデルに対するガバナンス データからAIモデル、ツールに至る すべてのアセットをネイティブに管理
アクセス制御、レート制限の設定、ガード レールの提供、リネージの追跡が可能 AI Gatewayにより、任意のOSSまたは プロプライエタリモデルを実行、保護、管理 Unity Catalog 発見 データ共有 アクセス制御 監査 リネージ 監視 テーブル ファイル AIモデル ノートブック ダッシュボード AIツール 5
©2025 Databricks Inc. — All rights reserved Databricksの品質に対するアプローチ 高速な開発者インナーループ 正確な品質測定
SME(領域専門家)との容易なコラボレーション 要約: 評価駆動開発がすべての人に利用可能になりました 6
©2024 Databricks Inc. — All rights reserved 7 データ準備 エージェント
構築 エージェントの デプロイ エージェントの 評価 エージェントサービング LLMジャッジ ピアラベリング トレーシング MLOps / LLMOps ML特徴量 ベクトルインデックス リネージ データ取り込み GenAIモデル 古典的MLモデル 関数 & ツール エージェントシステムを構築するための 統合プラットフォーム Credentials AI guardrails エージェントの管理 AIガードレール 使用量追跡 資格情報 レート制限
©2025 Databricks Inc. — All rights reserved エージェントのライフサイクルを順を追って確認し、 Mosaic AIが高品質な
エージェントの構築をどのように支援するかを見ていきましょう プロトタイプの構築、 LLMジャッジによるバイブ品質チェック データの準備、ツールの作成 品質問題の根本原因を反復的に特定して修正 関係者から本番前エージェントに対するフィードバックを収集 品質評価のベンチマークとして評価データにラベル付け エージェントを本番環境にリリースし、本番環境で品質をモニタリング 1 2 3 5 6 4 新たなユース ケース 8
©2025 Databricks Inc. — All rights reserved Unity Catalog エージェン
ト1 ツール2 テーブル ツールコード 記録 & バージョン 非構造化データの埋め 込みとインデックス Vector Search ノートブック、Lakeflowを使用してデータをETL Vector Searchで非構造化データを埋め込み、インデックス ノートブックでPython、SQLを使用してツールを作成 Genieスペースで非構造化データ /text2sqlをエージェント に統合 Step 1: データの準備、ツールの作成 Genie スペース 構造化データの活 用 1. UCモデルとして格納 ; 2. UC関数として格納 9
©2025 Databricks Inc. — All rights reserved Step 2: LLMジャッジ品質チェックによる迅速なプロトタイピング
Unity Catalog エージェ ント ツール テーブル ツール活用 エージェントコード AutoGen OpenAI SDK AI Playground エージェントのプロトタイピング 2 Agent Evaluation プロトタイプの評価 2 Playgroundのノーコードインターフェースでプロトタイプを迅 速にテストし、Agent Evaluationで評価した後、コードにエク スポートして品質のイテレーションを継続 10
©2025 Databricks Inc. — All rights reserved Step 2: 迅速なプロトタイピング
AI Playgroundでは、コードを一切書かずに エージェントのプロトタイプを迅速に作成し、 イテレーション可能 Agent Evaluationに組み込まれたLLM ジャッジにより、初期品質を迅速に評価 完了したら、本番対応のコードを エクスポートして、さらなるカスタ マイズ、評価、デプロイ 11
©2025 Databricks Inc. — All rights reserved Step 3: 評価データセットのラベル付け
高品質な合成 評価データ を生成するために、 Agent Evaluationに生のドキュメントを提供 (オプション)合成評価データを SMEに送信、レビュー依頼 ユーザーリクエスト / トレース / 評価データ Unity Catalog • 合成データを生成 • 品質/コスト/レイテンシを評価 • UIでメトリクスとエージェント出力を確認 して品質をデバッグ Agent Evaluation エージェ ント ツール テーブル 評価データ • ラベリングUI Agent Evaluatio n 評価データのレビュー 訂正 1 3 3 12
©2025 Databricks Inc. — All rights reserved Step 3: 評価データセットのラベル付け
高品質で研究に裏付けられた合成データ によ り、SMEなしでも即座に品質評価を開始 • 貴重なSMEの時間を数時間節約 冗長な文章による回答ではなく、事実のグラウ ンドトゥルースリストを生成するため、 SMEによ るレビューがより効率的に 使いやすく美しくデザインされた UIに より、SMEはゼロから始めることなく、 合成データを迅速に検証 SMEによる更新は、開発者がインナー ループですぐに使用可能 13
©2025 Databricks Inc. — All rights reserved Step 4: 品質問題の特定、修正の繰り返し
Agent Evaluationを使用して品質問題の根本原因を特定 MLflow TracingとAgent EvaluationのUIを使用してデバッグ 特定された根本原因を修正するためにコード/設定を変更して品質を イテレーションし、Agent Evaluationを再実行して修正が機能したかを検証 し、これを繰り返します Unity Catalog • 合成データを生成 • 品質/コスト/レイテンシを評価 • UIでメトリクスとエージェント出力を確認 して品質をデバッグ Agent Evaluation エージェ ント ツール テーブル エージェント コード AutoGen OpenAI SDK ツールコード • コードパッケージ • 可観測性のための トレース 記録 & バージョン 記録 & バージョン 評価データ 4 4 4 4 14
©2025 Databricks Inc. — All rights reserved Mosaic AI Researchが開発したDatabricks
LLMジャッジは、クラス最高の品質測定と速度 を提供します。評価の根拠を平易な言葉で説 明することも含まれます Agent Evaluationは品質問題の最も可能性 の高い根本原因を自動的に特定 シンプルなUIでエージェントの出力を確認し、 エージェントの2つのバージョンを比較 MLflow Tracingにより、複雑なエージェントロ ジックを迅速にデバッグ MLflow loggingにより、エージェントのコードと 設定のバージョンを追跡 Step 4: 品質問題の特定、修正の繰り返し 15
©2025 Databricks Inc. — All rights reserved Databricksのジャッジは高速 16
©2025 Databricks Inc. — All rights reserved Databricksジャッジは高品質 人間との一致度を継続的にチューニングしています ブログ記事を
ご覧ください 17
©2025 Databricks Inc. — All rights reserved Unity Catalog ユーザーリクエスト
/ トレース / 評価データ オープンソース/ カスタムLLM 商用 LLM • エージェントの デプロイ エージェ ント1 ツール2 テーブル Genie Room Vector Search 1. UCモデルとして格納 ; 2. UC関数として格納 Serverless Compute Agent Framework • 品質/コスト/レイテンシを測定 • UIで本番ログを確認 • ログを評価セットに追加 • 品質/コスト/レイテンシ をモニタリング AI/BI Dashboard エージェントでのツー ル活用 エージェントでの データ活用 • レビューアプリ (フィードバック用 チャット UI) Agent Evaluatio n • リクエスト/レスポンス • ユーザーフィードバック Serverless SQL Online Tables Model Serving AI Gateway エージェン ト エンド ユーザー Agent Evaluation REST API 推論テーブル経由のデータフロー • 品質評価 • レイテンシ / 使用量 • ログ & トレース • ユーザーフィード バック 2 1 3 4 Agent Frameworkを使用してレビュー アプリ(フィードバックを簡単に収集できる組 み込みのチャット UI)にデプロイ。 または、Model Servingにデプロイされた エージェントの REST APIと通信するカスタ ムインターフェースを作成 Agent Evaluationのモニタリング機能を使 用して、さらなる品質問題を特定し、ダッ シュボードでユーザーフィード バックを追跡 Step 5: 関係者からフィードバックを収集するた め、本番前環境にリリース 18
©2025 Databricks Inc. — All rights reserved Step 5: 関係者からフィードバックを収集するた
め、本番前環境にリリース Agent Frameworkにより1行のコードで迅速にデプ ロイ Agent Evaluationレビューアプリは、SMEからの フィードバックを簡単に収集できる構築済みのチャッ トアプリを提供 • または、同じAPIを使用して独自の UIを構築 Review Appからのすべてのリクエスト /レスポンス、 MLflow Traces、フィードバックは、AI Gateway経 由でDelta Tablesに記録 Agent EvaluationとAI/BIダッシュボードを使用し て、LLMジャッジとユーザーフィードバックに基づき 品質問題を特定 19
©2025 Databricks Inc. — All rights reserved Unity Catalog ユーザーリクエスト
/ トレース / 評価データ • カスタムアプリ / UI オープンソース/ カスタムLLM 商用 LLM • エージェントの デプロイ • 合成データを生成 • 品質/コスト/レイテンシを評価 • UIでメトリクスとエージェント出力を確認 して品質をデバッグ Agent Evaluation エージェ ント1 ツール2 テーブル Genie Room Vector Search 1. UCモデルとして格納 ; 2. UC関数として格納 エージェント コード AutoGen OpenAI SDK ツールコード Serverless Compute • コードパッケージ • 可観測性のための トレース Agent Framework • 品質/コスト/レイテンシを測定 • UIで本番ログを確認 • ログを評価セットに追加 • 品質/コスト/レイテンシ をモニタリング AI/BI Dashboard 記録 & バージョン 記録 & バージョン エージェントでのツー ル活用 エージェントでの データ活用 評価データ • ラベリングUI Agent Evaluatio n 評価データのレビュー 訂正 • リクエスト/レスポンス • ユーザーフィードバッ ク Serverless SQL Online Tables Model Serving AI Gateway Agent Databricks Apps エンド ユー ザー カスタム アプリ Agent Evaluation REST API 推論テーブル経由のデータフロー • 品質評価 • レイテンシ / 使用量 • ログ & トレース • ユーザーフィードバック 8 8 8 8 7 8 8 AI/BIダッシュボードを使 用して品質をモニタリン グ。ログのLLMジャッジ分 析により品質問題を特 定。ログを開発ループに 戻して品質問題を修正。 必要に応じて、ログを SMEに送信してラベル付 けを依頼 本番デプロイは、本番前環境とまったく同じインターフェースを使用。 Agent Frameworkでデプロイし、 REST APIを作成します。 Databricks AppsでUIを構築 するか、APIを既存のアプリに統合 20
©2025 Databricks Inc. — All rights reserved Step 6: 本番環境にデプロイして品質をモニタリング
Agent Frameworkを使用して、エージェントの UC モデルをスケーラブルで本番対応の REST APIに1行 のコードでデプロイ Agent Evaluationジョブをスケジュールして、トラ フィックのx%にLLMジャッジの品質分析 AI/BIダッシュボードを使用して品質、使用 状況、レイテンシをモニタリング Agent Evaluationの品質分析を使用して、ログの LLMジャッジ分析により品質問題を特定し、ログを Agent Evaluationの開発ループに戻して品質問題 を修正 • 必要に応じて、ログを SMEに送信してラベル 付けを依頼 21
2025 Databricks Inc. — All rights reserved 1. Databricksはあらゆるタイプのエージェントを構築するための完全な ソリューションです
a. 当社のソリューションはエンタープライズ対応であり、開発からオンライン モニタリングまでのエンドツーエンドの機能を提供します 2. 評価、LLMops、モニタリング、ガバナンスを通じて、モデルレイヤーに付加価値を提 供します a. 高品質なLLMに加えて、これらが必要です 3. Unity Catalogは、エージェントとツールを含む、データとAIガバナンスのための統合 ソリューションです 4. ノーコードのUIのみのエージェントソリューションはデモでは優れて見えますが、必要 な品質を達成することはできません a. Databricksは開始時にはノーコードを提供しますが、品質向上が必要な場合にはコードを使 用できます。これによって、単なる PoCではなく、高いROIを実現するエージェントを提供できま す サマリー 22
©2025 Databricks Inc. — All rights reserved 次のステップ 23
2025 Databricks Inc. — All rights reserved 次のステップ 当社のチームと連携して、高いROIが見込めるユースケースを特定してください。 Databricksでエージェントのプロトタイピングをお試しください。
• AI Playgroundを使用 • AI Cookbookを使用 • 合成データを生成して品質を評価! 24