Databricks における生成AIガバナンスの実践

Databricks における生成AIガバナンスの実践 AIガードレールとプロンプト管理を Databricksで実装する 2026/6/8 Databricks Japan 弥生隆明

©2025 Databricks Inc. — All rights reserved 2時間で身につく！ Databricksにおける生成 AIガバナンスの実践
主な対象者 2時間のワークショップを通じて、 Databricksを活用した生成AIガバナンス実践をハンズオン形式で体験いただきます。 • データブリックスを用いた生成AIアプリのガバナンスにご興味をお持ちの方 • 大規模な生成AIアプリケーションを適切に管理したいと考えている方ゴール事前準備アジェンダ 1. 座学（50分） ◦ エージェント時代のガバナンス課題、 Databricksのソリューション 2. ハンズオン（70分） • 生成AIアプリケーション管理の課題を理解する • 課題に対するDatabricksのアプローチを理解する • Databricksにおける生成AIガバナンス機能の使い方を実践を通じて学ぶ • 環境：お客様のPC環境、Databricks環境を利用いただきます • ファイル：弊社よりノートブックを提供いたします

©2026 Databricks Inc. — All rights reserved 自己紹介弥生隆明
(やよいたかあき) Databricks シニアスペシャリストソリューションアーキテクト ▪ 2020年からデータブリックスジャパンにおいて、プレセールス、POCに従事 ▪ 専門領域は生成AI、データエンジニアリング、Webアプリケーション ▪ 青山学院大学特別研究員 ▪ Qiitaでいろいろ書いています。 3 @taka_aki

©2026 Databricks Inc. — All rights reserved 4 MLflowで実践する LLMOps
生成AIアプリケーションの実験管理と品質保証著者弥生隆明，渡辺祐貴，大内山浩，平田東夢，河村春孝　著本書は、LLMアプリケーションの開発・運用に必要な一連のプロセス ――可観測性の確保、品質評価、プロンプト管理、本番展開 ――を、オープンソースプラットフォーム「 MLflow」を使って体系的に実践する技術書です。 LLMアプリケーションは、従来の機械学習システムとは異なる難しさを持ちます。プロンプトのわずかな変更が品質に大きく影響し、エージェントの挙動は複雑で追跡が難しく、コストは見えにくい場所で膨らみます。 MLflow 3はこうした課題に正面から向き合い、トレーシング、評価（ LLM-as-a-Judge）、Prompt Registry、 AI Gatewayといった機能を1つのプラットフォームに統合しました。本書では、シンプルな LLMアプリケーションから始め、 RAGシステム、マルチエージェントまで段階的にカバーしています。実際に動く Pythonコードとともに、「作って終わり」ではなく「運用し続けられる」 LLM アプリケーションの構築方法を提供します。発売中！

アジェンダ前半: 座学（50分） • 1. エージェント時代のガバナンス課題 • 2. AIゲートウェイとガードレール •
3. エージェントの構築とツール連携 • 4. トレースによる可観測性 • 5. プロンプト管理と運用設計後半: ハンズオン（ 70分） • 1. AIゲートウェイとガードレール • 2. 簡易エージェントの構築 • 3. トレースによる可観測性 • 4. プロンプトの登録・バージョン管理合計時間: 120分 (座学 50分 + ハンズオン 70分)

AIがビジネスの在り方を変革する役割に特化したタスクを強化し、生産性と収益効率を最大化生産性ビジネスの再構想マーケティング、研究開発、サプライチェーンなど、製品機
能とコア機能を変革ビジネスの自動化重要なプロセスと意思決定機能を再構成し、マージンの向上、価値創出の加速、競争対応の迅速化を実現

エージェントの乱立が起きている Jira MCP Slack MCP 予測ツールサポートエージェント
法務エージェントマーケティングエージェントレビューエージェント会議要約エージェント ⚠架空の引用 ⚠誤った顧客ID ⚠誤り ⚠架空の引用 ❤Health: ? ❤Health: ? ❤Health: ? ❤Health: ? ❤Health: ? ⚠誤り

企業データに対する低品質な推論リレーションシップの完全なセットが定義されていなければ、エージェントが自律的に動作するために必要なコンテキストを得ることはできませんエージェント Slack MCP
ユーザー設定の記憶会話履歴ベースLLM 製品レビュー会議の文字起こし製品センチメント短期記憶 Web検索MCP レポート生成スキル営業データ社内SharePoint エージェントの乱立とは：

標準化された LLM開発プラットフォームがないという大きな課題に直面しました。異なるチームのエンジニアが多種多様なツールを使用していました。企業データに対する低品質な推論ベンダーが多すぎるエージェントの乱立とは：

Flo Health の専門的な医療知識とデータを使用して、エージェントが正確に応答しているかどうかを理解するために、評価をカスタマイズする方法が必要です。 ? ? ?
? 企業データに対する低品質な推論ベンダーが多すぎる品質を測定する方法がないエージェントの乱立とは：

従業員 HRエージェント CEO給与： $900,000/year 退職金： $2.1B 機密：エージェントの乱立とは：企業データに対する
低品質な推論ベンダーが多すぎる品質を測定する方法がないガバナンスがないエージェントがアクセスするすべてのデータには、きめ細かいアクセス制御が適用され、完全に監査可能であり、 …安全でコンプライアントなAIプラットフォームを形成します

Agent Bricks: エージェントの構築、デプロイ、管理のための統合プラットフォーム ✓ ✓ ✓ コンテキストに基づく推論あらゆるモデルやフレームワー
でネイティブに実行時間の経過とともに品質を評価・改善 ✓ 統合カタログとガバナンス

Genie: 最先端のtext2SQL生成ビジネスセマンティクスメトリクスビューエージェントメタデータ学習済みセマンティクスパーソナライズされ
たテーブルインタラクションツールとテーブルの人気度カスタムセマンティクステキストから抽出されたメタデータ解析されたドキュメント /画像 ✓ ✓ ✓ コンテキストに基づく推論あらゆるモデルやフレームワーでネイティブに実行時間の経過とともに品質を評価・改善 ✓ 統合カタログとガバナンス Agent Bricks コンテキストに基づく推論

あらゆるフレームワークでカスタムエージェントを構築すべての最先端 AIモデルをネイティブに提供 1つの契約、任意のモデル、ロックインなし ✓ ✓ ✓ コンテキストに基づく推論あらゆるモデルやフレームワー
でネイティブに実行時間の経過とともに品質を評価・改善 ✓ 統合カタログとガバナンスあらゆるクラウドで

LLM ジャッジの作成システムの自動最適化コスト対品質オプションの提示エージェント学習トレーシングとデバッグ自動改善
✓ ✓ ✓ コンテキストに基づく推論あらゆるモデルやフレームワーでネイティブに実行時間の経過とともに品質を評価・改善 ✓ 統合カタログとガバナンス

エージェントモデルデータ MCPサーバースキル外部エージェントアクセス制御ディスカバリーリネージ監査
セキュアなオープンデータ共有ビジネスセマンティクスコスト管理品質モニタリング ✓ ✓ ✓ コンテキストに基づく推論あらゆるモデルやフレームワーでネイティブに実行時間の経過とともに品質を評価・改善 ✓ 統合カタログとガバナンス

その他… エージェントプラットフォーム AI ガバナンス開発者プラットフォームコンテキスト推論エージェントナレッジアシスタントスーパーバイザー
エージェントドキュメントエージェント AI ファンクションエージェントオーケストレーションランタイムメモリーモデルキャパシティエージェント /スキル /MCPレジストリ AI ゲートウェイエージェントの可観測性マネージド OAuthアプリカスタムアプリ安全なデータとAIアプリ AI/BI エージェント型ビジネスインテリジェンス Agent Bricks 本番AIエージェント

生成AIの大規模管理における課題モデルの乱立毎週新しいモデルがリリースされるが、プラットフォームチームのプロビジョニングが追いつかない。開発者は回避策を見つけ、組織全体が遅れをとる。可視性の欠如誰が何を使い、コストがいくらかかっているか誰にもわからない。支出の最適化やキャパシティプランニングが不可能。コンプライアンスリスク機密データが監査証跡なしでサードパーティモデルに送信される。
PIIを含む追跡されないリクエスト1件が規制上のインシデントになりうる。本番環境の信頼性生成AIアプリはビジネスクリティカルになりつつあるが、基盤となる APIレイヤーにフェイルオーバーが組み込まれていない。プロバイダーの障害 1件で顧客向け機能がダウンする。 2

AIゲートウェイのソリューション生成AIのコントロールプレーン統一アクセス追加契約なしにOpenAI、Claude、GeminiオープンLLMなど主要モデルすべてに対応。Databricksホスト型キャパシティの利用、または独自キーの持ち込みが可能。コスト管理誰が何を使い、コストがいくらかかっているか誰にもわからない。支出の最適化やキャパシティプランニングが不可能。集中ガバナンスすべての生成AIトラフィックに対する権限管理、コンプライアンス、観測可能性。使用状況と
品質データをUnity Catalogにセキュアに記録。本番環境の信頼性プロバイダー障害時に生成 AIアプリの可用性を維持するための組み込みフォールバックとセーフガード。 2 参加者ごとに専用のエンドポイントを作成し、独立したガードレールを設定可能

AIゲートウェイ

ビルトインガードレール Databricksがチューニング済みの LLMベース検出モデルで動作  入力ガードレール（ LLMの前） • PIIのマスキング（サニタイズ）個人情報をプレースホルダーに置換 •
安全でないコンテンツ（ブロック）暴力、ヘイトスピーチ等を遮断 • ジェイルブレイク（ブロック）プロンプトインジェクション攻撃を検出  出力ガードレール（ LLMの後） • PIIのマスキング（サニタイズ）モデル応答中の PIIを置換制約: • 入力ブロックガードレールは最大3つまで • 出力ガードレール設定時はストリーミング不可

AIゲートウェイのアーキテクチャクライアントエージェント/アプリ/ツール /ai-gateway/mlflow/v1 AIゲートウェイ制御・ガバナンス • 認証・権限管理 • レート制限
(QPM/TPM) • 入力ガードレール LLM推論 (FMAPI / 外部モデル) 出力・記録 • 出力ガードレール • 推論テーブル記録 • Usage Tracking記録フォールバック (429/5xx時)トラフィック分割レスポンス

日本語PIIの検出状況ビルトインPII検出の実機検証結果  検出可能（安定） • 電話番号 → [PHONE] • 住所
→ [ADDRESS] • メールアドレス → [EMAIL]  検出が不安定日本語の人名（「田中太郎」等） — マスキングされない場合がある  ビルトインでは対応外 • マイナンバー（個人番号） • 口座番号日本固有の PIIはカスタムガードレールまたはアプリケーション層で対応

ガードレールの処理順序リクエスト受信ブロックガードレール（並列実行）安全でないコンテンツ OK / ブロックカスタム: マイナンバー OK
/ ブロックカスタム: 競合他社 OK / ブロックすべて OKの場合のみサニタイズガードレール（順次実行） PIIマスキング → テキスト置換 LLM推論 ※ いずれかのブロックガードレールが flaggedを返した場合、即座に HTTP 400 でブロック ※ サニタイズガードレールはブロック後はスキップ（フェイルクローズ設計）

カスタムガードレール LLMがエバリュエーター（評価者）としてポリシー判定を行う 仕組み 1. 送信ガードレールプロンプト + 入力テキストをエバリュエーターモデルに送信 2.
返却エバリュエーターが {flagged: true/false} をJSON形式で返却 3. ブロック flagged=true の場合、リクエストをブロック プロンプト作成のポイント JSON出力指示を明示確実なパースのために必須 Few-shot例の活用違反/非違反の両パターンを JSON形式で記載 1ガードレール = 1関心事小型モデルでの安定動作 databricks-gpt-5-nanoでも動作可能カスタムガードレールを用いることで、ドメイン固有の複雑な判定ロジックを LLMで柔軟に実装可能です。

カスタムガードレールの適用範囲 LLMベースのガードレールには得意・不得意がある  得意（意味的な判定） • 競合他社への言及をブロック • 社内ポリシー違反の検出 • トーン・表現の適切性チェック
 不得意（パターンベース） • マイナンバー: 100%ではない • 口座番号、クレジットカード番号 • JSON出力+few-shotで安定化可能 💡 推奨アーキテクチャ: 多層防御による組み合わせ AIゲートウェイ: 意味的な判定 + ビルトインPII アプリケーション層: 正規表現による確定的なパターン検出

カスタムガードレール : プロンプト例 マイナンバー検出プロンプト [システムプロンプト] あなたはマイナンバーの検出を行うセキュリティ評価者です。必ずJSON形式のみで回答してください。該当する場合: {"flagged": true}
該当しない場合: {"flagged": false} [Few-shot 例] 違反: 「マイナンバーは...」 → {"flagged": true} 非違反: 「申請方法を教えて」 → {"flagged": false} 実装のポイント • JSON出力形式の明示ドキュメントの自動付与だけに頼らず、プロンプト内で構造を確定させる。 • Few-shot例の活用違反・非違反の両パターンを JSON形式で記載し、判定精度を高める。 • エバリュエーターの選定 databricks-gpt-5-nano 等の小型モデルでも安定動作が可能。 💡 構造化された出力指示と具体例の提示により、高度なセキュリティ判定を自動化できます。

推奨: 多層防御アーキテクチャ 1. アプリケーション層 (正規表現チェック /確定的) • マイナンバー: \d{4}-\d{4}-\d{4} •
口座番号: 銀行名 + 7桁数字 • クレジットカード: 16桁数字通過 2. AIゲートウェイ層 (LLMベース判定 /意味的) • ビルトインPIIマスキング • 安全でないコンテンツブロック • カスタム: 競合他社ブロック通過 LLM推論

エージェントとは LLMが自律的にツールを選択・実行し、結果を組み合わせて回答を生成構成要素 • LLMバックエンド : ガードレール付き AIゲートウェイエンドポイント •
システムプロンプト : エージェントの振る舞いを定義 • ツール : LLMが呼び出す外部関数 (function calling) 処理フロー 1. 質問送信（ガードレールが入力を評価） 2. LLMが呼び出すツールを自律的に判断 3. ツールを実行し、結果を LLMに返却 4. ツール結果を踏まえた最終回答を生成 🛡 ガードレールの役割ガードレールはエージェントに到達する前にリクエストを評価・ブロックし、安全性を担保します。

Databricksのエージェント基盤 Agent Bricks: エージェントの構築・デプロイ・管理の統合プラットフォームノーコード/ローコード Supervisor Agent 最大30個のサブエージェントを束ねるオーケストレーター Knowledge Assistant
社内文書Q&Aチャットボット（引用付き） Genieスペース自然言語→SQL変換によるセルフサービス BI カスタムコード • Agent Framework / LangGraph / OpenAI SDKなどで自由に構築 • Unity Catalogでモデル・ツール・プロンプトを一元管理 • Model Servingでワンクリックデプロイ 💻 ハンズオンの内容 OpenAI互換SDKのfunction callingを使用して、カスタムエージェントを構築します。

エージェントの処理フローユーザー → AIゲートウェイ → LLM → ツール → LLM
→ ユーザー ✅ 正常なフロー 1. ユーザー: 「5Gのおすすめプランは？」 2. AIゲートウェイ: ガードレール評価 → 通過 3. LLM: ツール呼び出し判断 → search_plans 4. ツール実行: 料金プラン3件を検索 5. LLM: ツール結果から最終回答を生成 6. AIゲートウェイ: 出力ガードレール評価 → 通過 7. 返却: ユーザーに回答を返却 🚫 ブロック時 (セキュリティ違反 ) 1. ユーザー: 「マイナンバー1234-5678-9012で確認して」 2. AIゲートウェイ: カスタムガードレールが PIIを検知 → ブロック ⚠ LLMには一切到達しません

MLflowトレーシングエージェントの内部動作を構造的に記録・可視化する仕組みスパン構造の例 customer_support_agent ├── llm_call_1_tool_selection — ツール選択 ├── search_plans
— ツール実行 └── llm_call_2_final_answer — 最終回答生成記録される情報 • 各スパンの入力 /出力データ • レイテンシ（各ステップの実行時間） • トークン使用量 • エラー情報 ⚡ 有効化の方法 @mlflow.trace デコレータを追加するだけで、自動的にトレースが開始されます。

トレースの活用開発からデバッグ、本番監視まで一貫した可観測性を提供 🛠 開発時 • エージェントの処理フローを可視化してデバッグ • ツール呼び出しの入出力を確認
• ボトルネック（遅いステップ）を特定 🚀 本番運用 • 全リクエストのトレースを自動記録 • 品質問題の根本原因を追跡 • LLM-as-a-Judge による自動評価と組み合わせ 🖥 エクスペリメント UI • 左サイドバー > エクスペリメント > トレースタブ • スパンの階層構造を視覚的に確認開発フェーズから運用フェーズまで、一貫したUIとAPIでトレース情報を管理し、LLMアプリケーションの信頼性を向上させます。

トレースUI: スパン構造の可視化 MLflowエクスペリメント > トレースタブトレースUIでは、エージェントの各ステップ（スパン）の入出力、レイテンシ、呼び出し関係を視覚的にデバッグできます。

MLflow Prompt Registry プロンプトをコードのようにバージョン管理する 💡 基本概念 • プロンプトはUnity Catalogの関数として保存 •
バージョンは自動採番（ 1, 2, 3, ...）で不変 • エイリアス（production, staging）は特定バージョンを指すポインタ 🔄 ワークフロー 1. register_prompt() で登録（v1） 2. ビジネスルール追加版を登録（ v2） 3. set_prompt_alias('production', v1) 設定 4. エージェントは prompts:/name@production で取得 5. v2 に切り替え → コード変更不要で更新テンプレート変数 : {{company_name}} や {{question}} で動的パラメータ化が可能

監査とコスト管理 📊 推論テーブル • リクエスト/レスポンスのペイロードを Deltaテーブルに自動記録 • ガードレールでブロックされたリクエストも記録 •
参加者ごとのテーブル : <catalog>.<schema>.<endpoint名>_payload 📈 Usage Tracking (system.ai_gateway.usage) • トークン使用量、レイテンシ、ステータスコード • エンドポイント別・ユーザー別・日別の集計が可能 💰 コスト • Beta期間中はAIゲートウェイ機能自体の課金なし • ガードレール評価のトークン消費は通常の FMAPI料金が適用 ※ AIゲートウェイによる可観測性とコストの透明性を確保

プロンプトのデプロイワークフロー 🔄 バージョンとエイリアスの関係 v1 v2 v3 production (本番) staging (検証中)
(開発中) 🚀 デプロイ手順 1. 新バージョン（ v3）を登録 MLflowに新たなプロンプトバージョンを登録 2. staging エイリアスを v3 に設定検証環境で新しい挙動を確認 3. 検証完了後、 production を v3 に切り替え本番エイリアスの参照先をアップデート 4. 問題発生時は production を v2 にロールバック即座に以前の安定バージョンへ差し戻し ✨ メリット • エージェントのコード変更不要 • エイリアス経由での柔軟な取得 prompts:/name@production

本日のハンズオンで構築するもの 🛡 AIゲートウェイ & ガードレール • PIIマスキング（サニタイズ） • 安全でないコンテンツ（ブロック） •
カスタム: マイナンバー検出（ブロック） • カスタム: 競合他社ブロック（ブロック） ↓ LLM (Llama 3.3 70B) ↑ 🤖 エージェント • Prompt Registry @production • search_plans（ツール） MLflow トレース / 推論テーブル / Usage Tracking 🗓 ハンズオンの流れ 1. AIゲートウェイとガードレール（25分） 2. 簡易エージェントの構築（15分） 3. トレースによる可観測性（10分） 4. プロンプトの登録・バージョン管理（15分） 5. まとめ（5分）

ハンズオンのアーキテクチャ全体図 🛡 AIゲートウェイ PIIマスキング安全でないコンテンツカスタム: マイナンバーカスタム: 競合他社 LLM
(Llama 3.3 70B) 🤖 エージェント • Prompt Registry @production • search_plans（ツール） MLflow トレース / 推論テーブル / Usage Tracking

参考ドキュメント Unity AIゲートウェイ https://docs.databricks.com/ja/ai-gateway/ ガードレールの設定 https://docs.databricks.com/ja/ai-gateway/guardrails MLflow Prompt Registry https://docs.databricks.com/ja/mlflow3/genai/prompt-version-mgmt/prompt-registry/
MLflowトレーシング https://docs.databricks.com/ja/mlflow3/genai/tracing/index Agent Framework https://docs.databricks.com/ja/generative-ai/agent-framework/build-genai-apps.html ※ 詳細は公式ドキュメントを参照してください

Databricks における 生成AIガバナンスの実践

Databricks における 生成AIガバナンスの実践

More Decks by Takaaki Yayoi

Other Decks in Technology

Featured

Transcript

Databricks における生成AIガバナンスの実践

Databricks における生成AIガバナンスの実践