Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[2025年5月版] Azure Databricks最新機能アップデート / 202505 ...

[2025年5月版] Azure Databricks最新機能アップデート / 202505 Azure Databricks Latest Updates

Azure Databricksの最新機能アップデートについてご紹介します。

Avatar for Databricks Japan

Databricks Japan

May 16, 2025
Tweet

More Decks by Databricks Japan

Other Decks in Technology

Transcript

  1. ©2025 Databricks Inc. — All rights reserved 【2025年5月版】 Azure Databricks

    最新機能アップデート データブリックス・ジャパン株式会社 2025年5月16日 2
  2. ©2025 Databricks Inc. — All rights reserved I. 最新機能アップデート (15分)

    A. 基盤モデル API:Claude 3.7 Sonnet, Llama 4 Maverick B. AI/BI Genie:Genie Conversation APIs C. Delta Lake:Automatic Liquid Clustering D. レイクハウスフェデレーション:BigQuery, Oracle, Teradata II. 最新機能アップデート: Microsoftクラウド関連 (15分) A. 自動ID管理:Entra IDからユーザー/グループ/SPを自動同期 B. DatabricksジョブのPower BIタスク C. Fabric/Azure Data FactoryのDatabricksジョブアクティビティ アジェンダ (Databricksパート) 1 2
  3. モデル・サービング を使用する以下の機能群も有効化 • AIゲートウェイ • ベクトルサーチ • エージェントフレームワーク・評価 モデル・サービングがazure japaneastで有効化

    有効化された機能 (2025年3月1日〜) • モデル・サービング (CPU) • モデル・サービング (GPU) • 基盤モデル API (Pay per Token) • 基盤モデル API (Provision Throughput) 本日のアップデート
  4. ©2025 Databricks Inc. — All rights reserved 基盤モデル API Databricks

    がホストする基盤モデルを利用 Pay per Token • 使用したトークンに応じた課金 Provisioned Throughput • 秒単位にリクエスト可能なトークン数を あらかじめ設定して利用 • Databricks がホストする基盤モデル (Llama, GTE etc) • ベースモデルがMeta Llama 3.1, 3.2, 3.3 であれば Fine Tuning モデルも利用可能 (=Llama ベースの蒸留モデルも利用可能)
  5. 🎉 Anthropic & Meta との提携を発表 ✅ Llama 4 Maverick 🔁

    Llama 4 Scout (coming soon) ✅ Claude 3.7 Sonnet 🔁 Claude 3.5 Haiku (coming soon)
  6. ©2024 Databricks Inc. [製品] Mosaic AI モデル・サービング サービスに必要なすべてのモデルを一元管理できるサーバーレスサービス Model Serving

    カスタムモデル 基盤モデル 外部モデル MLflowで管理されたサーバーレスコンピュート で、あらゆるモデルをREST APIとしてデプロイ。 CPUとGPU。 Feature StoreおよびVector Searchとの統合。 外部モデルAPIを管理し、ガバナンス、モニタリン グ、ペイロードロギングが可能。 • OpenAI (Azure OpenAI含む) • Amazon Bedrock • Anthropic • Cohere • Google • Databricks Model Serving • etc.. トップクラスの基盤モデルを厳選し、シンプルなAPI で提供中。 • Claude 3.7 Sonnet • Meta Llama 4 Maverick / Scout (Coming Soon) • Meta Llama 3.3 70B Instruct, • Meta Llama 3.1 405B Instruct, • GTE Large (En) (※Embedding) • BGE Large (En) (※Embedding) • etc.. https://docs.databricks.com/en/machine-learning/model-serving/index.html
  7. ©2024 Databricks Inc. LLMは適切なツールを選択する能力が必要に LLMは、膨大なトレーニング データ セットからの知識に基づいてプロンプト に応答するのみ 例えば、RAGのように定型的なたパイ プラインを用いて、LLMの機能を拡張

    LLMが、プロンプトに基づいて自律的 に計画を作成し、必要に応じてツー ルを使用してタスクを実行 単一のLLM パイプライン型 AI AIエージェント ユーザー LLM ユーザー LLM 情報検索 ユーザー … LLM ツール 1 “計算” ツール 2 “検索” ツール 3 “RAG” ツール N “カスタムLLM” 適切なツールを 選択 収集した結果 から複雑な タスクを処理
  8. ©2025 Databricks Inc. — All rights reserved Claude 3.7 Sonnet

    • TAU-Bench ◦ 「航空券の変更手続き」、 「小売サイトでの返品処理」など 実業務を想定したシナリオ ◦ 対話を通してタスクを完遂した割合、ツー ル選択の正確性、効率性を評価 • モデルの特徴 ◦ 多段階のツール使用のプランニング ◦ マルチターンの対話 ◦ データの深い理解 ◦ 思考時間の制御 AIエージェントをテストするフレームワークで最先端のパフォーマンス
  9. ©2024 Databricks Inc. 最終的な生成やツールを全てを大規模 LLM で構成すると、性能は向上するが、 コスト・レ イテンシーが肥大化 きめ細やかなモデル選択も必要に 大規模LLMにAll

    in ユーザー … LLM ツール 1 “計算” ツール 2 “検索” ツール 3 “RAG” ツール N “LLM” 全て最高性能 を求めてall in 適材適所型 ユーザー … LLM ツール 1 “計算” ツール 2 “検索” ツール 3 “RAG” ツール N-1 “SLM” ツール選択や最終的な生成のみを大規模 LLMが担当し、個別ツールはファイン・チュー ニング済みのカスタムLLMやSLMを組み合 わせる ドメイン適応の有 無、期待する性能 で使い分け ツール N “カスタムLLM”
  10. ©2025 Databricks Inc. — All rights reserved Llama 4 Maverick

    オープンLLMとして最高の生成・マルチモーダル性能 • モデルの特徴 ◦ 低コスト (DBUはClaudeの1/6) ◦ MoEアーキテクチャによる高速化 ◦ 12言語サポート ◦ 長いコンテキストウィンドウ (100万トークンをサポート) • より軽量なモデルのLlama 4 Scoutは 近日登場 https://lmarena.ai/?leaderboard
  11. ©2025 Databricks Inc. — All rights reserved Introducing Databricks AI/BI

    すべての人のためのイ ンテリジェントな分析 17 Unity Catalogによるガバナンス Databricks SQLのスケーラビリティ Genie データに自然言語で問い 合わせ、自動的に結果を 可視化 ダッシュボード 視覚的なデータの把握、 組織内への展開、 高性能なクエリエンジンと キャッシュ
  12. ©2025 Databricks Inc. — All rights reserved Genie Conversation APIs

    • APIでデータに対して質問し、回答を受け取る • DBXのUIではなく、Genieエンジンと対話する 独自のユーザーインターフェイスをTeamsなどで構 築できる • 最初のプレビューはQ&A操作のみに限定。CRUD操 作(Genieスペースの作成や命令として保存など)は 長期的なロードマップにある AI/BI Genie と対話するプログラム的方法 Public Preview
  13. ©2025 Databricks Inc. — All rights reserved Liquid Clustering パーティション境界の自動決定

    2023-02-05 2023-02-06 2023-02-07 2023-02-08 顧客 A 顧客 B 大口顧客 小口顧客 小口顧客 顧客 C ターゲット ファイルサイズ 1つのファイルが1人の小口顧客の 複数の日付をカバーするように マージ 指定されたクラスタリングキーに基づいて、 適切なファイルサイズになるようにパーティション境界を自動決定 CREATE TABLE order_table CLUSTER BY customer, date;
  14. ©2025 Databricks Inc. — All rights reserved Automatic Liquid Clustering

    クラスタリングキーの自動決定 データレイアウトの決定を完全に排除 CREATE TABLE tbl_nm CLUSTER BY AUTO; 予測最適化機能 ※自動Optimize 顧客のデータとクエリパターンに基づいて クラスタリングキーも自動的に適用・進化させる Public Preview データ・インテリジェンスに よる最適化の自動化 最適化の実行 クラスタリングカラムの自動更新と クラスタリングの実行 テレメトリの分析 ワークロードのクエリパターンは? クラスタリングの評価 リキッドクラスタリングの設定を どのように更新すべきか?
  15. ©2025 Databricks Inc. — All rights reserved Federationデータソースの増加 23 移行時の一致テストにも活用可能

    Databricksの外部カタログからどのテーブルにも アクセス可能 DWH・カタログの相互運用性 BigQuery, Oracle, Teradataを新規サポート (IcebergはComing Soon) Public Preview & GA Teradata Oracle Iceberg BigQuery フェデレーション フェデレーション
  16. ©2025 Databricks Inc. — All rights reserved I. 最新機能アップデート (15分)

    A. 基盤モデル API:Claude 3.7 Sonnet, Llama 4 Maverick B. AI/BI Genie:Genie Conversation API C. Delta Lake:自動リキッドクラスタリング D. レイクハウスフェデレーション:BigQuery, Oracle, Teradata II. 最新機能アップデート: Microsoftクラウド関連 (15分) A. 自動ID管理:Entra IDからユーザー/グループ/SPを自動同期 B. DatabricksジョブのPower BIタスク C. Fabric/Azure Data FactoryのDatabricksジョブアクティビティ アジェンダ (Databricksパート) 1 2
  17. ©2025 Databricks Inc. — All rights reserved 自動ID管理 事前設定なしでEntra IDのグループ/ユーザー/サービスプリンシパルを自動同期

    ⚠ これまでの課題 • 自動同期にはSCIMプロビジョニングが必要だった: 複雑、Entra ID Premium、Entra ID管理者ロールが必要 • AI/BIダッシュボードの組織内共有:対象ユーザー数が非常 に多い場合の登録作業がハードル ✅ 新機能のメリット • アカウント/ワークスペース管理者が事前設定なしでEntra IDのグループ/ユーザー/SPを追加可能 • Entra ID Premium Editionや管理者ロール不要 • ネストしたグループ、SPの同期にも対応 • AI/BIダッシュボードの組織内共有をシンプル化 自動ID管理とSCIMの比較 機能 自動ID管 理 SCIM ユーザー同期 対応 対応 グループ同期 対応 対応 (直接メンバーのみ ) ネストしたグループ同期 対応 サービスプリンシパル同期 対応 Entra IDアプリ設定 必要 Entra ID Premium Edition 必要 Entra IDクラウドアプリケー ション管理者 必要 IDフェデレーション 必要 パブリックプレビュー
  18. ©2025 Databricks Inc. — All rights reserved 31 Azure Databricksワークフロー

    | ジョブ サーバーレス Scheduled Continuous File Arrival Table Updates トリガー 可観測性 制御フロー ETL ML/AI 分析/BI
  19. ©2025 Databricks Inc. — All rights reserved 32 Databricks ノートブック

    Python スクリプト Python Wheels SQL ファイル/クエリ DLT dbt Java JAR file Spark Submit 1つ以上の タスクから構成 直列 並列 条件分岐 (If/else) ジョブ実行 (モジュール化) タスク間の 制御フローを 利用可能 多様なトリガーをサ ポート ダッシュボード マニュアル トリガー スケジュール (Cron) API トリガー ファイル到着 トリガー テーブル更新 トリガー 継続的 (ストリーミング) For-Each ループ Azure Databricksワークフロー | ジョブ
  20. ©2025 Databricks Inc. — All rights reserved DatabricksジョブのPower BIタスク Power

    BIのセマンティックモデルの更新を効率化 データパイプラインでデータ加工を実 施後、多くのユーザーがPower BIのス ケジュールされた自動更新 (Premium容量の場合、最大48回/日 =30分間隔) でImportモードの モデルを更新 データ加工が完了しても自動更新され るまでモデルへの反映を待つ必要が ある 従来の方法 新しい効率的な方法 ❌ レポート参照データのタイムラグ ❌ リアルタイム性の欠如 ❌ ラグを考慮したレポート設計運用 DatabricksジョブのPower BIタスクにより、データ加工完了後、 即座にPower BIのセマンティックモデルの更新のトリガーが可能に ✔ タイムラグの解消 :常に最新のデータを用いたレポート分析が可能 ✔ 柔軟な更新 :自動更新の制限に縛られず要件に合わせて即時反映 ✔ 運用のシンプル化 :ラグを考慮したレポート設計・運用が不要 Power BI タスク • スケジュール • ファイル到着 • テーブル更新 • CLI/API/手動 • Azure/Fabric Data Factory ⚡トリガーの種類 Databricksジョブ Power BI モデル 更新を トリガー パブリックプレビュー
  21. ©2025 Databricks Inc. — All rights reserved DatabricksジョブのPower BIタスク 前提作業:Power

    BIへの接続を作成 パブリックプレビュー ポイント & クリックで Power BIへの接続を構成
  22. ©2025 Databricks Inc. — All rights reserved DatabricksジョブのPower BIタスク 前提作業:Power

    BIにセマンティックモデルを公開 パブリックプレビュー カタログエクスプローラーから直接公開可能 Power BI Desktopを介する必要なし
  23. ©2025 Databricks Inc. — All rights reserved DatabricksジョブのPower BIタスク ワークフロー

    > ジョブ > タスクを追加 パブリックプレビュー データパイプラインを定義 → 後続にPower BIタスクを追加 → あとはトリガーを定義するだけ!
  24. ©2025 Databricks Inc. — All rights reserved Fabric/Azure Data Factory

    待望のDatabricksジョブアクティビティ が登場 ✅ 新機能の概要 • FDF/ADFパイプラインからDatabricksジョブを 直接実行可能なアクティビティが登場 • Power BI更新やDelta Live Tables、SQLタスクなど、 Databricksのあらゆるタスク をパイプラインに組み込める • サーバーレスジョブ や複数タスクでのジョブ クラスターの共有 など、効率的なジョブ実行が可能 • 再利用可能なパイプラインテンプレート作成のための パラメーター化に完全対応 パブリックプレビュー Azure Databricks Databricksジョブ
  25. ©2025 Databricks Inc. — All rights reserved Fabric/Azure Data Factory

    Databricksジョブアクティビティ パブリックプレビュー Fabric Data Factory Azure Data Factory