Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Databricksで完全履修!オールインワンレイクハウスは実在した!

 Databricksで完全履修!オールインワンレイクハウスは実在した!

Data Engineering Study #29 今だから学びたいDatabricks徹底活用術での発表資料です!

Akihiro Kuwano

April 24, 2025
Tweet

More Decks by Akihiro Kuwano

Other Decks in Technology

Transcript

  1. ©2024 Databricks Inc. — All rights reserved プロダクト セーフ ハーバー

    ステートメント この情報は、データブリックスの一般的な製品の方向性を概説するために提供 されるものであり、情報提供のみを目的 としています。データブリックスのサー ビスを購入するお客様は、現在利用可能なサービス、特徴、機能のみに依拠し て購入を決定してください。将来見通しに関する記述に記載されている未発表 の機能または特徴は、データブリックスの裁量で変更される可能性があり、計画 通りまたは全く提供されない可能性があります。
  2. ©2024 Databricks Inc. — All rights reserved スピーカー Akihiro Kuwano

    / 桑野 章弘 経歴 ▪ 道玄坂の緑の会社B2C企業でのインフラエンジニアとしてのキャリア や、目黒のオレンジの会社パブリッククラウドベンダーでソリューション アーキテクトとしてキャリアを重ね、現在は京橋のブロックの会社 でソ リューションアーキテクトをしています! ▪ B2C企業担当のソリューションアーキテクトとして様々な案件において技術 支援を実施しております! Databricks Japan 株式会社 Solutions Architect
  3. ©2024 Databricks Inc. — All rights reserved 今日のアジェンダ ▪ Databricksについてご存知ない?

    ▪ レイクハウスとは? ▪ Databricks=オールインワンレイクハウス! ▪ そしてデータインテリジェンスプラットフォームへ ▪ Databricksを使って実現できること ▪ TROCCOさんとDatabricksは仲良し! ▪ Databricksを使ってみよう!
  4. ©2024 Databricks Inc. — All rights reserved Creator of: 9

    12,000+ 顧客数 $3B+ (約4500億円) 年間売上 $62B+ (約9.5兆円) 推定企業価値 lakehouse の発明者で、 generative AI のパイオニア Gartner が認知するリーダーの 1社 - Cloud Database Management Systems - Data Science and ML Platforms データ+AIカンパニー LEADER 2023 Cloud Database Management Systems LEADER 2024 Data Science & Machine Learning Analytic Stream Processing
  5. ©2024 Databricks Inc. — All rights reserved レイクハウスとは レイクハウスはデータレイクの柔軟性とデータウェア ハウスの管理性を兼ね備えた統合アーキテクチャで

    以下の特徴を持ちます ▪ クラウドストレージを活用したデータレイク層を持 つ ▪ データレイク層上にメタデータとデータガバナンス を管理するアプリケーション層を持つ(Delta Lake, Iceberg, HudiなどのOTF) ▪ データウェアハウスの機能、データサイエンスの 機能、機械学習の機能を同一インターフェースか ら利用可能(Dataframe API) ▪ ストレージレイヤへアクセスするためのオープン な方法を提供 Machine Learning データレイク  (S3、ADLS、GCS) 構造化 データ BI/User Data Science メタデータ & ガバナンスレイヤ コンピュートレイヤ ETL Photon
  6. ©2024 Databricks Inc. — All rights reserved レイクハウスとは何か 簡単に言うとこんな感じ! ▪

    管理できるデータレイク ▪ DWH/AI/MLなど幅広くサポートが可能 ▪ パフォーマンスも従来のDWHと同等以上 ▪ OTFでクラウドストレージを有効活用 Machine Learning データレイク  (S3、ADLS、GCS) 構造化 データ BI/User Data Science メタデータ & ガバナンスレイヤ コンピュートレイヤ ETL Photon
  7. ©2024 Databricks Inc. — All rights reserved レイクハウスが実現すること レイクハウスが実現することとは、、、!? ▪

    データの一元管理 ▪ コストパフォーマンス最適化 ▪ BI〜AIまで高度な分析/機械学習のサポート ▪ データガバナンスの強化 ▪ スケーラビリティ ▪ 柔軟性
  8. ©2024 Databricks Inc. — All rights reserved コンピュートレイヤ データの一元管理 データレイク

     (S3、ADLS、GCS) メタデータ & ガバナンスレイヤ ETL Machine Learning BI/User Data Science すべてのデータ をデータレイクへ と保存 サイロの排 除 構造化、非構造 化ファイルの同 一I/Fでの扱い クラウドスト レージの有 効活用
  9. ©2024 Databricks Inc. — All rights reserved コストパフォーマンス最適化 データレイク  (S3、ADLS、GCS)

    メタデータ & ガバナンスレイヤ コンピュートレイヤ Machine Learning BI/User Data Science すべてのデータ をデータレイクへ と保存 サイロの排 除 構造化、非構造 化ファイルの同 一I/Fでの扱い クラウドスト レージの有 効活用 コンピュートとスト レージの 分離 安価なクラウドス トレージの 活用 ETL
  10. ©2024 Databricks Inc. — All rights reserved BI〜AIまで高度な分析/機械学習のサポート データレイク  (S3、ADLS、GCS)

    メタデータ & ガバナンスレイヤ コンピュートレイヤ Machine Learning BI/User Data Science すべてのデータ をデータレイクへ と保存 サイロの排 除 構造化、非構造 化ファイルの同 一I/Fでの扱い クラウドスト レージの有 効活用 コンピュートとスト レージの 分離 安価なクラウドス トレージの 活用 BI〜AIまで 必要な処理を 実行可能 ETL
  11. ©2024 Databricks Inc. — All rights reserved データガバナンスの強化 データレイク  (S3、ADLS、GCS)

    メタデータ & ガバナンスレイヤ コンピュートレイヤ Machine Learning BI/User Data Science すべてのデータ をデータレイクへ と保存 サイロの排 除 構造化、非構造 化ファイルの同 一I/Fでの扱い クラウドスト レージの有 効活用 コンピュートとスト レージの 分離 安価なクラウドス トレージの 活用 BI〜AIまで 必要な処理を 実行可能 統一された データ ガバナンス ETL
  12. ©2024 Databricks Inc. — All rights reserved スケーラビリティ データレイク  (S3、ADLS、GCS)

    メタデータ & ガバナンスレイヤ コンピュートレイヤ Machine Learning BI/User Data Science すべてのデータ をデータレイクへ と保存 サイロの排 除 構造化、非構造 化ファイルの同 一I/Fでの扱い クラウドスト レージの有 効活用 コンピュートとスト レージの 分離 安価なクラウドス トレージの 活用 BI〜AIまで 必要な処理を 実行可能 統一された データ ガバナンス 必要な処理分 スケール可能 必要な処理分 スケール可能 パフォーマン スの最適化 ETL
  13. ©2024 Databricks Inc. — All rights reserved 柔軟性 データレイク  (S3、ADLS、GCS)

    メタデータ & ガバナンスレイヤ コンピュートレイヤ Machine Learning BI/User Data Science すべてのデータ をデータレイクへ と保存 サイロの排 除 構造化、非構造 化ファイルの同 一I/Fでの扱い クラウドスト レージの有 効活用 コンピュートとスト レージの 分離 安価なクラウドス トレージの 活用 BI〜AIまで 必要な処理を 実行可能 統一された データ ガバナンス 必要な処理分 スケール可能 必要な処理分 スケール可能 パフォーマン スの最適化 ETL
  14. ©2024 Databricks Inc. — All rights reserved ノートブック データ分析、ETL、機械学習、アプリ開発まで行える万能インターフェイス マルチ言語対応

    SQL / Python / R / Scala リアルタイム共同編集 柔軟なクラスター管理 処理や負荷に応じたスペック選択 サーバーレスオプション 開発者フレンドリー 生成AIアシスタントによる支援、 自動履歴保存、Git連携、 変数の表示、デバッグ etc.
  15. ©2024 Databricks Inc. — All rights reserved ワークフロー Notebookをはじめとした様々な処理 をパイプラインで実行可能

    柔軟なワークフロー管理 パラメータ渡し、for eachタスク、など柔軟なワークフ ローの構築が可能 様々な実行形式 Notebook, Delta Live Table(Lakeflow pipeline), dbt core, SQL, などなど様々な処理をパイプライン のタスクとして実行可能 低コスト 実行されるクラスタ料金以外追加での料金発生なし
  16. ©2024 Databricks Inc. — All rights reserved SQLウェアハウス 高性能・低コストなSQLとBIの実行基盤 SQL

    & 組み込みの BI SQLエディタ、SQLノートブック、 ダッシュボード、Genieの実行基盤 主要BIツールからの接続性 Power BI / Tableau / Looker etc. JDBC / ODBC接続をサポート アドバンスドな機能 ユーザー定義関数 / AI (LLM) 関数 フェデレーションクエリ(Snowflake / BigQuery / Redshift / 各種RDB etc.)
  17. ©2024 Databricks Inc. — All rights reserved 機械学習 実験から本番運用まで MLOpsをワンストップで実現

    ライフサイクル管理 実験管理、モデル管理、サービング、 モニタリングまで一気通貫でサポート リアルタイム推論 本番環境グレードのサーバーレスの リアルタイム推論エンドポイント LLM機能 カスタムLLMの構築・Fine Tuning AIエージェントの開発から評価まで AutoML ノーコードで迅速なモデル開発 生成されたノートブックでさらに改善
  18. ©2024 Databricks Inc. — All rights reserved Unity Catalog データとAIを一元管理する

    ガバナンス基盤 ガバナンス テーブル、ファイル、モデルなどを一元管理 検索、LLMによる自動コメント生成 リネージや利用状況の可視化 データ共有 Databricks同士/異なるプラットフォームへの安 全なデータ共有 クリーンルームでの安全なコラボレーション
  19. ©2024 Databricks Inc. — All rights reserved ディザスターリカバリ コストコントロール エンタープライズセキュリティ

    100% サーバレス レイクハウス AI/BI ビジネス インテリジェンス Databricks SQL データウェアハウス Workflows/DLT 取り込み、ETL ストリーミング Mosaic AI 人工知能 Databricksデータインテリジェンスプラットフォーム
  20. ©2024 Databricks Inc. — All rights reserved AI/BI ダッシュボード データを素早く可視化、洞察を即座に共有

    AIアシスト 日本語の指示でグラフを作成 SQLに不慣れでも利用できる 自由度の高い分析 SQLでのデータセット定義や 手動でのグラフ作成も勿論可能 強固なインフラ SQLウェアハウスが実行基盤 Unity Catalogとの強固な統合 日本語で指示すると 可視化してくれる 必要なデータも選択可 定期実行も可能
  21. ©2024 Databricks Inc. — All rights reserved SQLいらずでデータアクセス: 自然言語によるクエリ機能により、複雑な SQLの知

    識がなくても質問を入力するだけでデータ分析が可 能 データに応じた答え: データと文脈の変化に応じて、 Genieが独自に学習 して質問に回答します コンテキスト認識機能を備え、ユーザーの過去の質 問や分析履歴を理解して、より関連性の高い結果を 提供 AI/BI Genie 自然言語でデータにアクセスできるAIエージェント
  22. ©2024 Databricks Inc. — All rights reserved AIエージェント作成: Databricksの機能やLLMと連携し、一般的なAIユー スケース向けのドメイン固有

    AIエージェントシステム を作成可能 シンプルなローコード: ドメイン固有のAIエージェントシステムを簡単に構築 ・最適化できる環境を提供。技術的な実装の複雑さ を軽減 AI Builder(ベータ) ローコードでAIエージェント構築! Databricks上に構築: セキュリティやガバナンスからデータ取り込み、ベクト ルデータベース、品質評価など Databricks データイ ンテリジェンスプラットフォームとシームレスに連携
  23. ©2024 Databricks Inc. — All rights reserved Databricksを使って実現できること ▪ データの一元管理

    ▪ ワークフローを管理してETL処理〜AI/MLワークフローまでを綺麗に管理可 能 ▪ データメッシュアーキテクチャ ▪ LLMを活用したマルチLLMエージェント作成
  24. ©2024 Databricks Inc. — All rights reserved Databricksを使って実現できること ▪ データの一元管理

    ▪ ワークフローを管理してETL処理〜AI/MLワークフローまでを綺麗に管理可 能 ▪ データメッシュアーキテクチャ ▪ LLMを活用したマルチLLMエージェント作成
  25. ©2024 Databricks Inc. — All rights reserved 61 マニュアル ユーザフィードバック

    ハードウェア情報 在庫情報 天気情報 サービス履歴 変換 ナレッジ ベクターDB ダッシュ ボード 設備稼働 在庫 サービス履歴 天気 対話型UI sql queries 実現しようとしているシステムイメージ 1. 社内の様々なタイプのデータを 集約 2. ナレッジが集まっているテキスト データとLLMを用いて 社内ナレッジを対話型活用 3. 様々なデータを集約してダッシュ ボードを構成 4. ユーザは同一UIから情報にアク セスし、対話側でアクションを判 断 LLM
  26. ©2024 Databricks Inc. — All rights reserved 62 マニュアル 設備稼働

    在庫 天気 変換 ナレッジ ベクターDB ダッシュ ボード 設備稼働 在庫 サービス履歴 天気 対話型UI sql queries Databricksができること 1. 社内の様々なタイプのデータを集 約 2. ナレッジが集まっているテキスト データとLLMを用いて 社内ナレッジを対話型活用 3. 様々なデータを集約してダッシュ ボードを構成 4. ユーザは同一UIから情報にアク セスし、対話側でアクションを判 断 LLM 構造化 データ 非構造化 データ ストリー ミング データ 外部 データ 生成AI データ加工 ダッシュボード ユーザアプリ リアルタイム処理 データカタログ、データガバナンス デ Iタ 統 合 DWH
  27. ©2024 Databricks Inc. — All rights reserved SCM G Data

    Data Product DWH Insight Apps 製造 G Data Data Product DWH Insight Apps データとAIのセキュリティとガバナンス データ AIハブ G Data Apps Apps Apps Data ML LLM Data Product データ連携・加工・名寄せ・品質管理・MLモデル Corporate G Data Data Product DWH Insight Apps グループ会社 G Data Data Product DWH Insight Apps 開発 G Data Data Product DWH Insight Apps 事業部 G Data Data Product DWH Insight Apps 外部業者など G Data Data Product DWH Insight Apps APP:業界 アドバイザリー 海外 ドメイン G Data Data Product DWH Insight Apps 海外 データ AIハブ マーケット プレイス G LLM Bot デルタ シェアリング 複数ワークスペースにおけるデータAI ガバナンス例 データメッシュアーキテクチャ 63 Marketing G Data Data Product DWH Insight Apps デルタ シェアリング
  28. ©2024 Databricks Inc. — All rights reserved SCM G Data

    Data Product DWH Insight Apps 製造 G Data Data Product DWH Insight Apps データとAIのセキュリティとガバナンス データ AIハブ G Data Apps Apps Apps Data ML LLM Data Product データ連携・加工・名寄せ・品質管理・MLモデル Corporate G Data Data Product DWH Insight Apps グループ会社 G Data Data Product DWH Insight Apps 開発 G Data Data Product DWH Insight Apps 事業部 G Data Data Product DWH Insight Apps 外部業者など G Data Data Product DWH Insight Apps APP:業界 アドバイザリー 海外 ドメイン G Data Data Product DWH Insight Apps 海外 データ AIハブ マーケット プレイス G LLM Bot デルタ シェアリング 複数ワークスペースにおけるデータAI ガバナンス例 データメッシュアーキテクチャ 64 Marketing G Data Data Product DWH Insight Apps デルタ シェアリング Delta Sharing でDatabricks 間のデータ共 有! LLM Botで データ取得 マーケットプレ イスでデータ 共有 この辺は1つの Databricks内で データ分割
  29. ©2024 Databricks Inc. — All rights reserved LLMエージェント作成 開発プロセスを回す部品が揃っている! 65

    データ準備 エージェント構 築 エージェント デプロイ エージェント 評価 エージェントサービング LLM ジャッジ ピア・ラベリング トレース MLOps / LLMOps ML 特徴量 ベクトルインデックス リネージ データ取り込み GenAI モデル Classical ML モデル 関数 & ツール Credentials AI guardrails エージェント管理 AI ガードレール 利用状況の追跡 Credentials レート・リミット
  30. ©2024 Databricks Inc. — All rights reserved LLMエージェント作成 開発プロセスを回す部品が揃っている! 66

    データ準備 エージェント構 築 エージェント デプロイ エージェント 評価 エージェントサービング LLM ジャッジ ピア・ラベリング トレース MLOps / LLMOps ML 特徴量 ベクトルインデックス リネージ データ取り込み GenAI モデル Classical ML モデル 関数 & ツール Credentials AI guardrails エージェント管理 AI ガードレール 利用状況の追跡 Credentials レート・リミット Apache Spark Unity Catalog mlflow AI Gateway AI Builder AI Agent Framework Workflow model serving Foundation model
  31. ©2024 Databricks Inc. — All rights reserved TROCCOさんとDatabricks Data Source

    TROCCO® Destination データ取り込み から リバースETL まで!!!
  32. ©2024 Databricks Inc. — All rights reserved TROCCOさんとDatabricks Data Source

    TROCCO® Destination データ取り込み から リバースETL まで!!! 様々なデータコネク タでデータを取り込 める!
  33. ©2024 Databricks Inc. — All rights reserved TROCCOさんとDatabricks Data Source

    TROCCO® Destination データ取り込み から リバースETL まで!!! 様々なデータコネク タでデータを取り込 める! 他のサービスに データを出力した り、DBにリバース ETLしたり!
  34. ©2024 Databricks Inc. — All rights reserved TROCCOさんとの連携でデータ活用を加速 • 海外サービスだけでなく

    国内のSaaS、Ad等にも対応 • ETL / Reverse ETLにも対応 • GUIベースで直感的に操作可能 • マネージドデータ転送にも 対応 • データ取り込みだけではなく Workflow、 dbt連携、リネージ機 能も搭載 連携のポイント 種類が豊富!!!
  35. ©2024 Databricks Inc. — All rights reserved まとめ ▪ Databricksはデータレイクとデータウェアハウスの利点を組み合わせた真

    のオールインワンレイクハウスプラットフォーム! ▪ 単なるツールではなく、データエンジニアリングからAI開発までをカバーする 統合環境です! ▪ 是非Express Setupからおためしください!
  36. ©2024 Databricks Inc. — All rights reserved We Are Hiring!!!

    ▪ ソリューションアーキテクト、営業など積極採用中です! ▪ 興味のある方は是非桑野(X: @kuwa_tw)を始めDatabricksメンバーにお声 がけください! ▪ 是非よろしくお願いいたしますー! 採用中の職種一覧