Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Databricks Academic Series 〜 データアナリスト編 〜 / acad...

Databricks Academic Series 〜 データアナリスト編 〜 / academic-series-data-analyst

本ワークショップでは、Data+AI業界の最新動向や求められるスキルセットを理解したうえで、Sparkを用いたデータ加工・EDA、ダッシュボードや自然言語分析によるインサイト導出までをハンズオン形式で体験します。データアナリストがDatabricksを活用して、データから価値ある洞察を導き出す一連の流れを学びます。

Avatar for Databricks Japan

Databricks Japan

April 28, 2026

More Decks by Databricks Japan

Other Decks in Technology

Transcript

  1. ©2025 Databricks Inc. — All rights reserved Databricks Academic Series

    ~ データアナリスト編 ~ ~DE-TA 主な対象者 ワークショップを通じて、 Data+AI業界の最新動向 から、Sparkを用いたデータ加工・ EDA、ダッシュボードや自然 言 語分析によるインサイト導出までを ハンズオン 形式で学びます。 • Sparkを用いたデータ加工やEDAを実践的に学びたい方 • ダッシュボードや自然言語分析を活用したデータ分析に関 心のある方 ゴール 事前準備 アジェンダ 1. Data+AI業界で働く人とスキルセット、事例 2. Sparkを用いたデータ加工と EDA 3. ダッシュボードと自然言語分析によるインサイト導出 4. 実践演習 • Data+AI業界の全体像と、求められるスキルセットを理解 する • Sparkを用いたデータ加工とEDAの基本を理解する • ダッシュボードと自然言語分析によるインサイト導出の流れ を理解する • 環境:お客様のPC環境、Databricks環境を利用 いただきます
  2. 講義の全体像 モジュール # 講義 Data+AIの今 1 Data+AI業界で働く人とスキルセット、事例 データアナリスト編 2 Sparkを用いたデータ加工とEDA

    3 ダッシュボードと自然言語分析によるインサイト導出 4 実践演習 データエンジニア編 5 Sparkを用いた大規模データ加工 6 パイプラインの構築 7 実践演習 データサイエンティスト編 ①機械学習 8 ノートブックによるモデル開発実践 (SparkMLを活用) 9 MLOpsによる業務品質のモデル開発サイクル 10 実践演習 データサイエンティスト編 ②大規模言語モデル 11 大規模言語モデル(LLM)の理論と実践 12 AIエージェントの理論と実践(LLMOps含む) 13 実践演習
  3. 今求められているデータサイエンスの力 6 産業界は今、あなたのような専門性を持つ人材を強く求めている データ駆動型への変換 データ+AI人材の不足 具体的な課題の解決 - 企業のDX加速 - データが競争力の源泉

    - 世界:ITスキル不足により 2026年までに5.5兆ドル の損失*1 - 国内:17.6万人のデータ 関連人材需要*2 - 需要予測・異常検知、サ プライチェーン最適化etc - データはあるが活用でき ない状態からの脱却 *1: IDC, 2024 https://my.idc.com/getdoc.jsp?containerId=prUS52128824 *2: 矢野経済研究所 , 2023 https://www.yanoict.com/summary/show/id/715
  4. 産業環境におけるデータサイエンス 7 評価指標 Metrics 時間軸 Timeline 成果物 Deliverables 体制 Team

    データ Data • 説明性 • 投資対効果 • UX向上 / コスト削減 • 週〜月単位の価値提供 • 実証済みの手法を活用 • 継続的なデリバリー • 具体的な問題解決 • 本番運用システムとの接 続 • 継続的な価値提供 • 多職種協働 (エンジニア・デザイナー・ ビジネス) • 組織横断の調整 • ノイズが多く不完全 • 多様なフォーマット • リアルタイムな変化 産業でのデータサイエンスの取り組みは、研究と異なる目的や環境を持つ
  5. 14 求められる技術スタックの例 データ基盤構築の技術 データを準備する 分析・モデル開発の技術 データから価値を作る 本番運用・協働の技術 価値を届け続ける クラウド・インフラ #コンピュート基盤

    #ネットワーク設計 #IAM・ セキュリティ #可用性・運用 ストレージ・データベース #RDB #NoSQL #オブジェクトストレージ # データレイク #データウェアハウス#データレイ クハウス パイプライン #ETL/ELT #ストリーミング #分散処理技術 ガバナンス #スキーマ管理 #メタデータ管理 #機密情報 保護 #権限管理 #監査 プログラミング・ソフトウェア開発 #実装(SQL/Python/他)・API化 #テスト #コード品質管理 データ処理・探索 #探索的可視化 #特徴量エンジニアリング 評価・実験設計 #評価指標策定 #オフライン・オンライン評価 モデリング・アルゴリズム #伝統的ML(回帰/分類)#深層学習 #生成 AI(プロンプト設計・RAG/Agent) MLOps・ワークフロー #実験管理 #モデルレジストリ #CI/CD/CTパイプライン #スケジューリング/ オーケストレーション #モニタリング・自動再学 習 開発プロセス・チーム開発 #バージョン管理 #レビュー・ペアプロ #ドキュ メンテーション #プロジェクトマネジメント ビジネス活用 #BI・ダッシュボード #レポーティング #アラート 通知・オペレーション連携 #業務プロセスへの 組み込み #意思決定支援 データエンジニア データサイエンティスト/ MLOpsエンジニア データアナリスト 優れたデータ+AI組織を持つ企業では異なるスキルセットの人材が協業する
  6. D プロトタイプから本番システムへ 17 DSの成果を本番化にするには、データ基盤とMLOpsを両立したDATA+AI統合プ ラットフォームが不可欠 DATA AI 多様なデータの統合管理 :テーブル、画像、音声、ドキュメ ントなどあらゆるデータの一元管理

    他データソースとの接続 :バッチやストリーミング、複製や 仮想化の使い分けによる中央統合 スケーラブルな処理基盤 :データ量の増加に対応できる拡 張性と安定的な処理性能 品質・リネージ・監査 :どのデータがいつ・どのように生成さ れたかを追跡 データ基盤
  7. D プロトタイプから本番システムへ 18 DSの成果を本番化にするには、データ基盤とMLOpsを両立したDATA+AI統合プ ラットフォームが不可欠 DATA AI モデル開発〜運用の自動化 :学習・デプロイ・監視のサイク ルの確立

    継続的なモデル改善:本番環境での性能監視と再学習 ガバナンスと再現性:モデル管理、バージョン管理、監査対 応 LLMOpsへの拡張:サイクルに基盤モデル選定、プロンプト 管理、チューニングを追加 MLOps
  8. DBSQL Data warehousing Lakeflow Ingest, ETL, streaming Marketplace Data &

    AI marketplace Apps Secure data & AI apps Lakebase Transactional database AI/BI Business intelligence Mosaic AI Artificial intelligence Data Intelligence Platform
  9. データプラットフォーム アーキテクチャの変遷 データベース、 etc ETL データウェアハウス BI・レポート ビジネス アナリスト クラウドストレージ

    画像、音声、動画、文書、 ... ビジネス アナリスト データ サイエンティスト データ エンジニア ノートブック ・機械学習 パイプライン ETL/ELT データ ウェアハウス BI・レポート ビジネス アナリスト データ サイエンティスト データ エンジニア メタデータ・ガバナンス層 (ACL / リネージ / 監視 / モニタリング ..) 全てのデータ BI・レポート・パイプライン・ノートブック・機械学習 etc 1990s データウェアハウス 2010s データレイク 2020s データレイクハウス
  10. 用語(データウェアハウス ) Data Warehouse データベース、 etc ETL データウェアハウス BI・レポート (+)

    企業データの統合 (-) 構造化データのみ対象 (-) 限定的な拡張性(ストレージとコン ピュートが密結合) 1990sに登場 ペルソナ:ビジネスアナリスト ストレージ:DHW内ブロック データ:構造化データ ビジネス アナリスト 長所 短所 特徴
  11. 用語(データレイク ) Data Lake クラウドストレージ 画像、音声、動画、文書、 ... ビジネス アナリスト データ

    サイエンティスト データ エンジニア ノートブック ・機械学習 (+) 低コストなストレージ (+) 非構造化データにも対応 (+) ストレージの高い拡張性 (-) 低い信頼性 (Data Swamp) (-) サイロ化 2010sに登場 ペルソナ:データエンジニア、データサイ エンティスト他 ストレージ:クラウドストレージ データ:非構造化 データ パイプライン ETL/ELT データ ウェアハウス BI・レポート 長所 短所 特徴
  12. 用語(データレイク ) サイロ化されたデータシステムの課題 ビジネス アナリスト データ サイエンティスト データ エンジニア データ提供者(管理者・エンジニア)

    • データとシステムの権限管理・運用が複雑化 • 非構造化データを扱えていない • 別部署/拠点とのデータ連携をすぐに行えない データ消費者(アナリスト・サイエンティスト) • 分析したいデータが存在しない、見つからない • 大規模なデータを扱える環境がない • チーム間のコラボレーションが加速しない Data Lake ロックイン/断片化したデータ 分散するセキュリティポリシー
  13. 用語(データレイクハウス ) Data Lakehouse ビジネス アナリスト データ サイエンティスト データ エンジニア

    (+) 低コストなストレージ (+) ストレージ/計算資源双方の拡張性 (+) ACID保証による高信頼性 (+) 統合データガバナンス 2020sに登場 ペルソナ:全てのデータ &AIユーザー ストレージ:クラウドストレージ データ:全て メタデータ・ガバナンス層 (ACL / リネージ / 監視 / モニタリング ..) 全てのデータ BI・レポート・パイプライン・ノートブック・機械学習 etc 長所 短所 特徴
  14. 用語(データレイクハウス ) Data Lakehouse ビジネス アナリスト データ サイエンティスト データ エンジニア

    メタデータ・ガバナンス層 (ACL / リネージ / 監視 / モニタリング ..) 全てのデータ BI・レポート・パイプライン・ノートブック・機械学習 etc Lakehouse Data Intelligence Platform DBSQL Data warehousing Lakeflow Ingest, ETL, streaming Marketplace Data & AI marketplace Apps Secure data & AI apps Lakebase Transactional database AI/BI Business intelligence Mosaic AI Artificial intelligence
  15. 用語(データレイクハウス ) Data Lakehouse ビジネス アナリスト データ サイエンティスト データ エンジニア

    メタデータ・ガバナンス層 (ACL / リネージ / 監視 / モニタリング ..) 全てのデータ BI・レポート・パイプライン・ノートブック・機械学習 etc Lakehouse Data Intelligence Platform DBSQL Data warehousing Lakeflow Ingest, ETL, streaming Marketplace Data & AI marketplace Apps Secure data & AI apps Lakebase Transactional database AI/BI Business intelligence Mosaic AI Artificial intelligence トランザクション & バージョン管理を実現し、 大量データの分析を可能とする オープンテーブルフォーマット 組織の全データと AIのアクセス権限を一元管理し セキュアなデータ活用を実現する ガバナンス基盤 データ分析・ AI開発・リアルタイム処理まで、 データと AIに必要な機能を 全部入り で搭載
  16. なぜ企業で Databricksが求められているか 35 ✓ データサイロの解消 ✓ データとAIの民主化 ✓ 研究開発から本番運用までシームレス ✓

    クラウドネイティブでスケーラブル ✓ 世界10,000社以上が採用 世界10,000社以上が、データサイロ解消とAI民主化のために採用
  17. ガバナンスは単なる データの保護ではない アクセス コントロール ディスカバリー リネージ 監査 安全・オープン データ共有 品質

    モニタリング コスト コントロール ビジネス セマンティクス セキュリティ コラボレーション 品質 洞察 誰がどのデータに何ができるか を明確化し、リスクを抑えて業 務を進められるようにする 必要なデータをすばやく見つけ て理解し、意思決定や分析の 着手時間を短縮する データの来歴と影響範囲を可 視化し、変更のリスク評価と調 整を迅速化する 操作履歴の証跡を残して、内部 統制やコンプライアンス対応を 確実にする 社内外の関係者と安全にデー タ連携し、スピードと統制を両立 して協業を進める 重要データの鮮度や抜け漏れ を常時監視し、異常を早期検知 して業務影響を最小化する 利用とコストを見える化して、投 資対効果の最大化と予算順守 を実現する 指標や定義を全社で統一し、 「同じ数字・同じ物差し」を保証 して議論・意思決定の質を高め る 従来 現代
  18. すべてのデータ資産 にガバナンスを適用することは困難 分断されたデータ・ AIのガバナンス アクセス管理、監査、モニタリング、オ ブザーバビリティ、リネージ オープンな接続性の欠如 アクセスとクロスプラットフォームのコラ ボレーション ビルトインのインテリジェンスの欠如

    データの発見、理解、領域に関する洞 察の獲得 サイロ Delta Lake Parquet Iceberg 異なるデータフォーマット データレイク データウェアハウス データベース カタログ 複数の データソース テーブル AI モデル ファイル ノートブック ダッシュボード 多様なデータ ・AI資産
  19. 従来の カタログ Delta Lake Parquet Iceberg アクセス コントロール ディスカバリー リネージ

    監査 安全・オープン データ共有 品質 モニタリング コスト コントロール ビジネス セマンティクス セキュリティ コラボレーション 品質 洞察 テーブル AIモデル ファイル ノートブック ダッシュボード あらゆる 外部データソース を接続 あらゆるツール、エンジン、プ ラットフォーム によるオープンアクセスとコラ ボレーション すべてのData+AI の統合かつオープンなガバナンス
  20. • すべてのファイル、テーブル、ML モデル、 AI ツール、ノートブック、ビジネス メトリクス を 1 つのカタログにまとめ 、運用効率を高

    める • Delta、Iceberg、Parquet など、任意の オープン データ形式を活用可能 • データの保存場所に関係なく、すべての データの唯一の信頼できるソース を作成 する 統合されたディスカバリー
  21. • アクセス ポリシーを管理し、すべての データと AI を監査するためのシンプル なインターフェース でコンプライアンスを 向上 •

    きめ細かなアクセス制御 と属性ベース のポリシー でデータ セキュリティを強化 • セルフサービスアクセスワークフロー で データの検出から利用までのプロセスを 加速 統合されたアクセス管理
  22. • リアルタイムの列レベルのリネージ によ り、データフローと依存関係を追跡する運 用オーバーヘッドを削減 • タグ付けと自動分類 により、機密データと AI 資産のコンプライアンスを向上

    • AI を活用したモニタリングとアラート によ り、データ品質を確保 • 請求、使用状況、コスト、コンプライアンス に関するエンドツーエンドの可視性 を実現 統合された監視と可観測性
  23. • データの複製なしで外部データベース、 データ ウェアハウス、オープン テーブル形 式のカタログにフェデレーションアクセス し てクエリを実行する • あらゆるツール、エンジン、プラットフォーム

    からアクセスしてベンダー ロックインを回避 し、幅広い相互運用 性を実現する • オープンソース基盤でガバナンスを将来に わたって保証する オープンなアクセス Amazon EMR Open APIs Federation AWS Glue Iceberg Catalog Azure Synapse Analytics Amazon Redshift Google BigQuery Horizon PostgreSQL Kafka External data sources External clients, engines and tools
  24. • ETLやデータ複製なしで、オープンな クロスクラウド、クロスプラットフォー ムのデータ共有により、信頼できる データと AI アセットで協業する • スケーラブルなクリーンルーム を使

    用しクラウド、リージョン、プラット フォーム間で機密データに関する パートナーとの安全なコラボレーショ ンを実現する オープンなコラボレーション Apache Spark pandas PowerBI Tableau Microsoft Excel Databricks PostgreSQL MySQL Snowflake Amazon Redshift Azure SQL Azure Synapse Google BigQuery Apache Hive AWS Glue
  25. • AI を活用したコメントとタグで明確さと理解を促 進 • コンテキスト認識検索と自動生成されたデータ インサイトにより生産性を向上 • あらゆるワークロード、あらゆるユーザーにドメイ ン

    インテリジェンスを提供するインテリジェント ア シスタントによりワークロードを高速化 • AI を活用した最適化によりパフォーマンスを最 大化し、TCO を改善 ビルトイン インテリジェンス 58
  26. カタログエクスプローラー 60 テーブル構造・説明 列名、データ型、 ビジネスメタデータ 等 その他基本情報 作成/最終更新の日時、ユー ザー、ストレージの場所、テー ブルプロパティ

    等 履歴 いつ、誰が、どのコードやジョ ブでどんな処理をしたか、等を 一覧表示 アクセス権限 アクセスできるユーザーや権 限の種類 データリネージュ 他のデータとの依存関係の可 視化、ジョブや MLモデル、コー ドとの関連も表示 利用状況 このテーブルを使用している 主なユーザー、クエリやコー ド、利用頻度 等を可視化 データプロファイル データの中身に関する様々な 統計、データ品質のダッシュ ボード
  27. データメッシュとは? 課題:大規模組織での中央集権的データ基盤の限界 • 中央集権構造の限界: 中央のデータレイクと単一データチームに極度に集約され、スケール せずボトルネックと過負荷が発生 • 品質・アジリティ不足: 文脈を失った低品質データが蓄積し、分析までのリードタイムが長く、 脆いパイプラインが散在

    • データ所有と責任の欠如: ドメイン(事業部)側がデータの所有権・責任を持たず、「中央チー ム待ち」と副産物的なデータ扱いが常態化 https://datameshlearning.com/getting-started/ https://martinfowler.com/articles/data-mesh-principles.html 解決策:データメッシュ - 企業のデータ管理における分散型アプローチ • ドメインと中央による分担型データガバナンス: ドメインに十分な自律性を持たせながらガバ ナンスを遵守するために、ドメインと中央IT組織の間で責任を分担 • セルフサービス型データ基盤: データエンジニアリング能力を持たないドメインチームがデー タプロダクトを自律的に作成、開発、維持できるようなセルフサービスツールを提供し、ドメイ ンによるデータオーナーシップを可能に
  28. データメッシュ構成例:大手金融グループ 63 銀行 ドメイン * G Data Data Product DWH

    Insight Apps Amazon Redshift Fed ** 流通系 企業 G Data Data Product DWH Insight Apps データとAIのセキュリティとガバナンス データAIハブ G Data Apps Apps Apps Data ML LLM Data Product データ連携・加工・名寄せ・品質管理・MLモデル 証券 ドメイン G Data Data Product DWH Insight Apps Amazon Redshift Fed ** 市場 ドメイン G Data Data Product DWH Insight Apps Amazon Redshift Fed ** ウエルス ドメイン G Data Data Product DWH Insight Apps Amazon Redshift Fed ** 与信 ドメイン G Data Data Product DWH Insight Apps Amazon Redshift Fed ** 広告系 企業 G Data Data Product DWH Insight Apps クリーンルーム クリーンルーム 外部業者など G Data Data Product DWH Insight Apps APP:金融 アドバイザリー お客様 FP 海外 ドメイン G Data Data Product DWH Insight Apps 海外 データAIハブ マーケット プレイス G LLM Bot デルタ シェアリング
  29. データメッシュの 4原則 #1 ドメイン所有権 (Domain Ownership) #2 プロダクトとしてのデータ (Data as

    a Product) • ドメインチームが自身のデータに責任を持つ • 分析データはドメインを中心に構成される • 中央のデータチームからドメインチームにデータの所有権が移行 する ドメインチーム:マーケティング、財務、顧客サービスなど、特定の事業領域や機能 に特化したチームを指す。そのドメインに関する深い知識と専門性を持ち、データ の生成から分析まで一連のプロセスを担当する • 分析データにプロダクト思考の哲学を適用する • ドメインチームは他のドメインのニーズを満たす高品質なデータ を提供する責任がある • ドメインデータは公開APIと同様に扱われるべき プロダクト思考:データを単なる情報の集合体ではなく、価値あるプロダクトとして 扱う 公開APIと同様:データへのアクセスや利用方法を標準化し、明確に定義されたイ ンターフェースを通じて提供する #3 セルフサービス型データ基盤 (Self-serve Data Infrastructure Platform) #4 連合ガバナンス (Federated Governance) • データ基盤にプラットフォーム思考 を採用する • 専門のデータプラットフォームチームが、全ドメインのデータプロ ダクトを構築・実行・維持するための機能やツールを提供する • ドメインチームがデータプロダクトを簡単に消費・作成できるよう にする プラットフォーム思考:多様なニーズに対応できる基盤(プラットフォーム)を構築す るアプローチで、将来的な拡張性や柔軟性を考慮し、様々なアプリケーションや サービスが構築できる環境を提供することを目指す • 全データプロダクトの相互運用性を標準化によって実現する • ガバナンスグループがデータメッシュ全体で標準化を推進する • 組織のルールや業界規制に準拠したエコシステムを作る 相互運用性:異なるシステムや組織間でデータやサービスをシームレスに交換・利 用できる能力を指す。具体的には、共通の標準やプロトコルの採用、データフォー マットの統一化、 APIの標準化と公開、セマンティックな相互運用性の確保など
  30. データメッシュのための Databricksの機能 #1 ドメイン所有権 データ生産者であるドメイン チーム が、自分たちのデータ とその結果に責任を持つこと ができる分散アーキテクチャ •

    オープンで柔軟なアーキテク チャにより、ドメインごとの ワークスペース /カタログを実 現 • データ資産とパイプラインの 分散所有 #2 プロダクトとしてのデータ プロダクト思考 を分析データに 適用し、ソースドメインを超えた データ消費者 に質の高いデー タを提供する • FAIR*データのためのオープンス タンダードとフォーマット • Delta LakeによるACID保証、 バージョン、監査 • Delta Live Tablesによる新鮮で 高品質なデータ #3 セルフサービス型データ基盤 共通のツールによる相互運用可 能なデータ製品の構築、実行、 維持のためのドメインにとらわれ ないアプローチ • すべての分析ワークロードに対 応する統一プラットフォーム • Databricks Workflowによるマ ネージドオーケストレーション • オートスケーリング & サーバーレ ス • IaC (Terraform) #4 連合型ガバナンス 標準化を通じて、組織のルール や業界の規制に準拠したデータ ・エコシステムを構築する。 • Unity Catalogによるディスカバ リー、アクセス、リネージ • データおよびコンピュートリソー スへのアクセス用のグローバル ポリシーテンプレート
  31. データメッシュパラダイムを採用する主な理由 1. 自律性と説明責任 • 中央のモノリシックなプラットフォームやプロセスによるボトルネックを回避する • 包括的なガバナンス・ルールを尊重しつつ、ドメインが自給自足できるようにする 2. データ品質とユーザビリティの向上 •

    データとドメインを最もよく知るチームに任せる • ドメインに関連した品質とユーザビリティを、後付けではなく、設計によって実現する • データ作成者は消費者を満足させ、報酬を得るべきである 3. (クロスドメインの)コラボレーションと生産性の向上 • チーム間でのデータ共有とアクセスの簡素化 • オープンスタンダード、相互運用性、 FAIRデータ原則の奨励 * FAIR: Findable, Accessible, Interoperable, Re-usable
  32. データメッシュ構造の適格条件 エグゼクティブ スポンサーシップ データドリブンな ビジネスユニット 組織の規模 • 変革をサポートするリーダーシップ が必要 •

    複雑な組織につきものの絶え間ない変化、継続的な成長、不確実性に対処する • ビジョンを戦略やロードマップに反映 させる方法を理解する • データメッシュが意味を持つためには、組織内のビジネスユニットが以下の両方を望む こ とが重要である: ◦ 他のチームのデータプロダクトを分析に使用する ◦ 自分たちのデータをプロダクトとして他のチームに提供する • いくつかのビジネスユニットは、データメッシュのデータドメインとして組織化される • データメッシュのアプローチが有益であるためには、組織が「十分に大きな規模」 である 必要がある。 • 異なるビジネスユニットに十分なデータ+ AI人材が存在 し、ドメインへの分割が実際に意 味を持つ必要がある。 • 成長する可能性のある小規模な組織では、標準的なレイクハウスから始め、将来の拡張 に備える
  33. BI Platform Databricks Platform Unity Catalog データ ウェアハウス AI/ML データ

    加工 全てのデータ データのサブセット BIガバナンス BIダッシュボード 限定された AIの知識 データとガバナンスのポリシーを複製 “レガシー”なBIの典型的な問題 AIアシスタントの知能の限界 特定のダッシュボードやセマンティックモデルに関す る知識しか持たない 管理すべきシステムが複数存在 データセット、セマンティクス、ガバナンスモデルの同期 を保つのが困難。追加の BIライセンス購入が必要とな る パフォーマンスとスケールのどちらかを選択 データの抽出が必要か、ダイレクトクエリーのレイテン シ問題に対処する必要がある 78
  34. ネイティブ BIの典型的なメリット 統合 スケーラブル インテリジェント 1 2 3 79 統合された

    BI、ガバナンス、セマン ティクスにより、単一プラットフォーム から洞察を得られる。 別途ライセンスの調達、管理すべき 「シャドーデータウェアハウス」、矛盾 するKPIは不要。 ボリュームや抽出レイテンシの制限な く、「Databricks規模」のデータセット を分析する ライブクエリパフォーマンスパックを購 入する必要がない データ資産、利用パターン、ビジネス 概念に関する深い知見を基盤とした AIが、迅速にカスタマイズされた正確 な回答を生成する
  35. Introducing Databricks AI/BI 全てのお客様のためのインテリジェントな分析ツール 80 Governed with Unity Catalog |

    Powered by Databricks SQL Dashboards 組織全体のための迅速かつ安全な可視化インサイト Genie データと自然言語で対話 Included with Databricks SQL—No extra license fees
  36. Included with Databricks SQL—No extra license fees AI/BI Dashboards Data

    visualization in the era of AI AIをコアに内蔵 あらゆる段階でインテリジェントな支援により、 データ可視化、トレンド予測、主要要因分析を 容易に実現 “光速”な分析 簡素化されたコンテンツモデルとネイティブな パフォーマンス最適化により、大規模環境でも ほぼ瞬時のインタラクティブ性を実現 配布に最適化 組織全体で、また信頼できるパートナーや 顧客と、安全に知見を共有する
  37. BIプラットフォーム Data Governance Semantic Models BI Dashboards & AI-bots Databricksプラットフォーム

    Unity Catalog Data Warehouse AI and ML Data Engineerin g All your data Semantic Models Data Governance Databricksプラットフォーム Unity Catalog Data Warehouse AI and ML Data Engineering All your data Semantic Models Data Governance AI/BI Dashboards & Genie Subsets of your data 統合BI スタンドアロン BI ✔ ✔ ✔ ✖ ✖ ✖ データ、セマンティクス、ガバナンスを 一箇所で実現 データの一元 管理 意味論のため のひとつの場 所 データガバナンス のための単一拠 点 データの保存場所 が複数 意味論のための複数 の場所 データガバナンスのため の複数の場所
  38. ユニーク ユーザー数は? 国別の売上の 推移は? 最も重要な 顧客層は? 最もポピュラーな 配送方法は? 注文の優先度の 変化の傾向は?

    注文の優先度別の 売上の構成は? たしかに、良いダッシュボードは 多くの質問に答えてくれる
  39. あなたが予測できるのは ユーザーが尋ねる質問のほんの一部 ユニーク ユーザー数は? 国別の売上の 推移は? 最も重要な 顧客層は? 最もポピュラーな 配送方法は?

    注文の優先度の 変化の傾向は? 注文の優先度別の 売上の構成は? 主要なサプライ ヤーは? 現在の 在庫レベルは? 最もリードタイムが 長いサプライヤー は? サプライチェーン のボトルネックは どこか? 配送の 遅延頻度は? 欠品が発生してい る製品は? 需要予測の精度 は? 余剰在庫がある 場所は? 場所別の在庫の 状況は? 最も利益が大きい 製品は? 配送遅延の コストは? 品質に問題のあ るサプライヤー は? 平均的な注文履 行時間は? 輸送コストの 傾向は? 配送コストの 傾向は? サプライヤーの契 約義務の遵守状況 は? 製品別の返品率 は? 倉庫の稼働率 は? 持続可能性目標 の達成状況は?
  40. AI/BI Genie データと会話 セルフサービスでの Q&A ダッシュボードの更に先へ:ユーザー が自らのデータと自然言語を通じて会 話しインサイトを得られる データインテリジェンスを 活用したAI

    AIはユーザーデータに固有の知識を 元に回答、ユーザーフィードバックを 通じた精度の向上が可能 ガバナンスとセキュリティ ユーザーがアクセス可能なデータは Unity Catalogで完全に管理 一般提供(GA)
  41. GENIE Query Agent Query Agent AIエージェント ユーザー固有のデータの 意味を継続的に学習する エージェントシステム 専門のAIエージェントが協調して動作するアンサンブル方式

    必要に応じてユーザーに確認を求める ツールとコンテキストの活用 • Unity Catalogのメタデータ • クエリ履歴 (すべてのワークロード ) • 関連する資産 (ノートブック、ダッシュボード、クエリ ) • セマンティックモデル (利用可能な場合 ) 学習し、記憶する 質問は何でしょうか? ユーザーデータの意味を 継続的に理解
  42. データインテリジェンス を活用した AIによる精度の高い回答 データプラットフォーム からのインテリジェンス 管理者の指示を通じた インテリジェンス ユーザーフィードバックを 通じたインテリジェンス GenieはUnity

    Catalogのテーブルの スキーマ、コメント、PK/FK関係を 理解する。加えて、ダッシュボード内の SQLクエリも理解する。 Genieスペースの管理者は、指示(例:SQL クエリ、ビジネスルール、セマンティクス)を 通じて更にインテリジェンスを追加できる。 質問にどのように回答すべきか不確かな場合、 Genieは回答を推測するのでなくユーザーに明 確化を求める。ユーザーはリアルタイムで フィードバックを提供することで、Genieの回答 精度を更に向上できる。
  43. AIが生成するインサイトに ガバナンスとセキュリティ を適用 Genieのモニタリング機能 を用いることで、ユーザー が質問した内容をレビューできる。評価 (良い/悪い) を 元に今後の回答精度を向上 させられる。

    AI/BIダッシュボード AI/BI Genie 安全な回答を返却 企業データ アクセス ポリシー を適用 Unity Catalog GenieはUnity Catalogのアクセスポリ シーを遵守し、ユーザーがアクセス 可能なデータのみ を返却する。
  44. AI/BIを選ぶ理由 シンプルなアーキテクチャー AI/BIはデータプラットフォームの一部 として統合されているため、別のデー タシステムや BIシステムの管理は不 要 AI/BIはユーザーのデータ資産や使 用パターン、ビジネスの概念に関す る深い知識

    を持ち、関連性が高く正 確な回答を迅速に生成 AI/BI Genieは、ビジネスユーザーが ダッシュボードを超えて、自然言語を 使って新しいインサイトをセルフサー ビスで得られるようサポートする データを深く理解 より賢いセルフサービス 1 2 3
  45. ハンズオン : Unity Catatlog 1. Databricksワークスペースにログイン ◦ ログイン方法はFree Edition登録方法を参照 2.

    表示言語を日本語に変更 3. サンプルのテーブルを表示 ◦ カタログ: (当日指示) ◦ スキーマ: bricksmart ◦ テーブル: gold_user 4. サンプルのテーブルの各種情報を確認 ◦ どんなデータ が入っているか? ◦ いつ、誰に よって作られたか? ◦ 誰がデータを使用 できるか? ◦ テーブル/他データ資産との関係性は? 1. テーブルの説明 の鉛筆ボタンを 押してみましょう(説明を変更して もSaveを押さなければ反映され ません) 2. 列のコメント の鉛筆ボタンを押し てみましょう 3. transactions テーブルの 概要タブの「関係を表示 」 ボタンを押してみましょう 課題 追加課題 (時間があれば挑戦 )
  46. 1. Genieスペースを作成 • Title例: EC分析スペース_山田太郎 • Default warehouse: Serverless Starter

    Warehouse または当日指示 • Tables: aibi_demo_catalog > bricksmart スキーマの全テーブルを選択 • 2. 商品のカテゴリー の理解 • ブリックスマートの商品のカテゴリーをGenieに 聞く • 回答が英語の場合、日本語で回答するように Genieに指示を追加する • 3. 商品のサブカテゴリー の理解 ハンズオン : AI/BI Genie 課題 4. 回答にフィードバック を付与 • Good/Badを付与 • 管理者にレビューリクエストを送信 • 5. スペース設定の更新 • 説明とサンプル質問を追加 • 6. スペースの共有 • ワークスペースのユーザーに作成した Genieスペースを共有
  47. ハンズオン : AI/BIダッシュボード 1. 空のダッシュボード を作成 • 名前例: EC分析ダッシュボード _山田太郎

    • 使用するウェアハウス : Serverless Starter Warehouse または当日指示 • 2. ダッシュボードにテキスト を追加 • テキスト例: # 基本的な分析 • 3. ダッシュボードにデータセット を追加 • gold_user テーブルを選択 • 4. ダッシュボードにグラフを追加 1. 合計ユーザー数 2. 年齢層別ユーザー数 3. 性別別ユーザー数 4. 地域別ユーザー数 課題 5. ダッシュボードにフィルタ を追加 1. 年齢層 2. 性別 • 6. ダッシュボードを公開 • 7. クロスフィルタリング を試す • グラフの「シニア層」などをクリックし 他のグラフの変化を確認する
  48. ハンズオン : AI/BIダッシュボード 1. ダッシュボードに新しいページ を追加 • 既存ページ名を基本などに変更する • 新規ページ名を応用などに変更し、

    # 応用的な分析のテキストを追加する • 2. Databricks Assistantを活用して 以下のデータセット用のSQLを追加 1. 地域別・年齢層別のユーザー数 2. 年齢層別・地域別の平均食品購入点数 • 3. 2のデータセットを使ってグラフを作成 • 4. ダッシュボードを公開 追加課題 (時間があればチャレンジ ) 5. 公開済みダッシュボード上の Genieに聞くをクリックし、 何かしらの質問をしてみる • データセットについて日本語で説明して • シニア層の定義は? • 地域の例は?
  49. ハンズオン : AI/BI Genie 1. 地域の傾向 を分析(以下は観点の例) • ユーザーがいる地域 •

    東京と大阪のカテゴリー別の売上金額と割合 • 東京と大阪のカテゴリー別の購買客数・客単価・ 購買頻度 • 2. 年齢層の傾向 を分析 • ユーザーの年齢層 • 年齢層ごとのカテゴリー別の売上金額と割合 • シニア層と中年層の食料品の売上構成の差 追加課題 (時間があればチャレンジ ) 3. 更に時間があれば自由に質問 を行い データの隠れた傾向 を炙り出す 以下は分析軸の例 • 性別ごとの傾向 • 組み合わせによる傾向 i. 若年層の地域別の傾向 ii. シニア層の地域別の傾向